上個月我們上線了一個摘要功能。我寫了覆蓋所有場景的測試用例——輸入進去,期待輸出出來,斷言關鍵詞必須出現。標準流程,十年老本行。三周后,一個用戶反饋說,AI生成的摘要比我測試里寫的"正確答案"還要好。
模型在我部署之后自己進化了。我的測試不知道這件事。它還在用三個月前的平庸答案當標準答案。
「同樣的提示詞跑三遍,三個回答都對,但三個都不一樣。」這是我同事花了四天調試"失敗"測試之后的原話。四天。追著AI的改進當bug修。傳統測試假設確定性:輸入A永遠等于輸出B。AI測試面對的是一團活的概率云——溫度參數、模型版本、系統提示詞,任何一個變量都能讓結果漂移。
我們試過退而求其次:不斷言具體內容,只檢查結構。有沒有摘要?字數超沒超200?關鍵詞在不在?直到一次邊緣案例——AI在負面語境里提到了產品名,測試綠了,用戶炸了。關鍵詞在,意思反了。自然語言不是正則表達式能搞定的。
現在我們的測試文件里飄著一行TODO:「等模型穩定了再補全。」問題是,模型永遠不會穩定。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.