IT之家 2 月 20 日消息,當用戶與 AI 聊天機器人進行長對話時,可能會感覺它們變得越來越“笨”,而這種感覺如今有了科學依據。
據 Windows Central 今日報道,微軟研究院與賽富時(Salesforce)聯合發表的一項研究證實,即使是目前最先進的大語言模型,在多輪對話中的可靠性也會急劇下降。
![]()
研究人員對包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在內的 15 款頂尖模型進行了超過 20 萬次模擬對話分析,揭示出一個被稱為“迷失會話”的系統性缺陷。
數據顯示,這些模型在單次提示任務中的成功率可達 90%,但當同樣的任務被拆解成多輪自然對話后,成功率驟降至約 65%。
研究指出,模型的“智力”本身并未顯著下降 —— 其核心能力僅降低約 15%—— 但“不可靠性”卻飆升 112%。也就是說,AI 大模型仍然具備解決問題的能力,但在多輪對話中變得高度不穩定,難以持續跟蹤上下文。
報告指出,當前大多數模型主要在“單輪”基準測試下進行評估,即一次性接收全部指令的理想實驗環境。但現實中的人類交流通常是漸進式的,信息在多輪互動中逐步補充。研究發現,一旦任務被“拆分”到多個回合中,即便是最先進的模型,也容易出現系統性失誤。
研究人員進一步分析了造成性能下降的行為機制。
- 首先是“過早生成”:模型往往在用戶尚未完整說明需求前就嘗試給出最終答案。一旦在早期回合中形成錯誤假設(IT之家注:可能是指第一印象),模型后續便會在該錯誤的基礎上繼續推理,而不是隨著新信息的加入進行修正,從而導致錯誤逐步放大。
- 其次是“答案膨脹”。在多輪對話中,模型的回復長度比單輪對話增加了 20% 至 300%。更長的回答往往包含更多假設與“幻覺”,這些內容隨后被納入對話的持續上下文,從而進一步影響后續推理的準確性。
令人意外的是,即使是配備了額外“思考詞元”(thinking tokens)的新一代推理模型,如 OpenAI o3 和 DeepSeek R1,也未能顯著改善在多輪對話中的表現。研究還發現,將模型溫度參數設置為 0—— 這一常用于確保一致性的技巧 —— 對此類對話衰減幾乎沒有防護作用。
![]()
這一發現對當前 AI 行業的評估方式提出了質疑。研究人員指出,現有的基準測試主要基于理想的單輪場景,忽略了模型在真實世界中的行為。對于依賴 AI 構建復雜對話流程或智能體的開發者而言,這一結論意味著嚴峻挑戰。
![]()
目前最有效的應對方式反而是減少多輪往返交流,將所有必要數據、約束條件和指令一次性在單個完整提示中提供,以提高輸出一致性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.