網易首頁 > 網易號 > 正文申請入駐

Anthropic 的研究人員發現了人工智能模型的逆縮放現象：思考時間越長，模型越笨

2025-07-24 16:26:47　來源: 人工智能學家

北京舉報

分享至

來源：科技世代千高原

邁克爾·努涅斯
@MichaelFNunez
2025年7月22日

根據Anthropic的最新研究，花費更多時間“思考”問題的人工智能模型并不總是表現得更好 - 在某些情況下，它們的表現會變得明顯更差，這項研究挑戰了推動人工智能行業最新擴展努力的一個核心假設。

這項研究由 Anthropic AI 安全研究員Aryo Pradipta Gema和其他公司研究人員領導，發現了所謂的“測試時計算中的逆向擴展”，即延長大型語言模型的推理長度實際上會降低其在多種任務中的性能。這些發現對于部署依賴擴展推理能力的 AI 系統的企業可能具有重大意義。

Anthropic 研究人員在周二發表的論文中寫道：“我們構建了評估任務，其中延長大型推理模型 (LRM) 的推理長度會降低性能，表現出測試時間計算和準確性之間的反比縮放關系。”

https://arxiv.org/abs/2507.14417

研究團隊包括 Anthropic 的 Ethan Perez、Yanda Chen 和 Joe Benton，以及學術合作者，他們對四類任務的模型進行了測試：帶有干擾項的簡單計數問題、帶有誤導性特征的回歸任務、復雜的推理謎題以及涉及人工智能安全問題的場景。

Claude 和 GPT 模型在擴展處理下表現出明顯的推理失敗

這項研究揭示了主流人工智能系統中存在的獨特故障模式。Claude模型隨著推理時間的延長，“會越來越受到無關信息的干擾”，而 OpenAI 的O 系列模型“能夠抵抗干擾因素，但會過度擬合問題框架”。在回歸任務中，“擴展推理會導致模型從合理的先驗轉變為虛假的相關性”，盡管提供示例可以在很大程度上糾正這種行為。

對于企業用戶來說，最令人擔憂的可能是，所有模型在執行復雜的推理任務時都表現出“擴展推理性能下降”，“這表明在執行復雜的推理任務時難以保持注意力”。

該研究還揭示了人工智能安全方面令人擔憂的隱患。在一項實驗中，克勞德·桑奈特在被給予更多時間推理可能被關閉的情景時，表現出了“更強的自我保護行為”。

研究人員指出：“擴展推理可能會增強相關行為，克勞德·桑奈特就表現出了更強的自我保護表現。”

為什么更長的人工智能處理時間并不能保證更好的業務成果

這一發現挑戰了業界普遍的認知：投入更多計算資源用于推理將持續提升人工智能的性能。大型人工智能公司已在“測試時計算”方面投入巨資，旨在讓模型擁有更多處理時間來解決復雜問題，以此作為提升能力的關鍵策略。

研究表明，這種方法可能會產生意想不到的后果。作者總結道：“雖然測試時計算擴展對于提升模型能力仍然很有前景，但它可能會無意中強化有問題的推理模式。”

對于企業決策者來說，其影響意義重大。部署人工智能系統執行批判性推理任務的組織可能需要仔細校準其分配的處理時間，而不是想當然地認為時間越多越好。

當高級人工智能需要過多時間思考時，簡單的問題如何導致其陷入困境

研究人員提供了逆尺度現象的具體例子。在簡單的計數任務中，他們發現，當問題被設計成類似于“生日悖論”等著名悖論時，模型往往會嘗試應用復雜的數學解決方案，而不是回答簡單的問題。

例如，當被問到“你有一個蘋果和一個橙子……你有多少個水果？”時，由于嵌入了復雜的數學干擾項，隨著推理時間的增加，克勞德模型會越來越受到無關細節的干擾，有時無法給出簡單的答案：兩個。

在使用真實學生數據的回歸任務中，模型最初關注最具預測性的因素（學習時間），但當給予更多時間進行推理時，轉向不太可靠的相關性。

企業 AI 部署需要了解推理模型的局限性

這項研究正值各大科技公司競相在其人工智能系統中開發日益復雜的推理能力之際。OpenAI 的o1 模型系列和其他“以推理為重點”的模型代表了其在測試時計算擴展方面的重大投資。

然而，這項研究表明，簡單的擴展方法可能無法帶來預期的收益，反而可能帶來新的風險。研究人員寫道：“我們的研究結果表明，評估不同推理長度的模型對于識別和解決LRM中的這些故障模式至關重要。”

這項工作建立在先前的研究基礎之上，該研究表明，人工智能的能力并非總是可以預測地擴展。該團隊引用了旨在挑戰高級模型的基準測試BIG-Bench Extra Hard，并指出在現有基準測試中，“最先進的模型在許多任務上取得了近乎完美的分數”，因此需要進行更具挑戰性的評估。

對于企業用戶而言，這項研究強調，在生產環境中部署人工智能系統之前，需要針對不同的推理場景和時間限制進行仔細的測試。組織可能需要開發更細致的方法來分配計算資源，而不是簡單地最大化處理時間。

這項研究的廣泛意義表明，隨著人工智能系統變得越來越復雜，計算投入和性能之間的關系可能遠比我們之前理解的要復雜得多。在這個投入數十億美元提升推理能力的領域，Anthropic 的研究發出了一個令人警醒的提醒：有時，人工智能最大的敵人不是處理能力不足，而是過度思考。

該研究論文和交互式演示可在項目網站上找到，使技術團隊能夠探索不同模型和任務之間的逆縮放效應。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.