網易首頁 > 網易號 > 正文申請入駐

卡內基梅隆大學揭示通用AI助手的真實表現與擴展極限

2026-02-28 17:44:05　來源: 科技行者

北京舉報

分享至

這項由卡內基梅隆大學語言技術研究所和Meta公司聯合進行的研究發表于2026年2月，論文編號為arXiv:2602.18998v1。研究團隊開發了General AgentBench基準測試平臺，專門用于評估通用AI智能體在真實使用場景下的表現能力。

當我們談論AI智能體時，通常會想到那些能夠搜索信息、編寫代碼、進行推理并使用各種工具的智能助手。目前大多數AI智能體的測試都是在特定領域進行的，就像讓一個廚師只在意大利餐廳展示手藝，然后就宣稱他是全能廚師。但現實中的用戶需求往往跨越多個領域，需要智能體在同一個對話中既能搜索信息，又能編寫代碼，還能進行復雜推理。

這種差距促使研究團隊開發了General AgentBench，這是首個專門評估通用AI智能體的綜合性基準測試平臺。與以往的測試不同，這個平臺將所有工具和任務整合在一個統一的環境中，更貼近真實的用戶使用場景。研究團隊不僅評估了AI智能體的基礎能力，還深入研究了它們在面對復雜任務時通過增加計算資源來提升性能的能力，這被稱為"測試時縮放"。

結果發現，即使是最先進的AI智能體，當從專門化環境轉移到通用環境時，性能都會出現顯著下降。更令人意外的是，傳統認為有效的兩種性能提升策略——延長推理時間和并行生成多個答案——在實際應用中都遇到了明顯的局限性。這些發現對理解AI智能體的真實能力邊界具有重要意義。

一、從專家到通才：AI智能體面臨的現實挑戰

當前的AI智能體評估就像讓一位專業醫生在配備齊全的醫院里看病，然后聲稱他能處理任何情況。但現實中的AI助手更像是一位全科醫生，需要在資源有限、情況復雜的環境中處理各種突發問題。這種差異正是研究團隊關注的核心問題。

傳統的AI智能體測試通常針對單一領域設計，比如專門測試軟件開發能力的會提供完整的編程環境和相關工具，測試網頁瀏覽能力的會提供專門的瀏覽器界面。這種方法雖然能準確評估特定能力，但無法反映智能體在面對跨領域任務時的真實表現。

研究團隊設計的General AgentBench包含了四個核心領域：搜索、編程、推理和工具使用。每個領域都來自已有的權威測試集，但關鍵創新在于將所有工具統一到一個共享接口中。這意味著智能體在處理任何任務時都能看到全部301個可用工具，而不是只看到與當前任務相關的工具。這種設計更真實地模擬了用戶與AI助手的實際交互方式。

這個統一環境的構建基于模型上下文協議(MCP)，采用了主機-客戶端-服務器的架構。當智能體需要使用某個工具時，請求會通過中央主機路由到相應的服務器執行。這種設計確保了不同領域的工具能夠無縫協作，同時也暴露了智能體在面對大量選擇時的決策能力。

在這種統一環境下，僅工具描述就可能占用數萬個token的上下文空間。加上用戶查詢和多輪交互歷史，整個對話很容易進入長上下文處理范圍。這與許多現有的長上下文測試（主要關注靜態文檔理解）有著根本不同，因為這里的上下文是動態演化的，包含了任務指令、工具文檔、執行反饋和智能體自己的歷史決策。

二、性能大跌眼鏡：通用環境下的表現實況

研究團隊測試了十個頂尖的AI模型，結果令人深思。當這些在專門測試中表現優異的模型轉移到通用環境時，幾乎所有模型都出現了顯著的性能下降，平均降幅在10%到30%之間。這就像讓一位在專業廚房里得心應手的廚師轉到一個什么都有但擺放混亂的大廚房，突然發現做菜變得困難重重。

最引人注目的是Claude Sonnet 4.5表現出了最強的魯棒性，平均性能僅下降0.2%，展現出了在通用環境中的出色適應能力。相比之下，GPT-5在搜索和推理領域表現最佳，但在工具使用方面遇到了較大挑戰。開源模型中，DeepSeek-V3.2的綜合表現最為突出，甚至超越了部分專有模型。

然而，幾乎所有模型在BrowseComp任務上的表現都相當糟糕，這個任務要求智能體在網絡上尋找稀有且精確的信息。這揭示了當前AI智能體在處理超出訓練數據范圍的復雜信息檢索任務時的根本局限性。這種表現差距提醒我們，盡管AI技術發展迅速，但在處理真實世界的復雜、開放性任務時仍然面臨重大挑戰。

有趣的是，一些模型在特定領域實際上表現得更好了。深入分析發現，這些改進來自于跨領域工具的創造性使用。比如在處理搜索任務時，一些智能體學會了使用專門的學術論文搜索API、地圖API或者模型庫API，而不是僅僅依賴通用的網絡搜索。Claude Sonnet 4.5在26%的搜索任務中使用了超出傳統搜索范圍的專業工具，包括78次谷歌地圖API調用、60次學術論文搜索，以及36次機器學習模型API調用。

這種跨領域工具使用行為展現了AI智能體的一個重要能力：在面對復雜任務時，它們能夠動態地選擇和組合最適合的工具，而不是拘泥于傳統的工具分類。這種能力在專門化測試中無法體現，只有在通用環境中才能觀察到。這也解釋了為什么通用評估對于理解AI智能體的真實能力如此重要。

三、延長思考時間的迷思：序列縮放的意外發現

在人類學習中，給更多時間思考通常會帶來更好的結果。基于這種直覺，研究團隊測試了讓AI智能體進行更長時間推理的效果，這被稱為序列縮放。然而，結果與預期截然不同。

序列縮放的基本思路是延長智能體與環境的交互歷史。當智能體試圖結束一次對話時，系統會注入額外的環境反饋，鼓勵它進行進一步的反思和探索。這種方法在理論上應該允許智能體糾正錯誤、完善推理過程，并探索替代解決方案。

但實際觀察到的行為模式令研究團隊意外。大多數模型要么在某個性能水平上停滯不前，要么出現不穩定的波動。更令人困惑的是，一些模型在達到某個交互長度后，性能開始持續下降，再也無法恢復到之前的水平。

深入分析發現了兩種典型的失敗模式。第一種是"停滯波動"：智能體在推理領域表現出這種模式，它們在一個狹窄的性能范圍內反復震蕩，無法突破到更高水平。這表明智能體雖然能夠進行更長時間的思考，但缺乏探索全新解決路徑的能力，同時也無法保持長期的推理一致性。

第二種是"飽和退化"：這在編程任務中最為明顯。智能體最初會從額外的推理步驟中受益，性能有所提升。但一旦超過某個關鍵轉折點，性能就開始持續下降，仿佛陷入了某種負面循環。

研究團隊通過追蹤具體任務實例的正確性變化發現了問題的根源。智能體要么在已經能夠解決的問題上重復成功，而在失敗的問題上毫無進展，要么在正確和錯誤答案之間來回搖擺，表現出不穩定的行為模式。

更深層的分析揭示了"上下文天花板"現象。每個模型都有一個有效的上下文長度限制，當累積的交互歷史接近這個限制時，性能會達到峰值。但一旦超過這個閾值，額外的上下文反而會壓倒智能體的推理能力，導致性能下降。有趣的是，這個天花板在不同領域有所不同，反映了各類任務對上下文利用和計算效率的不同需求。

例如，Qwen3-235B在搜索領域的上下文天花板大約是112K token，而Gemini 2.5-Flash約為96K token。超過這些限制后，額外的交互歷史不僅無法帶來收益，反而會干擾智能體的決策過程。這一發現挑戰了"更多計算時間總是有益"的傳統觀念，揭示了當前AI架構在處理超長上下文時的根本限制。

四、多管齊下的困境：并行縮放的驗證差距

除了延長單次推理時間，另一個常見的性能提升策略是并行生成多個答案，然后選擇最佳的一個。這種方法在數學推理等領域已被證明有效，理論上應該通過增加搜索空間來提高找到正確答案的概率。

研究團隊測試了這種并行縮放策略，結果發現了一個有趣的矛盾現象。一方面，隨著生成答案數量的增加，正確解決方案確實更頻繁地出現在候選集合中。這個被稱為"pass@K"的指標表明，理論上的性能上限隨著K值增加而穩步提升，平均改進約50%。

但關鍵問題在于：如何從這些候選答案中識別和選擇正確的一個？在實際應用中，AI智能體不能同時向用戶提供多個答案，而必須選擇一個最終答案。這就需要智能體具備準確的自我評估能力。

研究團隊設計了兩種自我選擇策略來測試這種能力。第一種是"逐一評估"，讓智能體獨立評估每個候選答案并給出二元判斷。第二種是"兩兩比較"，通過類似冒泡排序的過程，讓智能體比較候選答案并逐步篩選出最佳選項。

然而，兩種策略的表現都遠低于理論上限。在某些情況下，智能體的自我選擇性能甚至會隨著候選數量增加而下降。這種現象被研究團隊稱為"驗證差距"——即智能體生成正確答案的能力與識別正確答案的能力之間存在顯著差異。

為了驗證這是否僅僅是評估能力不足的問題，研究團隊使用了更強大的外部評估器GPT-5來替代智能體的自我判斷。出乎意料的是，GPT-5的表現普遍不如模型的自我評估。這個反直覺的結果揭示了一個重要現象：模型更善于評估自己生成的內容，而外部評估器可能難以準確理解不熟悉的執行軌跡。

這種"解決方案熟悉性"效應表明，智能體在評估與其內部推理模式一致的答案時表現更好，而在面對外部生成或風格迥異的解決方案時則容易出錯。這一發現對并行縮放策略的實際應用提出了根本性挑戰，因為即使生成了正確答案，智能體也可能無法可靠地識別它們。

這些發現綜合起來表明，雖然并行縮放在理論上能夠提升性能上限，但由于驗證能力的根本局限，其實際收益往往有限。這種現象在編程領域相對較輕，但在其他領域普遍存在，限制了并行縮放策略的實用性。

五、架構決定命運：注意力機制的深層影響

研究過程中的一個意外發現涉及不同注意力架構對性能的影響。Qwen3-Next采用了混合線性注意力機制，在序列縮放測試中表現明顯不如采用全注意力機制的Qwen3-235B，盡管兩個模型在其他方面相當接近。

為了理解這種差異的根源，研究團隊進行了詳細的注意力行為分析。他們從智能體的推理軌跡中提取關鍵決策片段，分析模型在做出重要決策時關注了哪些歷史信息。這種分析揭示了全注意力和線性注意力機制在處理復雜任務時的根本差異。

全注意力模型展現出更廣泛的上下文視野，能夠關注到距離當前決策較遠的歷史信息。相比之下，線性注意力由于其類似卷積的感受野限制，主要關注較近的上下文信息。在需要整合長期信息來做出決策的任務中，這種差異會導致顯著的性能差距。

注意力頭的專業化分析也很有啟發性。全注意力模型呈現出清晰的V型模式：中間層的不同注意力頭關注不同類型的模式，展現出功能分化，而后續層則逐漸收斂到相似的關注點，反映了決策過程中的確定性增加。線性注意力模型缺乏這種清晰的結構模式，注意力頭之間的重疊度更高，表明功能分化不足。

層間重疊度分析進一步證實了這一觀察。全注意力模型顯示出漸進的"低到高"趨勢，相鄰層的功能相似，但層間距離越大，功能差異越明顯。這種漸進式的功能分化有利于復雜推理任務的處理。而在線性注意力模型中，這種層次化的功能組織不夠明顯，可能影響了其在需要多步推理的任務中的表現。

這些分析結果表明，注意力架構的選擇不僅影響計算效率，也深刻影響了模型在復雜任務中的推理能力。盡管線性注意力在計算成本上有顯著優勢，但在需要復雜上下文整合的任務中，全注意力機制仍然具有不可替代的優勢。

六、跨領域工具使用的新發現

General AgentBench的一個意外收獲是觀察到了智能體的跨領域工具使用行為。在傳統的專門化測試中，智能體只能接觸到與當前任務相關的工具，無法展現這種創造性的工具組合能力。

以搜索任務為例，傳統方法通常依賴通用的網絡搜索引擎。但在統一工具環境中，一些智能體學會了根據查詢的特定需求選擇最合適的專業工具。當需要查找學術論文時，它們會使用arXiv、PubMed或Google Scholar的專門API。當查詢涉及地理位置時，它們會調用Google Maps API獲取更準確的信息。當需要了解機器學習模型時，它們會直接查詢Hugging Face的模型庫。

這種行為的一個典型案例是查找最新的Hugging Face文本分類模型。傳統的網絡搜索方法需要通過6輪迭代查詢，最終只能找到表面信息。而使用專門工具的智能體只需3步：首先通過Hugging Face的搜索API獲取按下載量排序的模型列表，然后通過網絡搜索了解新興模型，最后通過模型信息API獲取詳細的架構和訓練信息。

這種跨領域工具使用不僅提高了任務完成的效率，也展現了智能體在面對復雜需求時的適應能力。它們能夠根據任務的具體特點動態選擇最合適的工具組合，而不是拘泥于預設的工具分類。這種能力在專門化測試中完全無法觀察到，只有在通用環境中才能顯現。

更重要的是，這種行為模式揭示了智能體的一種元認知能力：它們不僅能夠使用工具，還能夠理解不同工具的優勢和局限性，并據此做出合理的選擇。這種能力對于真實世界的AI助手應用至關重要，因為現實中的用戶需求往往跨越多個領域，需要靈活的工具組合來解決。

七、靜態測試與動態應用的鴻溝

研究團隊還發現了一個重要問題：傳統的靜態長上下文測試與動態智能體應用之間存在根本差異。現有的長上下文基準測試主要關注文檔理解、摘要生成或針在草垛中找針等靜態任務，而智能體的長上下文是通過多輪交互動態演化的。

靜態測試通常涉及長文檔問答，交互模式保持單輪靜態，輸出相對簡短。而智能體場景中的長上下文包含異構信息源：除了長文檔，還有環境反饋、工具執行結果和模型自己的歷史決策。這種動態演化的上下文對模型的處理能力提出了完全不同的要求。

為了驗證這種差異的實際影響，研究團隊比較了十個模型在傳統長上下文基準（LongBench、HELMET、MRCR）和General AgentBench上的表現。結果顯示，兩者之間的相關性出人意料地低，表明在靜態任務上的優秀表現并不能預測在動態智能體任務中的表現。

唯一顯示出中等相關性的是MRCR與推理任務之間的關系。這并不意外，因為推理任務主要涉及從長文檔中提取和計算信息，與MRCR的多輪指代解析任務較為相似。但對于編程和工具使用任務，靜態測試的預測能力極其有限。

這種差異的根源在于任務性質的根本不同。靜態測試主要評估信息檢索和理解能力，而動態智能體任務需要決策制定、執行監控和自適應調整等高階能力。這些能力在靜態環境中無法充分評估，只有在真實的交互環境中才能體現。

這一發現對AI模型的評估和選擇具有重要意義。僅僅依據傳統基準測試的結果來預測模型在智能體應用中的表現可能會產生誤導。需要專門針對智能體應用場景設計的評估方法，才能準確衡量模型在真實應用中的能力。

八、模型間的表現差異與特點

通過對十個領先模型的綜合評估，研究團隊發現了各個模型在通用智能體任務中的獨特特征和優勢領域。這些發現為實際應用中的模型選擇提供了寶貴的參考。

Claude Sonnet 4.5展現出了最強的整體魯棒性，不僅在通用環境下保持了穩定的性能，還在跨領域工具使用方面表現出色。它的這種表現可能歸功于其訓練過程中對多領域任務的平衡關注，以及在工具使用方面的特殊優化。在序列縮放測試中，Claude Sonnet 4.5也表現出了良好的穩定性，很少出現性能退化現象。

GPT-5在搜索和推理任務中表現最佳，展現出了強大的信息檢索和復雜推理能力。但在工具使用方面相對較弱，特別是在需要精確參數控制的復雜工具調用中容易出錯。這種不平衡的表現表明，盡管GPT-5在某些核心能力上領先，但在綜合應用中仍有改進空間。

在開源模型中，DeepSeek-V3.2的表現最為突出，甚至在某些任務上超越了商業模型。這個模型展現出了稀疏注意力架構在大規模應用中的潛力。相比之下，DeepSeek-R1雖然在推理任務中表現不錯，但在其他領域的表現較為平庸，可能反映了其訓練重點的偏向性。

Qwen系列模型中，Qwen3-235B整體表現均衡，特別是在并行縮放測試中展現出了較好的自我選擇能力。而Qwen3-Next由于線性注意力架構的限制，在需要長期依賴的任務中表現較差，但在計算效率上有顯著優勢。

Gemini 2.5系列顯示出了有趣的版本差異。Flash版本在效率和成本方面有優勢，但在復雜推理任務中不如Pro版本。Pro版本在某些高難度任務中表現出色，但在通用環境下的適應性不夠理想。

這些差異反映了不同模型在架構設計、訓練策略和優化目標上的不同選擇。對于實際應用而言，選擇合適的模型需要根據具體的使用場景和性能要求進行平衡考慮。

說到底，這項研究為我們展現了AI智能體發展的現狀和挑戰的真實圖景。當前最先進的AI智能體在面對真實世界的復雜需求時，仍然存在顯著的局限性。從專門化環境到通用環境的性能下降提醒我們，真正的通用人工智能仍有很長的路要走。

更令人深思的是，傳統認為有效的性能提升策略——無論是延長思考時間還是并行生成多個答案——在實際應用中都遇到了意想不到的障礙。序列縮放受到上下文天花板的限制，并行縮放則面臨驗證差距的挑戰。這些發現揭示了當前AI架構的根本局限性，也為未來的研究方向指明了道路。

跨領域工具使用的發現為我們展示了AI智能體的創造潛力，同時也說明了通用評估的重要性。只有在真實的使用環境中，我們才能觀察到這些意想不到的能力涌現。這提醒我們，評估AI系統不能僅僅依賴簡化的基準測試，而需要更貼近實際應用場景的綜合評估。

這項研究的意義不僅在于揭示了當前技術的局限性，更在于為構建更強大、更可靠的通用AI智能體指明了方向。未來的研究需要重點關注上下文管理、推理穩定性和自我評估能力的提升，同時開發更有效的測試時縮放策略。對于有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2602.18998v1查詢完整的研究報告。

Q&A

Q1：General AgentBench與傳統AI測試有什么不同？

A：General AgentBench將所有領域的工具整合在一個統一環境中，智能體需要從301個工具中選擇合適的來完成任務，這更接近真實使用場景。而傳統測試只提供特定領域的工具，就像讓廚師只在意大利餐廳展示手藝。

Q2：為什么給AI更多思考時間反而表現變差？

A：研究發現了"上下文天花板"現象，當交互歷史超過模型的有效處理長度時，額外信息會壓倒智能體的推理能力。就像記憶力有限的人，信息太多反而會混亂，無法做出好的決策。

Q3：AI智能體的跨領域工具使用能力如何？

A：表現出色的智能體能根據任務特點選擇最合適的專業工具，比如用學術搜索API查論文，用地圖API查位置。Claude Sonnet 4.5在26%的搜索任務中使用了超出傳統范圍的專業工具，展現了良好的工具組合能力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.