網易首頁 > 網易號 > 正文申請入駐

剛剛，騰訊姚順雨團隊首個成果發布！揭示大模型真正瓶頸

2026-02-03 20:28:18　來源: 智東西

北京舉報

分享至

智東西
作者程茜
編輯心緣

智東西2月3日報道，剛剛，騰訊混元官網正式上線姚順雨團隊最新成果，發布了專門評測大語言模型能否從上下文（Context）中學習新知識并正確應用的基準CL-bench。

這是姚順雨加入騰訊混元擔任首席AI科學家后，其團隊首次發布研究成果，也是騰訊混元技術博客首次公開。

▲騰訊混元技術博客及致謝部分

大模型與人類在解決問題時關鍵區別為，大模型只能依賴預訓練階段的靜態記憶，而人可以實時根據現場情況完成任務。騰訊混元研究團隊實測發現，當前的SOTA模型幾乎都不會從上下文中學習，表現最好的GPT-5.1（high）任務成功率也僅有23.7%。

基于此，該團隊打造CL-bench就只有一個核心目標：要求模型在解決每個任務時，都必須從上下文中學習模型預訓練中不存在的新知識，并正確應用。

騰訊混元技術博客地址：https://hy.tencent.com/research

項目主頁：www.clbench.com

一、讓大模型不再死記硬背，新基準包含500個復雜上下文任務

過去幾年，大語言模型進步飛快，能解開奧數級別的難題、推演復雜的編程邏輯，甚至能通過那些人類需要苦讀數年才能拿下的專業資格考試。但其背后有一個關鍵門檻，大模型即使能在考場拿滿分，但未必能勝任真實世界工作。

人類可以在執行任務中實時從眼前的環境進行學習。但大語言模型主要依賴“參數化知識”，即在預訓練階段被壓縮進模型權重里的靜態記憶。在推理時，模型更多是在調用這些封存的內部知識，而不是主動從當前輸入的新信息中汲取營養。

因此，目前優化出的模型擅長對自己“已知”的事物進行推理，但用戶需要的，卻是讓模型解決那些依賴于雜亂、動態變化的上下文的任務。

基于此，混元研究人員希望彌合這一差距，從根本上改變模型的優化方向，他們構建了專門評測大語言模型能否從上下文中學習新知識并正確應用的基準CL-bench。

▲大語言模型的范式轉變

CL-bench包含由專家制作的500個復雜上下文、1899個任務和31607個驗證標準。其對模型的要求為：要求模型必須在解決每個任務都從上下文中學習到模型預訓練中不存在的新知識，并正確應用。

模型需要學習的知識非常廣泛，包括新的領域知識、不熟悉的規則系統、復雜的產品工作流，甚至是必須從實驗數據中推導歸納出的定律或結論。

所有這些知識要么是由領域專家完全新構建的，要么是取自那些不太可能出現在當前前沿模型訓練數據中的小眾、長尾來源。因此，模型無法通過回憶靜態的參數化知識來解決任務，都要求模型從提供的上下文進行學習并應用。

具體來說，CL-bench涵蓋了四種廣泛的現實世界上下文學習場景：

▲CL-bench的上下文分類體系。

領域知識推理：上下文提供特定的領域知識，例如虛構的法律體系、創新的金融工具或小眾專業知識，模型需要利用這些知識來推理并解決具體問題。

規則系統應用：上下文提供新定義的正式系統，例如新的游戲機制、數學形式體系、編程語法或技術標準，模型必須理解并應用這些規則來執行任務。

程序性任務執行：上下文提供復雜的過程系統，例如工作流、產品手冊和操作指南，模型必須理解并應用這些程序性信息來完成任務。

經驗發現與模擬：上下文提供復雜系統內的實驗數據、觀測記錄或模擬環境。與前幾類涉及演繹推理不同，這一類專注于歸納推理，模型必須從數據中發現潛在的定律或結論，并應用它們來解決任務。

▲CL-bench示例，解決這些任務要求大語言模型從提供的上下文中學習

這些類別包含了大部分現實世界工作中常見的演繹推理和歸納推理任務，能衡量模型的上下文學習能力。

二、模型成功率僅為17.2%，得出5大關鍵結論

研究人員在CL-bench上評估了十個主流大語言模型。

平均來看，模型僅解決了17.2%的任務。其中GPT-5.1（High）解決了23.7%的任務。

換句話說，盡管上下文中擁有解決每個任務所需的全部信息，但模型還是在絕大多數任務上都失敗了。這表明當前的SOTA模型幾乎都不會從上下文中學習。

▲十個前沿模型在CL-bench上的任務解決率

混元研究團隊得出幾個關鍵結論：

1）忽略或誤用上下文是導致失敗的主要原因。

許多錯誤并非源于信息缺失，而是因為模型忽視了上下文中的關鍵細節，或錯誤地應用了它們。在許多情況下，模型只會利用預訓練學習到的靜態知識來解決任務，即使上下文明確定義了新的規則、概念或程序，模型也不會學習和利用。

▲各模型錯誤類型的分布

2、長上下文推理和指令遵循是必要的，但不是充分條件。

案例分析表明，那些難以跨長上下文追蹤依賴關系或難以精確遵循約束的模型，往往表現得更差。然而，即使是能夠處理長輸入并可靠遵循指令的模型，仍然在許多任務上失敗。上下文學習需要的能力，遠不止長上下文理解和指令遵循能力。

3、從實驗數據和環境模擬中進行歸納推理比演繹應用更困難。

演繹任務讓模型根據上下文中明確給出的規則和流程進行應用，而經驗發現和環境模擬類任務則要求歸納推理，也就是從數據中總結規律或在虛擬環境中探索。模型在這類任務上的表現明顯較差，任務解決率通常低于10%，且結果波動大。這表明發現規律遠比應用規則更具挑戰性。

▲GPT-5.1在高/低推理強度設置下，各子類別表現對比

4、更高的推理強度通常能提升上下文學習效果。

對部分模型來說，增加推理強度可以改善表現，使模型更深入地理解復雜上下文。例如，GPT-5.1在管理類和實驗數據類任務上的表現提升約6%，但其他模型提升有限甚至可能下降，說明單靠更多推理并不足夠，模型還必須能夠正確吸收和組織上下文信息。

▲不同輸入長度下模型上下文學習表現的變化趨勢

5、上下文學習的難度與上下文長度相關，但短上下文也可能很復雜。

較長的上下文通常讓所有模型的任務更難，這驗證了長上下文處理仍是關鍵瓶頸。然而，即使是短上下文，如果包含信息密集、規則隱含、依賴復雜或約束嚴格的內容，也依然很具挑戰性，說明上下文學習的難度不僅僅來源于長度，也來自于其復雜度。

CL-bench充分解釋了大語言模型在真實場景中為什么經常出錯：即使有了上下文工程，給模型準備好了所需的上下文，模型也會失敗。如果模型不能真正從中學習，僅僅提供上下文是不夠的。上下文學習作為一項模型基礎的學習能力，很大程度上被忽視了。

三、上下文都是自包含，測試任務采用無污染設計

CL-bench中的每個上下文都是完全自包含（Self-contained）的，解決任務所需的所有信息都顯式地提供在上下文本身之中：不需要外部檢索，也不允許隱藏假設。

▲解決CL-bench中的任務需要模型從相應的上下文中學習新知識

為了確保性能真正反映上下文學習，而不是記憶或數據泄露，CL-bench采用了無污染（Contamination-free）設計：

虛構創作：專家創作完全虛構的內容，例如為虛構國家設計一套完整的法律體系，包括新穎的判例和法律原則，或創建具有獨特語法和語義的新編程語言。

現有內容的修改：專家修改現實世界的內容以創建變體，例如更改歷史事件、改變科學和數學定義，或修改技術文檔和標準。

整合小眾和新興內容：專家納入了在預訓練數據集中代表性極低的小眾或近期新興內容，如前沿研究發現、新發布的產品手冊或技術文檔，以及來自專門領域的特定知識。

在不提供任何上下文的情況下，GPT-5.1（High）僅能解決不到1%的任務。這也證明數據是無污染的，模型若不從Context中學習，幾乎完全無法解決這些任務。

此外，CL-bench的設計具有高復雜性和序列依賴性。其中，51.1%的任務需要序列依賴，意味著后續任務的解決方案取決于早期交互的結果。這種多輪次設計會增加任務難度。

平均而言，領域專家花費約20小時標注每個上下文，以確保任務構建的質量和深度。

與此同時，CL-bench中的每個任務都是完全可驗證的。每個上下文平均關聯63.2個驗證標準，每個任務包含16.6個評估標準。

結語：大模型如何記憶，將成2026年核心主題

混元技術博客還提到了混元研究團隊后續的關注重點，包括如何讓模型提升上下文學習能力、如何讓大模型從上下文中學習到的知識持久化。

如果模型的上下文學習能力能像之前其他能力那樣被提升上去，人類在AI系統中的角色將發生轉變：人類不再是主要的數據提供者（training data provider），而變成了上下文提供者。競爭的焦點將從“誰能把模型訓練得更好”，轉向“誰能為任務提供最豐富、最相關的上下文”。

他們認為，大模型如何記憶很可能成為2026年的另一個核心主題，要充分發揮大語言模型的潛力，可能需要新的架構、新的優化方式來決定“該保留什么”。

未來，一旦大模型上下文學習與記憶變得可靠，模型或許就能實現自主學習，它們將自主準備上下文，從中學習并自我鞏固。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

狂擲80億 , 節AI大戰誰贏了？

36氪 2026-02-22 14:04:15
2 跟貼 2
谷歌做了個論文專用版nano banana！頂會級Figure直出

機器之心Pro 2026-02-05 15:52:42
1 跟貼 1

大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0

DPO「只看總分不看細節」？TI-DPO用Token重要性重塑大模型對齊

機器之心Pro 2026-02-11 13:45:57
0 跟貼 0
天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
4 跟貼 4

中美AI同步加速：47天30次更新，中國AI的最強主場究竟在哪？

量子位 2026-02-22 18:31:31
5 跟貼 5

1000 塊/年的輸入法，我用它習慣了「口噴」，再也回不去打字了 | AI 器物志

愛范兒 2026-02-21 18:39:19
4 跟貼 4
谷歌高管放話：這兩類AI初創公司，別輕易涉足了

機器之心Pro 2026-02-22 17:38:06
1 跟貼 1

歡迎來到AI智能體新時代：未來不是“為人創造”，而是“為AI服務”

華爾街見聞官方 2026-02-22 13:06:02
18 跟貼 18
2026年的AI：向人立心，向實立命 | 2026商業新愿景

經濟觀察報 2026-02-14 11:20:06
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
“走路去洗車”熱帖離譜刷屏，人類頭一回被它耍得這么慘

新周刊 2026-02-21 16:06:14
58 跟貼 58
中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
37 跟貼 37
讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0
AP2O-Coder 讓大模型擁有「錯題本」，像人類一樣按題型高效刷題

機器之心Pro 2026-01-14 15:07:07
0 跟貼 0
清華×北大最新Cell：推出AI生成模型PocketXMol，將新藥研發統一為“原子級”定制

生物世界 2026-02-22 12:06:55
0 跟貼 0
在這個追求速成的時代，請允許自己醞釀一會兒

秦朔朋友圈 2026-02-23 00:08:14
0 跟貼 0
《原神》動畫開始制作；騰訊：元寶月活 1.14 億；Xbox 換帥，菲爾·斯賓塞退休 | 極客早知道

極客公園 2026-02-22 08:44:13
3 跟貼 3
被傳背靠騰訊？《幻獸帕魯》官方否認：我們獨立運營

游民星空 2026-02-20 08:08:08
1 跟貼 1
22排行榜丨NO.3 吃飯是個技術活，12個吃飯習慣要改

中國臨床營養網 2026-02-19 08:43:45
1 跟貼 1
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0
烏克蘭反攻，200平方公里什么概念？

大秦說書 2026-02-20 17:19:26
986 跟貼 986
【行業深度】洞察2025：中國移動游戲行業競爭格局及市場份額（附市場集中度、競爭梯隊等）

前瞻網 2026-02-20 14:21:43
2 跟貼 2
騰訊、百度、螞蟻集團深圳招人！

深圳本地寶 2026-02-22 18:12:54
1 跟貼 1
編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
63 跟貼 63
20天狂更超10次，OpenClaw接入Gemini 3.1和Apple Watch

新智元 2026-02-22 19:07:49
0 跟貼 0
Agent2World來了，把世界模型做成可運行的符號環境

機器之心Pro 2026-02-02 15:24:04
5 跟貼 5
學術插圖新神器！萬字材料秒出SVG，西湖大學出品 | ICLR'26

量子位 2026-02-22 18:15:42
0 跟貼 0
AI上春晚：一場十四億人的驗收

36氪 2026-02-18 10:56:31
16 跟貼 16
Moltbot作者被Claude刁難后：MiniMax M2.1是最優秀的開源模型

量子位 2026-01-29 13:17:17
21 跟貼 21
哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1869 跟貼 1869
產品漲價、股價飆升，中國AI大模型龍頭“爆”了！

每日經濟新聞 2026-02-22 21:13:30
0 跟貼 0
學術報告 | 張鴻輝：城市存量低效空間更新改造的三維模擬與優化決策

中國城市規劃學會 2026-02-22 09:16:38
0 跟貼 0
微軟游戲部門領導層改組：菲爾·斯賓塞退休阿莎·夏爾馬接任馬特·布蒂升職莎拉·邦德離職

游戲早知道 2026-02-22 23:59:19
0 跟貼 0
三亞至深圳最高票價達14460元

第一財經資訊 2026-02-22 12:34:38
1289 跟貼 1289
8個月前AI就知道他要殺人！ChatGPT員工爭論了很久，選擇沉默… 最后8個生命消失在這座小鎮

英國那些事兒 2026-02-22 22:49:40
26 跟貼 26
王祺揚會見科大訊飛客人

三亞發布 2026-02-22 22:26:09
0 跟貼 0
窮游和臟游是兩個概念，看完才明白，大哥這不是窮游是臟游！

開心一刻樂不停 2026-02-19 08:22:00
0 跟貼 0
高速春節堵車一老板原地賣甘蔗，目擊者發聲：10元一根，不稱重，選好就走

環球網資訊 2026-02-22 12:21:07
605 跟貼 605
人氣火爆！江蘇無錫一景區發布限流公告

現代快報 2026-02-19 22:42:05
589 跟貼 589

智東西

聚焦智能變革，服務產業升級。

11245文章數 116975關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

親子

游戲

公開課

教育要聞

兩所大學，合并！

壓歲錢到底該如何規劃?。?/a>

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

剛剛，騰訊姚順雨團隊首個成果發布！揭示大模型真正瓶頸

馬斯克：星艦每年將發射超過10000顆衛星

男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

谷愛凌：6次參賽6次奪牌 我對自己非常自豪

谷愛凌：真正的強大 敢接納生命的節奏

特朗普新加征關稅稅率從10%提升至15%

續航1810km！smart精靈#6 EHD超級電混2026年上市

態度原創

兩所大學，合并！

50+女人更適合基礎款，掌握3個高段位搭配思路，輕松提升品味

萌娃看見阿姨的大肚子竟這樣說，著急的樣子萌化了

《GTA6》的第二天發售？《寶可夢》新作爆料來了！

剛剛，騰訊姚順雨團隊首個成果發布！揭示大模型真正瓶頸

男子持霰彈槍燃燒罐闖特朗普私宅被擊斃細節披露

男子持霰彈槍燃燒罐闖特朗普私宅被擊斃細節披露

谷愛凌：6次參賽6次奪牌我對自己非常自豪

谷愛凌：真正的強大敢接納生命的節奏

續航1810km！smart精靈#6 EHD超級電混2026年上市

兩所大學，合并！

50+女人更適合基礎款，掌握3個高段位搭配思路，輕松提升品味

萌娃看見阿姨的大肚子竟這樣說，著急的樣子萌化了

《GTA6》的第二天發售？《寶可夢》新作爆料來了！