![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
2025年4月,還在OpenAI的姚順雨發(fā)了一篇博文《The Second Half》,提出一個判斷:AI進(jìn)入下半場了,接下來比的不是誰模型更大,而是誰能更好地定義問題。
半年后他加入騰訊。又過了兩個月,他主導(dǎo)的第一個研究成果發(fā)布了。這個成果并未推出新模型,它直接拋出了一個數(shù)據(jù),GPT-5.1在一項新測試中只拿到了23.7%。
測試的設(shè)定很簡單,把所有需要的信息都放在上下文里,讓模型去完成任務(wù)。考的是模型能否從眼前的材料里學(xué)會新東西。
結(jié)果是模型看了,但沒學(xué)會。
1
沒法作弊的考試
這篇論文叫CL-bench,全稱Context Learning Benchmark,2026年2月3日由騰訊混元團(tuán)隊和復(fù)旦大學(xué)聯(lián)合發(fā)布。作為項目負(fù)責(zé)人,姚順雨排在作者列表的最后一位。
![]()
Context Learning不是新概念,但這篇論文對它的定義極為苛刻,模型必須從上下文中學(xué)習(xí)到預(yù)訓(xùn)練階段不存在的新知識,并正確應(yīng)用。簡單說,要讓模型現(xiàn)場學(xué)會它沒見過的東西,不只是“回憶”它以前見過的內(nèi)容。
為了實現(xiàn)這個目標(biāo),研究團(tuán)隊在數(shù)據(jù)構(gòu)建上下了狠功夫。
目前業(yè)界防止數(shù)據(jù)污染最常見的做法比較簡單粗暴,設(shè)定時間切割點(比如只考2024年以后的新聞)、把題庫藏起來不公開、或者用算法去重。CL-bench做的完全是另一回事,它在“造物”。
研究團(tuán)隊組織了一批領(lǐng)域?qū)<遥瑧{空虛構(gòu)了多個平行宇宙和假知識。比如,他們編造了一部叫《Sol Accord》(索爾協(xié)定)的星際法律,在現(xiàn)實中根本不存在,模型不可能在預(yù)訓(xùn)練數(shù)據(jù)里背過相關(guān)法條;他們還編造了一個SkyNet無人機SDK,里面的函數(shù)名、調(diào)用規(guī)則全是假的,模型如果用它記憶里的Python知識去寫代碼,必錯無疑。此外,他們還修改了現(xiàn)實世界的內(nèi)容來創(chuàng)建變體,比如改變歷史事件的走向、調(diào)整科學(xué)定義,并納入一些極其小眾、幾乎不可能出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)中的長尾內(nèi)容。
![]()
即便是表現(xiàn)最好的 GPT-5.1平均得分也僅為23.7分。
這種通過“反事實”和“全虛構(gòu)”來構(gòu)建benchmark的方法,是對抗刷榜最徹底、也是最難的手段。驗證效果很直接,在不給任何上下文的情況下,讓GPT-5.1直接做這些任務(wù),結(jié)果只能做對不到1%。這說明模型確實沒見過這些知識,必須從給定的上下文里學(xué)。沒法作弊,也是通過率只有17.2%的核心原因。
最終,CL-bench包含了500個復(fù)雜上下文、1899個任務(wù)、31607個驗證標(biāo)準(zhǔn)。平均每個上下文的標(biāo)注耗時約20小時,全部由資深領(lǐng)域?qū)<抑谱鳌_@個工作量本身就說明了研究團(tuán)隊的野心,他們想造的不是一個刷分榜單,而是一把真正能測出模型“學(xué)習(xí)能力”的尺子。
1
四種角色,四場考試
在這場測試中,AI需要扮演四種角色。
有時它是法官,需要依據(jù)一部從未見過的虛構(gòu)法律斷案。給它一部長達(dá)2.3萬字、剛剛生效的新法律,讓它判一起真實糾紛。法條全是新的,判例全是新的,模型必須現(xiàn)場閱讀、理解、應(yīng)用。
有時它是程序員,必須用一種全新的語法寫代碼。比如基于一門新設(shè)計的編程語言規(guī)范,實現(xiàn)一個帶有時間條件終止的周期性程序。模型如果用它記憶里的語法,必錯無疑。它必須嚴(yán)格遵守這個"假文檔"的規(guī)則。
有時它是操作員,需要在一套從未見過的工作流系統(tǒng)里完成任務(wù)。按照一份全新的產(chǎn)品手冊,一步步執(zhí)行操作。流程圖是新的,術(shù)語是新的,約束條件是新的。
最難的時候,它要像科學(xué)家一樣,面對一堆雜亂的實驗數(shù)據(jù),自己從頭推導(dǎo)規(guī)律。比如分析300份原始實驗日志,推導(dǎo)關(guān)系式并估計共振常數(shù)。前三種角色本質(zhì)上是演繹推理,給你規(guī)則讓你應(yīng)用。這一種是歸納推理,讓你從數(shù)據(jù)中自己發(fā)現(xiàn)規(guī)則。
這四類場景覆蓋了大部分真實工作中需要的學(xué)習(xí)能力:讀文檔、學(xué)規(guī)則、照流程、找規(guī)律。這也是為什么CL-bench的結(jié)果如此令人擔(dān)憂,如果模型連這些基本的學(xué)習(xí)任務(wù)都做不好,它在真實工作場景中的表現(xiàn)可想而知。
![]()
CL-bench的任務(wù)類別分布
1
前沿模型集體翻車
研究團(tuán)隊在CL-bench上測試了十個最先進(jìn)的語言模型,結(jié)果相當(dāng)慘淡。
平均任務(wù)解決率只有17.2%。表現(xiàn)最好的GPT-5.1 (High)也只有23.7%。要知道,所有完成任務(wù)需要的信息都已經(jīng)明確給出了,就在上下文里,模型卻在絕大多數(shù)任務(wù)上失敗了。
![]()
論文詳細(xì)分析了失敗原因,幾個發(fā)現(xiàn)值得注意。
忽略或誤用上下文是導(dǎo)致失敗的主要原因。導(dǎo)致錯誤的主因往往并非信息缺失,模型對上下文關(guān)鍵細(xì)節(jié)的忽視才是癥結(jié)所在。更有意思的是,在許多情況下,模型會傾向于使用它在預(yù)訓(xùn)練階段學(xué)到的"老經(jīng)驗"來解決任務(wù),即使上下文明確定義了新的規(guī)則、概念或程序,它也不去學(xué)習(xí)和使用。這就像一個固執(zhí)的老員工,寧可用自己的老辦法,也不愿意看新文檔。
長上下文處理和指令遵循是必要但不充分條件。那些難以跨上下文追蹤依賴關(guān)系或難以精確遵循約束的模型,表現(xiàn)確實更差。但即使是能夠處理長輸入、可靠遵循指令的模型,仍然在許多任務(wù)上失敗。這說明上下文學(xué)習(xí)需要的能力,遠(yuǎn)不止能處理長文本和能“聽話”。
歸納推理遠(yuǎn)比演繹推理難。在科學(xué)家類任務(wù)上,模型的表現(xiàn)明顯更差,任務(wù)解決率通常低于10%,而且結(jié)果波動很大。從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,比應(yīng)用給定的規(guī)則要難得多。這或許指向了當(dāng)前大模型架構(gòu)的一個根本性局限。
此外,論文還發(fā)現(xiàn),更高的推理強度通常能提升上下文學(xué)習(xí)效果。比如GPT-5.1在高推理強度設(shè)置下,在某些任務(wù)上的表現(xiàn)提升了約6%。但其他模型提升有限甚至下降,說明單靠多想一會兒并不夠,模型還必須能正確吸收和組織上下文信息。
1
姚順雨的預(yù)判
2025年4月,姚順雨在博文《The Second Half》中提出了一個核心觀點,AI發(fā)展正在從“上半場”進(jìn)入“下半場”。上半場的主題是如何訓(xùn)練出更強的模型,更大的參數(shù)、更多的數(shù)據(jù)、更強的算力。下半場的主題則變了,如何定義正確的問題,如何評估真正的進(jìn)步。
他寫道,評估將比訓(xùn)練更重要。我們不再只是問“我們能訓(xùn)練出一個能解決X的模型嗎”,而是在問“我們應(yīng)該訓(xùn)練AI去做什么,以及如何衡量真正的進(jìn)步”。
在一次訪談中,他進(jìn)一步解釋,現(xiàn)在方法的問題已基本解決,真正重要的是,我們要用這個通用方法,解決什么問題?
CL-bench定義了什么問題?它定義的問題是,模型能否從當(dāng)前上下文中學(xué)習(xí)?
這個問題之前被忽視了。行業(yè)的隱含假設(shè)是,只要上下文給到位(context engineering做得好),模型就能完成任務(wù)。CL-bench的數(shù)據(jù)打破了這個假設(shè),給到位,不等于做得對。上下文學(xué)習(xí),作為一項基礎(chǔ)的模型能力,被嚴(yán)重低估了。
姚順雨在2024年主導(dǎo)過另一個benchmark,τ-bench(ICLR 2025)。那個測試關(guān)注的是Agent能否遵循領(lǐng)域規(guī)則、與用戶進(jìn)行多輪交互。CL-bench則更進(jìn)一步,測的是模型能否從上下文學(xué)習(xí)新知識。兩者共同指向一個判斷,真實世界需要的是學(xué)習(xí)能力,而非做題能力。
CL-bench論文原文有一段話很精準(zhǔn):大語言模型主要依賴“參數(shù)化知識”,這是預(yù)訓(xùn)練階段壓縮進(jìn)模型權(quán)重的靜態(tài)記憶。推理時,模型大多調(diào)用這些存儲的內(nèi)部知識,而非主動從新輸入信息中吸收養(yǎng)分。因此,當(dāng)前優(yōu)化的模型擅長推理它們“知道”的事情,但用戶需要的是讓模型解決依賴于混亂且動態(tài)變化的上下文的任務(wù)。
1
行業(yè)正在發(fā)生什么變化
如果把近幾年AI發(fā)展的主旋律做個簡單梳理,大致是這樣的:2024年的主旋律是Scaling,更大的模型、更多的數(shù)據(jù)、更強的算力;2025年的主旋律是Reasoning,以o1、R1、Deep Research為代表的推理能力提升。
那么2026年呢?CL-bench指向了一個可能的新方向,Context Learning。
![]()
從Prompt Engineering到Context Learning的演進(jìn)路徑
有意思的是,西方大廠目前主要在解決另一個問題。Anthropic在2024年底發(fā)布了MCP(Model Context Protocol),OpenAI和Google隨后跟進(jìn),這個協(xié)議被稱為AI界的USB-C",目的是讓模型更容易接入外部工具和數(shù)據(jù)源。2025年12月,Anthropic、OpenAI和Block聯(lián)合成立了Agentic AI Foundation,將MCP捐贈給Linux基金會,推動開源標(biāo)準(zhǔn)化。同月,Anthropic又發(fā)布了Agent Skills開放標(biāo)準(zhǔn),讓AI能執(zhí)行更具體的任務(wù)。
這些努力解決的都是如何把context送進(jìn)模型的問題,如何讓模型接入更多數(shù)據(jù)源,如何讓模型調(diào)用更多工具,如何讓模型執(zhí)行更復(fù)雜的工作流。
CL-bench問的是,送進(jìn)去之后,模型能學(xué)會嗎?
Anthropic自己的研究也觸及了類似問題。他們在關(guān)于context engineering的博文中提到了context rot現(xiàn)象,隨著上下文長度增加,模型召回信息的能力會下降。但CL-bench揭示的問題是。即使上下文不長,模型也不一定能“學(xué)會”里面的新知識。這是學(xué)習(xí)能力,與檢索無關(guān)。
論文在展望部分提到了一個更遠(yuǎn)的挑戰(zhàn),即使上下文學(xué)習(xí)能力提升了,它仍然是“會消失的”(ephemeral),上下文窗口清空,學(xué)到的東西就沒了。下一步的挑戰(zhàn)是Memory Consolidation(記憶鞏固),如何讓從上下文中學(xué)到的知識持久化?這可能是2026年之后的新戰(zhàn)場。
1
這對騰訊意味著什么
姚順雨入職騰訊后主導(dǎo)的第一個研究輸出,他選擇用一個benchmark重新定義問題。
目前騰訊混元在國內(nèi)大模型市場的份額并不領(lǐng)先,字節(jié)豆包、阿里通義排在前面。在這個局面下,騰訊選擇關(guān)注一個更基礎(chǔ)的問題:模型的學(xué)習(xí)能力。
這個選擇可能和騰訊的業(yè)務(wù)基因有關(guān)。騰訊是社交和游戲巨頭,其核心業(yè)務(wù)本質(zhì)就是海量的“動態(tài)上下文”,聊天記錄、游戲狀態(tài)、用戶行為。姚順雨強調(diào)Context Learning,可能是在為騰訊最核心的業(yè)務(wù)場景打地基,讓AI讀懂此時此刻的用戶,而不是通過預(yù)訓(xùn)練讀懂過去的用戶。
他入職后說過:騰訊To C基因更強,要思考如何讓大模型給用戶提供更多價值。很多時候需要的不是更大模型、更強的強化學(xué)習(xí),而是額外的Context。
這或許才是AI真正進(jìn)入人類社會的門票,不再做一個博學(xué)的旁觀者。
![]()
點個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.