網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

姚順雨在騰訊首個研究：在“上下文”這事上，在座的各位都不及格

2026-02-05 10:11:02　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

2025年4月，還在OpenAI的姚順雨發(fā)了一篇博文《The Second Half》，提出一個判斷：AI進(jìn)入下半場了，接下來比的不是誰模型更大，而是誰能更好地定義問題。

半年后他加入騰訊。又過了兩個月，他主導(dǎo)的第一個研究成果發(fā)布了。這個成果并未推出新模型，它直接拋出了一個數(shù)據(jù)，GPT-5.1在一項新測試中只拿到了23.7%。

測試的設(shè)定很簡單，把所有需要的信息都放在上下文里，讓模型去完成任務(wù)。考的是模型能否從眼前的材料里學(xué)會新東西。

結(jié)果是模型看了，但沒學(xué)會。

沒法作弊的考試

這篇論文叫CL-bench，全稱Context Learning Benchmark，2026年2月3日由騰訊混元團(tuán)隊和復(fù)旦大學(xué)聯(lián)合發(fā)布。作為項目負(fù)責(zé)人，姚順雨排在作者列表的最后一位。

Context Learning不是新概念，但這篇論文對它的定義極為苛刻，模型必須從上下文中學(xué)習(xí)到預(yù)訓(xùn)練階段不存在的新知識，并正確應(yīng)用。簡單說，要讓模型現(xiàn)場學(xué)會它沒見過的東西，不只是“回憶”它以前見過的內(nèi)容。

為了實現(xiàn)這個目標(biāo)，研究團(tuán)隊在數(shù)據(jù)構(gòu)建上下了狠功夫。

目前業(yè)界防止數(shù)據(jù)污染最常見的做法比較簡單粗暴，設(shè)定時間切割點（比如只考2024年以后的新聞）、把題庫藏起來不公開、或者用算法去重。CL-bench做的完全是另一回事，它在“造物”。

研究團(tuán)隊組織了一批領(lǐng)域?qū)＜遥瑧{空虛構(gòu)了多個平行宇宙和假知識。比如，他們編造了一部叫《Sol Accord》（索爾協(xié)定）的星際法律，在現(xiàn)實中根本不存在，模型不可能在預(yù)訓(xùn)練數(shù)據(jù)里背過相關(guān)法條；他們還編造了一個SkyNet無人機SDK，里面的函數(shù)名、調(diào)用規(guī)則全是假的，模型如果用它記憶里的Python知識去寫代碼，必錯無疑。此外，他們還修改了現(xiàn)實世界的內(nèi)容來創(chuàng)建變體，比如改變歷史事件的走向、調(diào)整科學(xué)定義，并納入一些極其小眾、幾乎不可能出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)中的長尾內(nèi)容。

即便是表現(xiàn)最好的 GPT-5.1平均得分也僅為23.7分。

這種通過“反事實”和“全虛構(gòu)”來構(gòu)建benchmark的方法，是對抗刷榜最徹底、也是最難的手段。驗證效果很直接，在不給任何上下文的情況下，讓GPT-5.1直接做這些任務(wù)，結(jié)果只能做對不到1%。這說明模型確實沒見過這些知識，必須從給定的上下文里學(xué)。沒法作弊，也是通過率只有17.2%的核心原因。

最終，CL-bench包含了500個復(fù)雜上下文、1899個任務(wù)、31607個驗證標(biāo)準(zhǔn)。平均每個上下文的標(biāo)注耗時約20小時，全部由資深領(lǐng)域?qū)＜抑谱鳌＿@個工作量本身就說明了研究團(tuán)隊的野心，他們想造的不是一個刷分榜單，而是一把真正能測出模型“學(xué)習(xí)能力”的尺子。

四種角色，四場考試

在這場測試中，AI需要扮演四種角色。

有時它是法官，需要依據(jù)一部從未見過的虛構(gòu)法律斷案。給它一部長達(dá)2.3萬字、剛剛生效的新法律，讓它判一起真實糾紛。法條全是新的，判例全是新的，模型必須現(xiàn)場閱讀、理解、應(yīng)用。

有時它是程序員，必須用一種全新的語法寫代碼。比如基于一門新設(shè)計的編程語言規(guī)范，實現(xiàn)一個帶有時間條件終止的周期性程序。模型如果用它記憶里的語法，必錯無疑。它必須嚴(yán)格遵守這個"假文檔"的規(guī)則。

有時它是操作員，需要在一套從未見過的工作流系統(tǒng)里完成任務(wù)。按照一份全新的產(chǎn)品手冊，一步步執(zhí)行操作。流程圖是新的，術(shù)語是新的，約束條件是新的。

最難的時候，它要像科學(xué)家一樣，面對一堆雜亂的實驗數(shù)據(jù)，自己從頭推導(dǎo)規(guī)律。比如分析300份原始實驗日志，推導(dǎo)關(guān)系式并估計共振常數(shù)。前三種角色本質(zhì)上是演繹推理，給你規(guī)則讓你應(yīng)用。這一種是歸納推理，讓你從數(shù)據(jù)中自己發(fā)現(xiàn)規(guī)則。

這四類場景覆蓋了大部分真實工作中需要的學(xué)習(xí)能力：讀文檔、學(xué)規(guī)則、照流程、找規(guī)律。這也是為什么CL-bench的結(jié)果如此令人擔(dān)憂，如果模型連這些基本的學(xué)習(xí)任務(wù)都做不好，它在真實工作場景中的表現(xiàn)可想而知。

CL-bench的任務(wù)類別分布

前沿模型集體翻車

研究團(tuán)隊在CL-bench上測試了十個最先進(jìn)的語言模型，結(jié)果相當(dāng)慘淡。

平均任務(wù)解決率只有17.2%。表現(xiàn)最好的GPT-5.1 (High)也只有23.7%。要知道，所有完成任務(wù)需要的信息都已經(jīng)明確給出了，就在上下文里，模型卻在絕大多數(shù)任務(wù)上失敗了。

論文詳細(xì)分析了失敗原因，幾個發(fā)現(xiàn)值得注意。

忽略或誤用上下文是導(dǎo)致失敗的主要原因。導(dǎo)致錯誤的主因往往并非信息缺失，模型對上下文關(guān)鍵細(xì)節(jié)的忽視才是癥結(jié)所在。更有意思的是，在許多情況下，模型會傾向于使用它在預(yù)訓(xùn)練階段學(xué)到的"老經(jīng)驗"來解決任務(wù)，即使上下文明確定義了新的規(guī)則、概念或程序，它也不去學(xué)習(xí)和使用。這就像一個固執(zhí)的老員工，寧可用自己的老辦法，也不愿意看新文檔。

長上下文處理和指令遵循是必要但不充分條件。那些難以跨上下文追蹤依賴關(guān)系或難以精確遵循約束的模型，表現(xiàn)確實更差。但即使是能夠處理長輸入、可靠遵循指令的模型，仍然在許多任務(wù)上失敗。這說明上下文學(xué)習(xí)需要的能力，遠(yuǎn)不止能處理長文本和能“聽話”。

歸納推理遠(yuǎn)比演繹推理難。在科學(xué)家類任務(wù)上，模型的表現(xiàn)明顯更差，任務(wù)解決率通常低于10%，而且結(jié)果波動很大。從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律，比應(yīng)用給定的規(guī)則要難得多。這或許指向了當(dāng)前大模型架構(gòu)的一個根本性局限。

此外，論文還發(fā)現(xiàn)，更高的推理強度通常能提升上下文學(xué)習(xí)效果。比如GPT-5.1在高推理強度設(shè)置下，在某些任務(wù)上的表現(xiàn)提升了約6%。但其他模型提升有限甚至下降，說明單靠多想一會兒并不夠，模型還必須能正確吸收和組織上下文信息。

姚順雨的預(yù)判

2025年4月，姚順雨在博文《The Second Half》中提出了一個核心觀點，AI發(fā)展正在從“上半場”進(jìn)入“下半場”。上半場的主題是如何訓(xùn)練出更強的模型，更大的參數(shù)、更多的數(shù)據(jù)、更強的算力。下半場的主題則變了，如何定義正確的問題，如何評估真正的進(jìn)步。

他寫道，評估將比訓(xùn)練更重要。我們不再只是問“我們能訓(xùn)練出一個能解決X的模型嗎”，而是在問“我們應(yīng)該訓(xùn)練AI去做什么，以及如何衡量真正的進(jìn)步”。

在一次訪談中，他進(jìn)一步解釋，現(xiàn)在方法的問題已基本解決，真正重要的是，我們要用這個通用方法，解決什么問題？

CL-bench定義了什么問題？它定義的問題是，模型能否從當(dāng)前上下文中學(xué)習(xí)？

這個問題之前被忽視了。行業(yè)的隱含假設(shè)是，只要上下文給到位（context engineering做得好），模型就能完成任務(wù)。CL-bench的數(shù)據(jù)打破了這個假設(shè)，給到位，不等于做得對。上下文學(xué)習(xí)，作為一項基礎(chǔ)的模型能力，被嚴(yán)重低估了。

姚順雨在2024年主導(dǎo)過另一個benchmark，τ-bench（ICLR 2025）。那個測試關(guān)注的是Agent能否遵循領(lǐng)域規(guī)則、與用戶進(jìn)行多輪交互。CL-bench則更進(jìn)一步，測的是模型能否從上下文學(xué)習(xí)新知識。兩者共同指向一個判斷，真實世界需要的是學(xué)習(xí)能力，而非做題能力。

CL-bench論文原文有一段話很精準(zhǔn)：大語言模型主要依賴“參數(shù)化知識”，這是預(yù)訓(xùn)練階段壓縮進(jìn)模型權(quán)重的靜態(tài)記憶。推理時，模型大多調(diào)用這些存儲的內(nèi)部知識，而非主動從新輸入信息中吸收養(yǎng)分。因此，當(dāng)前優(yōu)化的模型擅長推理它們“知道”的事情，但用戶需要的是讓模型解決依賴于混亂且動態(tài)變化的上下文的任務(wù)。

行業(yè)正在發(fā)生什么變化

如果把近幾年AI發(fā)展的主旋律做個簡單梳理，大致是這樣的：2024年的主旋律是Scaling，更大的模型、更多的數(shù)據(jù)、更強的算力；2025年的主旋律是Reasoning，以o1、R1、Deep Research為代表的推理能力提升。

那么2026年呢？CL-bench指向了一個可能的新方向，Context Learning。

從Prompt Engineering到Context Learning的演進(jìn)路徑

有意思的是，西方大廠目前主要在解決另一個問題。Anthropic在2024年底發(fā)布了MCP（Model Context Protocol），OpenAI和Google隨后跟進(jìn)，這個協(xié)議被稱為AI界的USB-C"，目的是讓模型更容易接入外部工具和數(shù)據(jù)源。2025年12月，Anthropic、OpenAI和Block聯(lián)合成立了Agentic AI Foundation，將MCP捐贈給Linux基金會，推動開源標(biāo)準(zhǔn)化。同月，Anthropic又發(fā)布了Agent Skills開放標(biāo)準(zhǔn)，讓AI能執(zhí)行更具體的任務(wù)。

這些努力解決的都是如何把context送進(jìn)模型的問題，如何讓模型接入更多數(shù)據(jù)源，如何讓模型調(diào)用更多工具，如何讓模型執(zhí)行更復(fù)雜的工作流。

CL-bench問的是，送進(jìn)去之后，模型能學(xué)會嗎？

Anthropic自己的研究也觸及了類似問題。他們在關(guān)于context engineering的博文中提到了context rot現(xiàn)象，隨著上下文長度增加，模型召回信息的能力會下降。但CL-bench揭示的問題是。即使上下文不長，模型也不一定能“學(xué)會”里面的新知識。這是學(xué)習(xí)能力，與檢索無關(guān)。

論文在展望部分提到了一個更遠(yuǎn)的挑戰(zhàn)，即使上下文學(xué)習(xí)能力提升了，它仍然是“會消失的”（ephemeral），上下文窗口清空，學(xué)到的東西就沒了。下一步的挑戰(zhàn)是Memory Consolidation（記憶鞏固），如何讓從上下文中學(xué)到的知識持久化？這可能是2026年之后的新戰(zhàn)場。

這對騰訊意味著什么

姚順雨入職騰訊后主導(dǎo)的第一個研究輸出，他選擇用一個benchmark重新定義問題。

目前騰訊混元在國內(nèi)大模型市場的份額并不領(lǐng)先，字節(jié)豆包、阿里通義排在前面。在這個局面下，騰訊選擇關(guān)注一個更基礎(chǔ)的問題：模型的學(xué)習(xí)能力。

這個選擇可能和騰訊的業(yè)務(wù)基因有關(guān)。騰訊是社交和游戲巨頭，其核心業(yè)務(wù)本質(zhì)就是海量的“動態(tài)上下文”，聊天記錄、游戲狀態(tài)、用戶行為。姚順雨強調(diào)Context Learning，可能是在為騰訊最核心的業(yè)務(wù)場景打地基，讓AI讀懂此時此刻的用戶，而不是通過預(yù)訓(xùn)練讀懂過去的用戶。

他入職后說過：騰訊To C基因更強，要思考如何讓大模型給用戶提供更多價值。很多時候需要的不是更大模型、更強的強化學(xué)習(xí)，而是額外的Context。

這或許才是AI真正進(jìn)入人類社會的門票，不再做一個博學(xué)的旁觀者。

點個“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.