<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      姚順雨入職騰訊50天后,發布了首篇署名論文:CL-Bench

      0
      分享至

      前兩天大家都在吐槽被元寶紅包活動刷屏了。那一頭,千問又出來整春節30億紅包的活動。

      我倒是不介意大廠們在用戶福利上繼續競爭,卷一卷的。至少我的3塊2毛6今天是領導了~


      不過今天小龍哥好像終于打完高爾夫回來看手機了,微信安全中心出手,認定元寶紅包「誘導用戶高頻分享」,直接把鏈接給屏蔽了。


      還能這么玩...

      全網都在討論這事,不過我倒是真沒興趣寫長文吃瓜的。

      而是我覺得在這個熱鬧里,騰訊AI團隊發的一篇還挺有趣,甚至未來可能挺重要的論文可能被忽略了。

      這是2月3日,姚順雨加入騰訊后的第一篇署名論文。


      這事得從去年說起。

      2025年4月,還在OpenAI工作的姚順雨發了一篇博客,叫《The Second Half》(AI的下半場)。


      那篇文章里有一句話讓我印象很深:

      「下半場將把重心從'解決問題'轉向'定義問題'。我們不再只是問'能不能訓練出一個模型解決X問題?',而是要問'我們究竟應該讓AI去做什么?又該如何衡量真正的進展?'」

      當時看完覺得,說得挺對,但有點虛。因為他只提出了問題,但怎么定義?沒說。

      現在算是有階段性答案了。

      這篇論文叫《CL-bench: A Benchmark for Context Learning》,做了一個新的benchmark。測試結果是:所有前沿模型,平均分17.2%。最強的GPT-5.1也只拿到23.7%。

      集體不及格。

      先回顧一下《The Second Half》說了什么

      去年12月姚順雨入職騰訊的時候,我寫過一篇文章介紹他的背景和這篇博客。這里再簡單說一下核心觀點。


      姚順雨認為,過去幾十年AI的主要精力都放在「上半場」——開發新的訓練方法和模型。從DeepBlue到AlphaGo,從GPT到o-series,歷史性的突破都來自于「如何訓練出更好的模型」。

      但現在,這個配方已經基本標準化了:大規模語言預訓練 + 數據和算力擴展 + 推理與行動范式。用這套配方,可以解決軟件開發、創意寫作、IMO級數學題等各種任務。

      那下半場要做什么?

      姚順雨提出了一個關鍵概念:效用問題(Utility Problem)。

      他說,AI已經在國際象棋和圍棋上擊敗了世界冠軍,在SAT和律師資格考試中超過了大多數人類。可世界并沒有發生太大改變——至少從經濟和GDP的角度來看如此。

      為什么?

      因為我們的評估方式和現實世界存在根本差異。

      比如,現有的benchmark假設任務是「自動運行」的——模型接收輸入,自主執行,得到結果。但現實中,AI必須在任務過程中持續與人類互動。

      再比如,現有的benchmark假設任務是「獨立同分布」的——500個測試任務,獨立運行,取平均分。但現實中,任務是連續進行的。一個Google工程師在同一個代碼庫工作久了,效率會越來越高;但AI在同一個代碼庫解決了很多問題,卻無法獲得這種「熟悉度」。

      所以姚順雨說,下半場的新玩法是:開發新的評估方式,以衡量真實世界的效用。

      CL-Bench就是這個思路的第一次落地。

      CL-Bench測的是什么?

      先說一個反常識的現象。

      現在的前沿模型(Frontier Model)在各種長上下文benchmark上表現都很好。標準的「大海撈針」測試,幾乎所有模型都能拿到接近滿分。LongBench v2這種閱讀理解測試,模型得分甚至能以兩倍的水平遠超人類。

      但一進入Agent干活模式,模型就不行了。

      為什么?我琢磨了一下,發現這里面有個關鍵的區分。

      因為真實場景需要的不是「從上下文中找到信息」,而是「從上下文中學會知識,然后用這些知識解決問題」。

      這是兩回事。

      舉個例子。一個律師拿到一份新的監管文件,需要立即理解其中的條款并為客戶提供建議。一個工程師閱讀一份剛發布的產品手冊,需要快速掌握操作流程來排除故障。

      這時候,你需要的知識就在手頭的材料里。但你必須真正學會它,才能正確地用起來。

      這種能力,騰訊混元團隊稱之為「上下文學習」(Context Learning)。

      注意,這和我們更熟悉的「In-Context Learning」(ICL)不是一回事。

      ICL是給模型幾個例子,讓它學會一個簡單的模式。比如給三個「英文→中文」的翻譯例子,模型就知道接下來要做翻譯。這是一種淺層的模式匹配。

      Context Learning要求更高——模型需要從上下文中學習復雜的、結構化的知識體系,然后在新的場景中正確應用這些知識。

      打個比方:ICL像是看幾道例題就去做作業,Context Learning像是讀完整本教材再去考試。

      四類任務:學生、數學家、操作員、科學家


      CL-Bench設計了四類任務,難度遞進:

      1. 知識獲取(模擬學生)

      給模型一份虛構的百科全書,考察它能不能準確記住并應用這些知識。

      比如給一個虛構國家的完整法律體系,然后問:在這個國家,某種行為是否違法?

      這是最基礎的——能不能把知識「背下來」。

      2. 形式推理(模擬數學家)

      給模型一套陌生的公理系統,考察它能不能用這些公理進行邏輯推導。

      比如創建一個新的編程語言,有獨特的語法和語義規則,讓模型用這套規則寫代碼。

      這考驗的是「在一個封閉的邏輯閉環里嚴絲合縫地推導」的能力。

      3. 流程任務執行(模擬操作員)

      給模型一份復雜的SOP手冊,考察它能不能嚴格按照流程執行任務。

      比如給一個無人機物流系統的詳細API文檔,讓模型生成操作代碼。手冊里寫了什么能做、什么不能做,模型必須完全遵守。

      這考驗的是「長鏈條的執行紀律」——錯一步,滿盤皆輸。

      4. 經驗發現(模擬科學家)

      這是最難的。給模型一堆雜亂的實驗數據,讓它自己歸納出背后隱藏的規律。

      比如給一組物理實驗的觀測結果,讓模型發現其中的物理定律。

      這是從「應用知識」到「發現知識」的跨越。

      說實話,這個benchmark做得挺重的。500個復雜上下文、1899個任務、31607個驗證標準。每個上下文平均對應63.2個驗證條目,每個任務平均有16.6個評估標準。

      為了保證模型不能靠預訓練知識作弊,采用了「無污染」設計:所有上下文要么是完全虛構的(比如為虛構國家設計一套完整的法律體系),要么是對現有知識的修改(比如創建具有獨特語法的新編程語言),要么是極其小眾的長尾內容。

      專家平均花了20小時來標注單個場景。51.1%的任務有序列依賴關系——后面的問題依賴前面問題的答案,不能跳著做。


      研究團隊做了驗證:讓GPT-5.1在不提供上下文的情況下嘗試解答1000個隨機任務,成功率只有0.9%。說明沒有上下文,這些任務對模型來說幾乎無解。

      最慘的發現:模型不會歸納

      測試結果挺殘酷的。

      模型

      任務成功率

      GPT-5.1 (high)

      23.7%

      Claude Opus 4.5

      19.9%

      Gemini 3 Pro

      18.9%

      DeepSeek-R1

      16.6%

      Llama 4 Maverick

      12.9%

      平均分17.2%。


      而且,模型的錯誤很有規律。論文統計了三類主要錯誤:

      • 漏用上下文:55.3%

      • 誤用上下文:61.5%

      • 格式不遵守:35.3%


      論文里有個具體案例:Gemini 3 Pro被要求為一個無人機物流系統生成操作偽代碼。系統文檔提供了詳細的API說明,用戶的請求故意違反了安全協議。

      Gemini的表現怎么樣?

      它正確地拒絕了非法請求——這是對的。但它沒能生成完整的合規替代方案:它忽略了文檔中明確要求的替代函數,也沒有綁定任務中給出的具體參數。

      換句話說,模型「知道什么不能做」,但「不知道應該怎么做」。它讀了手冊,但沒學會手冊。

      更重要的發現是:在四類任務中,模型在「經驗發現」(歸納)上的表現最差——任務成功率通常低于10%。

      這個數字挺有意思的。

      之前寫DeepSeek的Engram論文時,我引用過博爾赫斯的短篇《博聞強記的富內斯》。富內斯能記住一切,但無法思考——因為思考需要抽象,需要忘記差異。

      CL-Bench的發現正好是反過來的:模型能做總結(一種復述和組織),但不擅長歸納(需要建模和泛化)。

      總結是「把已有的東西換個說法」,歸納是「從已有的東西發現新規律」。前者是壓縮,后者是創造。

      模型在前者上表現還行,在后者上一塌糊涂。

      這個benchmark不是用來刷的

      看到這個17.2%的平均分,你可能會想:那接下來各家肯定會卷這個分數吧?

      但姚順雨可能不這么想。

      《晚點》有篇報道提到,姚順雨在騰訊內部會上說,希望團隊以后不要打榜,也不要盯著榜單做事。

      這和他在《The Second Half》里的觀點完全一致。他說過,當智能程度較低時,提升智能通常能提升效用。但現在不是了——我們需要重新設計評估框架,以推動真實應用突破。

      這里有個更大的背景。

      現在很多AI能力benchmark都被刷爆了。MMLU、HumanEval、各種考試,模型動輒90多分,早就超過人類水平了。但這些高分并沒有轉化成真實世界的價值——模型考試厲害,干活還是不行。

      問題出在哪?可能不是模型不夠強,而是我們問的問題不夠對。

      CL-Bench的思路是:與其在舊問題上繼續卷分數,不如提出一個新的、正確的問題。用一個好的benchmark來驅動模型改進,而不是讓模型去適應一個已經不再有區分度的benchmark。

      這可能就是「下半場」的演進方式,咱就先別急著跑分了,而是先比比誰能提出更好的問題。

      所以CL-Bench的意義不在于「又一個可以刷的榜單」,而在于「標記出了一個真正的能力短板」。

      這個短板是什么?

      論文最后一段寫得很直接:

      「只有當模型能夠快速內化完全陌生的上下文,并精確地應用那些知識來解決問題時,人工智能才能超越知識庫的限制,演變成真正的推理Agent。」

      換句話說,現在的模型本質上還是「知識庫的調用者」。它們能做的,是把預訓練時學到的知識重新組合、輸出。

      但真正的Agent需要的是「從上下文中學習新知識」的能力。這個能力,現在的模型幾乎沒有。

      往大了說:誰提供context,誰掌握主動權

      論文的Discussion部分給了四條可能的改進方向:

      1. 訓練數據要強上下文學習——在預訓練階段就加入需要從上下文學習的任務

      2. 更好的位置編碼——讓模型更好地理解上下文中的結構

      3. 更長的上下文窗口——但這只是必要條件,不是充分條件

      4. 新的注意力機制——讓模型更有效地從長上下文中提取和應用知識

      但我覺得更有意思的是論文里的一句話:

      「一旦上下文學習能力變得可靠,人類將不再是主要的數據提供者,而是context提供者。競爭的焦點將從'誰能訓練出更好的模型'轉向'誰能為任務提供最豐富、最相關的context'。」

      這個判斷我覺得挺重要的。

      現在的AI競爭主要在「模型層」——誰的模型更大、訓練數據更多、效果更好。但如果context learning問題解決了,競爭焦點可能會轉向「context層」。

      誰擁有最好的專業知識庫?誰能把這些知識組織成模型能學會的形式?誰能在對的時機提供對的context?

      論文還提到一個更遠的愿景:模型如何「記憶」,可能成為2026年的另一個核心主題。

      現在的模型有個問題:學完就忘。你在一個session里教會它某個規則,關掉窗口,下次還得重新教。這在長期協作場景里是致命的。

      說到這個,最近很火的Clawdbot(OpenClaw)就是個有意思的案例。很多人覺得它體驗特別好——懂你、有人味、能長期使用、上下文不爆。其實核心就是他們在memory和上下文工程上做了大量工作。

      但這是「工程層」的解決方案:通過更聰明的context管理、記憶壓縮、檢索增強來繞過模型本身的限制。

      CL-Bench指向的是另一條路——「模型層」的改進。讓模型本身學會從context中學習,而不是靠外部系統來補。這條路更難,但可能更本質。

      長期來看,兩條路可能都需要。但如果模型層的context learning能力上來了,工程層的很多workaround可能就不需要那么復雜了。

      最后

      回到開頭。

      2025年4月,姚順雨寫了一篇博客,說AI下半場的重心是「定義問題」和「設計評估」。

      2026年2月,他交出了第一個具體的答案:一個平均分只有17.2%的benchmark,精確地標記出了模型在「上下文學習」上的短板。

      這個benchmark某種程度上算是一個提醒:我們以為模型已經很強了,但在這個能力上,它們還差得很遠。

      姚順雨在入職騰訊之前說過一句話:「真正決定模型價值的,不是它能在benchmark上刷多高的分,而是它能不能解決真實世界的問題。」

      CL-Bench算是這句話的一個注腳。

      從博客到論文,從理念到落地,50天時間。

      這可能就是騰訊看中他的原因之一,不只是會寫論文,更重要的是知道該寫什么論文。這個時代正在獎勵提出正確問題的人。

      參考資料

      • CL-Bench論文:https://arxiv.org/abs/2602.03587

      • CL-Bench代碼與數據:https://github.com/Tencent-Hunyuan/CL-bench

      • 姚順雨《The Second Half》:https://ysymyth.github.io/The-Second-Half/

      • 騰訊混元技術博客:https://hy.tencent.com/research

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全紅嬋報警:記者楊爍被點名,陳芋汐評論區被沖,多家媒體發聲!

      全紅嬋報警:記者楊爍被點名,陳芋汐評論區被沖,多家媒體發聲!

      眼光很亮
      2026-04-08 15:20:24
      做了連戰馬英九沒敢做的事,鄭麗文專機將飛進北京,島內風向要變

      做了連戰馬英九沒敢做的事,鄭麗文專機將飛進北京,島內風向要變

      涵豆說娛
      2026-04-08 21:40:01
      那個專門網暴全紅嬋的微信群里都有誰?

      那個專門網暴全紅嬋的微信群里都有誰?

      常識群
      2026-04-09 09:11:22
      白宮:美伊將于11日上午在伊斯蘭堡舉行首輪會談

      白宮:美伊將于11日上午在伊斯蘭堡舉行首輪會談

      新華社
      2026-04-09 04:08:01
      伊朗:擊落“赫爾墨斯”無人機,任何類型的美以敵機進入伊朗領空,即使沒有進行軍事行動,也被視為違反停火協議,并將受到堅決回應

      伊朗:擊落“赫爾墨斯”無人機,任何類型的美以敵機進入伊朗領空,即使沒有進行軍事行動,也被視為違反停火協議,并將受到堅決回應

      極目新聞
      2026-04-08 22:54:20
      陳吉寧會見中國國民黨主席鄭麗文

      陳吉寧會見中國國民黨主席鄭麗文

      澎湃新聞
      2026-04-08 22:56:27
      以軍戰機轟炸黎巴嫩,霍爾木茲海峽再次關閉,停火首日局勢再升級

      以軍戰機轟炸黎巴嫩,霍爾木茲海峽再次關閉,停火首日局勢再升級

      齊魯壹點
      2026-04-09 06:57:07
      拿40萬鎊周薪 利物浦頭牌歐冠關鍵戰坐穿板凳+面無表情 或0冠告別

      拿40萬鎊周薪 利物浦頭牌歐冠關鍵戰坐穿板凳+面無表情 或0冠告別

      我愛英超
      2026-04-09 05:24:34
      陳麗華告別儀式于北京八寶山殯儀館舉辦,六小齡童、馬德華、白巖松等人到場悼念;馬德華:遲重瑞心里很難過,希望他節哀

      陳麗華告別儀式于北京八寶山殯儀館舉辦,六小齡童、馬德華、白巖松等人到場悼念;馬德華:遲重瑞心里很難過,希望他節哀

      大象新聞
      2026-04-09 11:45:05
      精辟!西班牙首相:不會因點燃世界的人拿來一桶水,就為他們鼓掌

      精辟!西班牙首相:不會因點燃世界的人拿來一桶水,就為他們鼓掌

      清沐執筆
      2026-04-09 10:48:45
      鄭麗文拜謁中山陵,看到海峽兩岸哪些連接?

      鄭麗文拜謁中山陵,看到海峽兩岸哪些連接?

      新民周刊
      2026-04-09 09:06:25
      賈淺淺終于接受組織調查

      賈淺淺終于接受組織調查

      英軍眼
      2026-04-09 09:50:51
      看完伊朗停火聲明,忍不住潸然淚下,這是一個了不起的民族

      看完伊朗停火聲明,忍不住潸然淚下,這是一個了不起的民族

      清沐執筆
      2026-04-08 16:22:11
      美副總統稱美方從未承諾停火協議包含黎巴嫩

      美副總統稱美方從未承諾停火協議包含黎巴嫩

      國際在線
      2026-04-09 07:17:52
      在過去的10年里,中國如何建立起龐大的天然氣儲備

      在過去的10年里,中國如何建立起龐大的天然氣儲備

      風向觀察
      2026-04-09 12:00:32
      歐冠0-2輸球 亞馬爾哭了!蹲在地上抹淚 馬競球員紛紛安慰

      歐冠0-2輸球 亞馬爾哭了!蹲在地上抹淚 馬競球員紛紛安慰

      葉青足球世界
      2026-04-09 09:16:54
      西部形勢日趨明朗:雷霆鎖定第1+馬刺第2,森林狼太陽排名確定

      西部形勢日趨明朗:雷霆鎖定第1+馬刺第2,森林狼太陽排名確定

      全景體育V
      2026-04-09 12:41:52
      鐵飯碗砸了!小學老師被分流到事業單位工作,廣東網友爆料引熱議

      鐵飯碗砸了!小學老師被分流到事業單位工作,廣東網友爆料引熱議

      火山詩話
      2026-04-09 07:35:23
      天啊!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

      天啊!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

      妙知
      2026-04-09 10:00:48
      哪個大聰明想出來的,用瓶蓋收納雞蛋!

      哪個大聰明想出來的,用瓶蓋收納雞蛋!

      新住家居
      2026-04-09 07:06:35
      2026-04-09 14:03:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      181文章數 109關注度
      往期回顧 全部

      科技要聞

      Meta凌晨首發閉源大模型 扎克伯格又行了?

      頭條要聞

      達賴深度卷入愛潑斯坦權色網 印媒再披露驚人新證據

      頭條要聞

      達賴深度卷入愛潑斯坦權色網 印媒再披露驚人新證據

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      談判基礎已被破壞!霍爾木茲海峽關閉

      汽車要聞

      8155芯片+L2智駕 瑞虎5運動版上市 置換補貼價6.79萬元起

      態度原創

      藝術
      親子
      房產
      公開課
      軍事航空

      藝術要聞

      龐茂琨 2026油畫寫生新作

      親子要聞

      這么一群軟萌小羊誰看了不想一鍵抱走!

      房產要聞

      超級卷王登場!海口首個抬板四代宅,徹底刷新認知!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      黎真主黨發射火箭彈 回應以違反停火協議

      無障礙瀏覽 進入關懷版