網易首頁 > 網易號 > 正文申請入駐

姚順雨騰訊首研成果：構建CL-bench、提出大模型新方向

2026-02-04 20:09:41　來源: 財經涂鴉

浙江舉報

分享至

“即使是如今最強的語言模型，在上下文的利用方面仍然做得不好，甚至可以說是還不會利用上下文，從上下文中學習。”

公司情報專家《財經涂鴉》獲悉，2月3日，騰訊混元官網技術博客（Tencent HY Research）發表名為《從上下文中學習，遠比我們想象的要難》的文章，系統介紹了騰訊混元團隊聯合復旦大學的一項新研究。

這是姚順雨加入騰訊擔任首席AI科學家后團隊首次發布研究成果，也是騰訊混元技術博客首次公開。這一博客的推出，旨在分享騰訊混元研究員在前沿技術研究和實踐中的探索與經驗，呈現創新思路與技術洞察。

過去幾年，大語言模型快速進化，如今的前沿模型，已經是頂級的“做題家”：它們能解開奧數級別的難題，能推演復雜的編程邏輯，甚至能通過那些人類需要苦讀數年才能拿下的專業資格考試。然而，在面臨真實世界的任務時，模型表現還有待提升。

回看我們人類的日常工作：開發者掃過從未見過的工具文檔，就能立刻開始調試代碼；玩家拿起新游戲的規則書，在實戰中邊玩邊學；科學家從復雜的實驗日志中篩選數據，推導出新的結論和定律。這些場景中，人類并不只依賴多年前學到的“死知識”，而是在實時地從眼前的上下文（Context）中學習。

在這篇論文里，騰訊混元和復旦大學聯合研究團隊提到，要讓大模型學會“從上下文中學習”，遠比我們想象的要難。并且，即便抹平了上下文帶來的信息差，模型也未必能解決問題，這說明模型在上下文利用上，依然存在顯著的能力短板。

為了衡量現有模型距離真正的“上下文學習者”還有多遠，研究團隊構建了CL-bench，這是一個專門評測語言模型能否從上下文中學習新知識并正確應用的基準。CL-bench包含由資深領域專家精心制作的500個復雜上下文、1,899個任務和31,607個驗證標準。

CL-bench只包含一個簡單但苛刻的要求：解決每個任務要求模型必須從上下文中學習到模型預訓練中不存在的新知識，并正確應用。

通過實驗，論文發現，世界上排名前十的語言模型在CL-bench上的任務解決率平均只有17.2% ，也就是說即使是如今最強的語言模型，在上下文的利用方面仍然做得不好，甚至可以說是還不會利用上下文，從上下文中學習。

這也為大語言模型后續的迭代指出了一個可能的方向，強化模型從上下文中進行學習的能力。

官方技術博客還提到，如果模型的上下文學習能力能像之前其他能力那樣被提升上去，人類在AI系統中的角色將發生轉變：我們不再是主要的數據提供者（training data provider），而變成了上下文提供者（context provider）。未來，競爭的焦點將從“誰能把模型訓練得更好”，轉向“誰能為任務提供最豐富、最相關的上下文”。

研究團隊也強調，模型如何記憶很可能成為2026年大模型發展的另一個核心主題，并且，一旦上下文學習與記憶變得可靠，模型或許就能實現自主學習，它們將自主準備上下文，從中學習并自我鞏固。

在加入騰訊之前，姚順雨曾經發布過一篇名為《The Second Half》的博客，重點提到大模型下半場的重頭戲是“評估”，此后在多次公開講話中，他也提到了打造實用模型的目標，這可以視為他在騰訊混元團隊的重點研發思路之一。本次CL-bench的推出，將成為模型上文學習能力評估的主要基準，為大模型學習更多解決現實世界難題提供幫助。

作者：蘇打

編輯：tuya

出品：財經涂鴉（ID：caijingtuya）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.