<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,騰訊姚順雨團隊首個成果發布!揭示大模型真正瓶頸

      0
      分享至


      智東西
      作者 程茜
      編輯 心緣

      智東西2月3日報道,剛剛,騰訊混元官網正式上線姚順雨團隊最新成果,發布了專門評測大語言模型能否從上下文(Context)中學習新知識并正確應用的基準CL-bench。

      這是姚順雨加入騰訊混元擔任首席AI科學家后,其團隊首次發布研究成果,也是騰訊混元技術博客首次公開。


      ▲騰訊混元技術博客及致謝部分

      大模型與人類在解決問題時關鍵區別為,大模型只能依賴預訓練階段的靜態記憶,而人可以實時根據現場情況完成任務。騰訊混元研究團隊實測發現,當前的SOTA模型幾乎都不會從上下文中學習,表現最好的GPT-5.1(high)任務成功率也僅有23.7%。


      基于此,該團隊打造CL-bench就只有一個核心目標:要求模型在解決每個任務時,都必須從上下文中學習模型預訓練中不存在的新知識,并正確應用。

      騰訊混元技術博客地址:https://hy.tencent.com/research

      項目主頁:www.clbench.com

      一、讓大模型不再死記硬背,新基準包含500個復雜上下文任務

      過去幾年,大語言模型進步飛快,能解開奧數級別的難題、推演復雜的編程邏輯,甚至能通過那些人類需要苦讀數年才能拿下的專業資格考試。但其背后有一個關鍵門檻,大模型即使能在考場拿滿分,但未必能勝任真實世界工作。

      人類可以在執行任務中實時從眼前的環境進行學習。但大語言模型主要依賴“參數化知識”,即在預訓練階段被壓縮進模型權重里的靜態記憶。在推理時,模型更多是在調用這些封存的內部知識,而不是主動從當前輸入的新信息中汲取營養。

      因此,目前優化出的模型擅長對自己“已知”的事物進行推理,但用戶需要的,卻是讓模型解決那些依賴于雜亂、動態變化的上下文的任務。

      基于此,混元研究人員希望彌合這一差距,從根本上改變模型的優化方向,他們構建了專門評測大語言模型能否從上下文中學習新知識并正確應用的基準CL-bench。


      ▲大語言模型的范式轉變

      CL-bench包含由專家制作的500個復雜上下文、1899個任務和31607個驗證標準。其對模型的要求為:要求模型必須在解決每個任務都從上下文中學習到模型預訓練中不存在的新知識,并正確應用。

      模型需要學習的知識非常廣泛,包括新的領域知識、不熟悉的規則系統、復雜的產品工作流,甚至是必須從實驗數據中推導歸納出的定律或結論。

      所有這些知識要么是由領域專家完全新構建的,要么是取自那些不太可能出現在當前前沿模型訓練數據中的小眾、長尾來源。因此,模型無法通過回憶靜態的參數化知識來解決任務,都要求模型從提供的上下文進行學習并應用。

      具體來說,CL-bench涵蓋了四種廣泛的現實世界上下文學習場景:


      ▲CL-bench的上下文分類體系。

      領域知識推理:上下文提供特定的領域知識,例如虛構的法律體系、創新的金融工具或小眾專業知識,模型需要利用這些知識來推理并解決具體問題。

      規則系統應用:上下文提供新定義的正式系統,例如新的游戲機制、數學形式體系、編程語法或技術標準,模型必須理解并應用這些規則來執行任務。

      程序性任務執行:上下文提供復雜的過程系統,例如工作流、產品手冊和操作指南,模型必須理解并應用這些程序性信息來完成任務。

      經驗發現與模擬:上下文提供復雜系統內的實驗數據、觀測記錄或模擬環境。與前幾類涉及演繹推理不同,這一類專注于歸納推理,模型必須從數據中發現潛在的定律或結論,并應用它們來解決任務。


      ▲CL-bench示例,解決這些任務要求大語言模型從提供的上下文中學習

      這些類別包含了大部分現實世界工作中常見的演繹推理和歸納推理任務,能衡量模型的上下文學習能力。

      二、模型成功率僅為17.2%,得出5大關鍵結論

      研究人員在CL-bench上評估了十個主流大語言模型。

      平均來看,模型僅解決了17.2%的任務。其中GPT-5.1(High)解決了23.7%的任務。

      換句話說,盡管上下文中擁有解決每個任務所需的全部信息,但模型還是在絕大多數任務上都失敗了。這表明當前的SOTA模型幾乎都不會從上下文中學習。


      ▲十個前沿模型在CL-bench上的任務解決率

      混元研究團隊得出幾個關鍵結論:

      1)忽略或誤用上下文是導致失敗的主要原因。

      許多錯誤并非源于信息缺失,而是因為模型忽視了上下文中的關鍵細節,或錯誤地應用了它們。在許多情況下,模型只會利用預訓練學習到的靜態知識來解決任務,即使上下文明確定義了新的規則、概念或程序,模型也不會學習和利用。


      ▲各模型錯誤類型的分布

      2、長上下文推理和指令遵循是必要的,但不是充分條件。

      案例分析表明,那些難以跨長上下文追蹤依賴關系或難以精確遵循約束的模型,往往表現得更差。然而,即使是能夠處理長輸入并可靠遵循指令的模型,仍然在許多任務上失敗。上下文學習需要的能力,遠不止長上下文理解和指令遵循能力。

      3、從實驗數據和環境模擬中進行歸納推理比演繹應用更困難。

      演繹任務讓模型根據上下文中明確給出的規則和流程進行應用,而經驗發現和環境模擬類任務則要求歸納推理,也就是從數據中總結規律或在虛擬環境中探索。模型在這類任務上的表現明顯較差,任務解決率通常低于10%,且結果波動大。這表明發現規律遠比應用規則更具挑戰性。


      ▲GPT-5.1在高/低推理強度設置下,各子類別表現對比

      4、更高的推理強度通常能提升上下文學習效果。

      對部分模型來說,增加推理強度可以改善表現,使模型更深入地理解復雜上下文。例如,GPT-5.1在管理類和實驗數據類任務上的表現提升約6%,但其他模型提升有限甚至可能下降,說明單靠更多推理并不足夠,模型還必須能夠正確吸收和組織上下文信息。


      ▲不同輸入長度下模型上下文學習表現的變化趨勢

      5、上下文學習的難度與上下文長度相關,但短上下文也可能很復雜。

      較長的上下文通常讓所有模型的任務更難,這驗證了長上下文處理仍是關鍵瓶頸。然而,即使是短上下文,如果包含信息密集、規則隱含、依賴復雜或約束嚴格的內容,也依然很具挑戰性,說明上下文學習的難度不僅僅來源于長度,也來自于其復雜度。

      CL-bench充分解釋了大語言模型在真實場景中為什么經常出錯:即使有了上下文工程,給模型準備好了所需的上下文,模型也會失敗。如果模型不能真正從中學習,僅僅提供上下文是不夠的。上下文學習作為一項模型基礎的學習能力,很大程度上被忽視了。

      三、上下文都是自包含,測試任務采用無污染設計

      CL-bench中的每個上下文都是完全自包含(Self-contained)的,解決任務所需的所有信息都顯式地提供在上下文本身之中:不需要外部檢索,也不允許隱藏假設。


      ▲解決CL-bench中的任務需要模型從相應的上下文中學習新知識

      為了確保性能真正反映上下文學習,而不是記憶或數據泄露,CL-bench采用了無污染(Contamination-free)設計:

      虛構創作:專家創作完全虛構的內容,例如為虛構國家設計一套完整的法律體系,包括新穎的判例和法律原則,或創建具有獨特語法和語義的新編程語言。

      現有內容的修改:專家修改現實世界的內容以創建變體,例如更改歷史事件、改變科學和數學定義,或修改技術文檔和標準。

      整合小眾和新興內容:專家納入了在預訓練數據集中代表性極低的小眾或近期新興內容,如前沿研究發現、新發布的產品手冊或技術文檔,以及來自專門領域的特定知識。

      在不提供任何上下文的情況下,GPT-5.1(High)僅能解決不到1%的任務。這也證明數據是無污染的,模型若不從Context中學習,幾乎完全無法解決這些任務。

      此外,CL-bench的設計具有高復雜性和序列依賴性。其中,51.1%的任務需要序列依賴,意味著后續任務的解決方案取決于早期交互的結果。這種多輪次設計會增加任務難度。

      平均而言,領域專家花費約20小時標注每個上下文,以確保任務構建的質量和深度。

      與此同時,CL-bench中的每個任務都是完全可驗證的。每個上下文平均關聯63.2個驗證標準,每個任務包含16.6個評估標準。

      結語:大模型如何記憶,將成2026年核心主題

      混元技術博客還提到了混元研究團隊后續的關注重點,包括如何讓模型提升上下文學習能力、如何讓大模型從上下文中學習到的知識持久化。

      如果模型的上下文學習能力能像之前其他能力那樣被提升上去,人類在AI系統中的角色將發生轉變:人類不再是主要的數據提供者(training data provider),而變成了上下文提供者。競爭的焦點將從“誰能把模型訓練得更好”,轉向“誰能為任務提供最豐富、最相關的上下文”。

      他們認為,大模型如何記憶很可能成為2026年的另一個核心主題,要充分發揮大語言模型的潛力,可能需要新的架構、新的優化方式來決定“該保留什么”。

      未來,一旦大模型上下文學習與記憶變得可靠,模型或許就能實現自主學習,它們將自主準備上下文,從中學習并自我鞏固。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      好車和普通車的區別到底在哪里?

      好車和普通車的區別到底在哪里?

      另子維愛讀史
      2026-02-22 22:56:01
      一場3-0,讓巴薩反超皇馬登頂!亞馬爾閃耀,德容破門,真核回歸

      一場3-0,讓巴薩反超皇馬登頂!亞馬爾閃耀,德容破門,真核回歸

      萬花筒體育球球
      2026-02-23 02:50:32
      苦等6年終于崛起!昔日西部霸主,雷霆第一恐不保,曾多次被完虐

      苦等6年終于崛起!昔日西部霸主,雷霆第一恐不保,曾多次被完虐

      你的籃球頻道
      2026-02-22 13:04:51
      殲-20壓陣?中美爆發黃海對峙,10多架F-16精心準備卻狼狽敗退?

      殲-20壓陣?中美爆發黃海對峙,10多架F-16精心準備卻狼狽敗退?

      嫹筆牂牂
      2026-02-22 16:25:37
      中國科研立大功!打破日韓多年壟斷,攻克OLED“卡脖子”關鍵材料

      中國科研立大功!打破日韓多年壟斷,攻克OLED“卡脖子”關鍵材料

      大魚簡科
      2026-02-22 19:12:46
      爆冷!80分鐘絕殺,AC米蘭轟然倒下,爭冠希望渺茫,國米優勢巨大

      爆冷!80分鐘絕殺,AC米蘭轟然倒下,爭冠希望渺茫,國米優勢巨大

      足球狗說
      2026-02-23 03:05:53
      無名指超食指長之人,這4樣東西別去碰,恐會泄漏你的福氣!

      無名指超食指長之人,這4樣東西別去碰,恐會泄漏你的福氣!

      一根香煙的少女
      2025-09-22 16:52:27
      錢再多有什么用?從主持人到“精神病”,48歲李維嘉現狀令人唏噓

      錢再多有什么用?從主持人到“精神病”,48歲李維嘉現狀令人唏噓

      秋姐居
      2026-02-22 09:21:19
      局勢惡化,中國外交官三箭齊發,日本已通知撤人,為臺海戰事鋪路

      局勢惡化,中國外交官三箭齊發,日本已通知撤人,為臺海戰事鋪路

      手里有讀
      2026-02-20 10:16:22
      科技產品成熱門年貨,華強北AI眼鏡銷量暴漲80%

      科技產品成熱門年貨,華強北AI眼鏡銷量暴漲80%

      IT之家
      2026-02-22 17:03:16
      A股:節后開門紅穩了!突發“2個利好”,這幾個板塊將直接起飛!

      A股:節后開門紅穩了!突發“2個利好”,這幾個板塊將直接起飛!

      夜深愛雜談
      2026-02-22 21:50:20
      手里有200萬存款,能躺平嗎?網友:我要是你早就躺了,夠花得了

      手里有200萬存款,能躺平嗎?網友:我要是你早就躺了,夠花得了

      帶你感受人間冷暖
      2026-02-21 00:22:37
      亨通光電,連簽290億訂單!

      亨通光電,連簽290億訂單!

      投研邦V
      2026-02-22 20:24:01
      谷愛凌回應萬斯的批評:你不管別人,就只管我,那是因為我能贏

      谷愛凌回應萬斯的批評:你不管別人,就只管我,那是因為我能贏

      我心縱橫天地間
      2026-02-21 18:50:22
      M8、M9被超越!問界連續兩月痛失霸主地位,蔚來、極氪上位!

      M8、M9被超越!問界連續兩月痛失霸主地位,蔚來、極氪上位!

      科學技術宅
      2026-02-22 16:49:29
      春節即將結束,但令人惡心的事情,在全國各地發生了,太真實了

      春節即將結束,但令人惡心的事情,在全國各地發生了,太真實了

      聞識
      2026-02-21 19:30:46
      劉紀鵬:164萬億存款觀望入市,A股期待5000點不是夢

      劉紀鵬:164萬億存款觀望入市,A股期待5000點不是夢

      徐sir財經
      2026-02-22 20:10:37
      巨虧233億背后!美團已顯力不從心,京東還未全力以赴

      巨虧233億背后!美團已顯力不從心,京東還未全力以赴

      一地基毛
      2026-02-22 23:30:02
      降溫降雨已至!重慶溫度跌至...

      降溫降雨已至!重慶溫度跌至...

      萬州生活
      2026-02-22 21:38:43
      宋清輝:谷愛凌不是美國人,是中國人,同時也是所有中國人的榜樣

      宋清輝:谷愛凌不是美國人,是中國人,同時也是所有中國人的榜樣

      小椰的奶奶
      2026-02-23 03:24:28
      2026-02-23 04:00:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11245文章數 116975關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對自己非常自豪

      娛樂要聞

      谷愛凌:真正的強大 敢接納生命的節奏

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      教育
      時尚
      親子
      游戲
      公開課

      教育要聞

      兩所大學,合并!

      50+女人更適合基礎款,掌握3個高段位搭配思路,輕松提升品味

      親子要聞

      萌娃看見阿姨的大肚子竟這樣說,著急的樣子萌化了

      《GTA6》的第二天發售?《寶可夢》新作爆料來了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版