![]()
“即使是如今最強(qiáng)的語言模型,在上下文的利用方面仍然做得不好,甚至可以說是還不會利用上下文,從上下文中學(xué)習(xí)。”
公司情報(bào)專家《財(cái)經(jīng)涂鴉》獲悉,2月3日,騰訊混元官網(wǎng)技術(shù)博客(Tencent HY Research)發(fā)表名為《從上下文中學(xué)習(xí),遠(yuǎn)比我們想象的要難》的文章,系統(tǒng)介紹了騰訊混元團(tuán)隊(duì)聯(lián)合復(fù)旦大學(xué)的一項(xiàng)新研究。
這是姚順雨加入騰訊擔(dān)任首席AI科學(xué)家后團(tuán)隊(duì)首次發(fā)布研究成果,也是騰訊混元技術(shù)博客首次公開。這一博客的推出,旨在分享騰訊混元研究員在前沿技術(shù)研究和實(shí)踐中的探索與經(jīng)驗(yàn),呈現(xiàn)創(chuàng)新思路與技術(shù)洞察。
過去幾年,大語言模型快速進(jìn)化,如今的前沿模型,已經(jīng)是頂級的“做題家”:它們能解開奧數(shù)級別的難題,能推演復(fù)雜的編程邏輯,甚至能通過那些人類需要苦讀數(shù)年才能拿下的專業(yè)資格考試。然而,在面臨真實(shí)世界的任務(wù)時,模型表現(xiàn)還有待提升。
回看我們?nèi)祟惖娜粘9ぷ鳎洪_發(fā)者掃過從未見過的工具文檔,就能立刻開始調(diào)試代碼;玩家拿起新游戲的規(guī)則書,在實(shí)戰(zhàn)中邊玩邊學(xué);科學(xué)家從復(fù)雜的實(shí)驗(yàn)日志中篩選數(shù)據(jù),推導(dǎo)出新的結(jié)論和定律。這些場景中,人類并不只依賴多年前學(xué)到的“死知識”,而是在實(shí)時地從眼前的上下文(Context)中學(xué)習(xí)。
在這篇論文里,騰訊混元和復(fù)旦大學(xué)聯(lián)合研究團(tuán)隊(duì)提到,要讓大模型學(xué)會“從上下文中學(xué)習(xí)”,遠(yuǎn)比我們想象的要難。并且,即便抹平了上下文帶來的信息差,模型也未必能解決問題,這說明模型在上下文利用上,依然存在顯著的能力短板。
為了衡量現(xiàn)有模型距離真正的“上下文學(xué)習(xí)者”還有多遠(yuǎn),研究團(tuán)隊(duì)構(gòu)建了CL-bench,這是一個專門評測語言模型能否從上下文中學(xué)習(xí)新知識并正確應(yīng)用的基準(zhǔn)。CL-bench包含由資深領(lǐng)域?qū)<揖闹谱鞯?00個復(fù)雜上下文、1,899個任務(wù)和31,607個驗(yàn)證標(biāo)準(zhǔn)。
CL-bench只包含一個簡單但苛刻的要求:解決每個任務(wù)要求模型必須從上下文中學(xué)習(xí)到模型預(yù)訓(xùn)練中不存在的新知識,并正確應(yīng)用。
通過實(shí)驗(yàn),論文發(fā)現(xiàn),世界上排名前十的語言模型在CL-bench上的任務(wù)解決率平均只有17.2% ,也就是說即使是如今最強(qiáng)的語言模型,在上下文的利用方面仍然做得不好,甚至可以說是還不會利用上下文,從上下文中學(xué)習(xí)。
這也為大語言模型后續(xù)的迭代指出了一個可能的方向,強(qiáng)化模型從上下文中進(jìn)行學(xué)習(xí)的能力。
官方技術(shù)博客還提到,如果模型的上下文學(xué)習(xí)能力能像之前其他能力那樣被提升上去,人類在AI系統(tǒng)中的角色將發(fā)生轉(zhuǎn)變:我們不再是主要的數(shù)據(jù)提供者(training data provider),而變成了上下文提供者(context provider)。未來,競爭的焦點(diǎn)將從“誰能把模型訓(xùn)練得更好”,轉(zhuǎn)向“誰能為任務(wù)提供最豐富、最相關(guān)的上下文”。
研究團(tuán)隊(duì)也強(qiáng)調(diào),模型如何記憶很可能成為2026年大模型發(fā)展的另一個核心主題,并且,一旦上下文學(xué)習(xí)與記憶變得可靠,模型或許就能實(shí)現(xiàn)自主學(xué)習(xí),它們將自主準(zhǔn)備上下文,從中學(xué)習(xí)并自我鞏固。
在加入騰訊之前,姚順雨曾經(jīng)發(fā)布過一篇名為《The Second Half》的博客,重點(diǎn)提到大模型下半場的重頭戲是“評估”,此后在多次公開講話中,他也提到了打造實(shí)用模型的目標(biāo),這可以視為他在騰訊混元團(tuán)隊(duì)的重點(diǎn)研發(fā)思路之一。本次CL-bench的推出,將成為模型上文學(xué)習(xí)能力評估的主要基準(zhǔn),為大模型學(xué)習(xí)更多解決現(xiàn)實(shí)世界難題提供幫助。
作者:蘇打
編輯:tuya
出品:財(cái)經(jīng)涂鴉(ID:caijingtuya)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.