來源:滾動播報
(來源:上觀新聞)
![]()
![]()
一兩年前,連高考數(shù)學(xué)都及格不了的大模型,如今已經(jīng)能在數(shù)學(xué)奧賽里睥睨群雄了!
不久前,在全國中學(xué)生數(shù)學(xué)奧林匹克競賽(CMO)決賽中,由上海人工智能實驗室研發(fā)的“書生”科學(xué)多模態(tài)大模型(Intern-S1)獲得了102分(滿分126分)的高分,不僅遠(yuǎn)超78分的金牌分?jǐn)?shù)線,更“一腳邁過”國家集訓(xùn)隊入選線87分。
有閱卷專家評價:“答案表達(dá)方式非常接近人類”,其中對第四題的解答是“一個新的解法,巧妙的調(diào)整法,在學(xué)生的解法中沒有見過”。
上海AI實驗室青年領(lǐng)軍科學(xué)家陳愷認(rèn)為,數(shù)學(xué)奧賽迎來了“AlphaGo時刻”,顯示出AI在高難度代數(shù)、幾何、數(shù)論、組合數(shù)學(xué)證明題領(lǐng)域的巨大潛力。
![]()
“在學(xué)生的解法中沒有見過”
全國中學(xué)生數(shù)學(xué)奧林匹克競賽是我國最高規(guī)格的高中生數(shù)學(xué)奧林匹克競賽,其題目難度往往不亞于國際數(shù)學(xué)奧林匹克競賽。
今年,主辦方首次設(shè)置了賽題AI測試,邀請三家大模型參與,與人類選手在相同時長內(nèi)完成答題,并由官方組織以相同標(biāo)準(zhǔn)進(jìn)行閱卷評分。
新民晚報記者獲悉,全國中學(xué)生數(shù)學(xué)奧林匹克競賽試題覆蓋代數(shù)、幾何、數(shù)論、組合四個板塊,試題往往具有條件隱蔽、邏輯鏈條長、需跨知識點整合等特點,需要答題者對數(shù)學(xué)概念有深刻理解,并能創(chuàng)造性地進(jìn)行應(yīng)用。有奧賽金牌教練直言不諱:“想獲得好名次,四個板塊不能有短板,而且要有板塊比較突出。”
在全部六道題目中,“書生”在其中4道“全對”,各得21分;另2題中,一題“未證明最優(yōu)性”,一題“證明不夠嚴(yán)格”,各得9分。
最令人稱贊的,是“書生”在第四題上的表現(xiàn)。這道題涉及30種顏色、共2100 張紙牌,題目要求的操作極其復(fù)雜。“書生”在規(guī)定時長內(nèi)不僅得出了正確的結(jié)論,還展示了清晰的回答思路。
【相關(guān)閱讀】有30種顏色的紙牌,每種顏色的紙牌均有70張。開始時從這些紙牌中任意選取70張,并從上至下擺成一疊。接著進(jìn)行如下操作:從最下方20張紙牌中選擇一張紙牌 X,滿足其顏色在最上方50張紙牌中從未出現(xiàn);再從最上方50張紙牌中選擇一張紙牌Y,滿足其顏色在最上方50張紙牌中至少出現(xiàn)兩次;從這疊紙牌中抽出X并將其緊貼著Y的上方放回這疊紙牌中。稱上述過程為一次操作。重復(fù)上述操作直至無法選取這樣的紙牌X時,整個操作過程結(jié)束。
(1)證明:對所有可能的初始情況及操作方式,整個操作過程都會在有限次操作后結(jié)束;
(2)在所有可能的初始情況及操作方式中,求操作次數(shù)的最大可能值。
![]()
閱卷專家點評說,“一個新的解法,巧妙的調(diào)整法,在學(xué)生的解法中沒有見過”。在陳愷看來,這說明“書生”已能突破人類解題思路局限,通過自主探索和分析找到新的解題方法,為進(jìn)一步賦能科學(xué)發(fā)現(xiàn)夯實了技術(shù)基礎(chǔ)。
作為本次AI大模型數(shù)學(xué)顧問的第50屆國際數(shù)學(xué)奧林匹克競賽金牌選手鄭凡感慨:“未來,希望大模型能成為一名真正的‘研究伙伴’,攜手探索數(shù)學(xué),乃至更廣闊科學(xué)邊疆。”
從“長時間獨立思考”邁向“長時間獨立科研”
“書生”的驚艷表現(xiàn),讓不少“奧賽專業(yè)戶”震驚:“就像10年前的圍棋一樣,突破可能就是一剎那。”
記者獲悉,Intern-S1的表達(dá)邏輯與推理能力大幅提升,得益于AI與數(shù)學(xué)研究者的共同努力。
“基于實驗室提出的通專融合技術(shù)架構(gòu)SAGE,Intern-S1模型重點突破了技術(shù)框架中融合協(xié)同層的技術(shù),成功實現(xiàn)超長程嚴(yán)謹(jǐn)推理。”陳愷介紹。
![]()
要知道,高難度數(shù)學(xué)問題所需的推理復(fù)雜度,遠(yuǎn)遠(yuǎn)超過大模型在單次推理過程中所能探索的范圍。對此,上海AI實驗室的科研人員提出了多輪分層推理機(jī)制,基于通用推理模型和專業(yè)校驗?zāi)P蜆?gòu)建了具備推理、總結(jié)和驗證智能體的多智能體系統(tǒng),通過多模型分工協(xié)作實現(xiàn)了分階段推理和探索。
同時,科研人員提出了以數(shù)學(xué)引理為核心的緊湊記憶形式,將復(fù)雜推理過程拆解為可復(fù)用、可積累的引理模塊,讓模型的思考推理過程不再受限于單次上下文長度,從而能夠探索和發(fā)現(xiàn)更多的數(shù)學(xué)性質(zhì),并基于觀察提出一些人類沒有發(fā)現(xiàn)過的解決思路。
此外,創(chuàng)新性地提出了基于結(jié)果的過程校驗?zāi)P停@著提升了模型在超長程思考和證明時的嚴(yán)謹(jǐn)性——這使得使得通專融合模型在“奧賽”級別的難題中,能產(chǎn)生“表達(dá)方式非常接近人類”的解答,最終通過閱卷專家嚴(yán)苛的閱卷標(biāo)準(zhǔn)。
值得一提的是,此前,上海AI實驗室的P1物理推理模型,在2025年國際物理奧林匹克大賽上拿下金牌,成為首個也是唯一獲得金牌的開源模型。
【相關(guān)閱讀】AI喜提物理奧賽金牌!來自上海的P1模型,如何開啟“封神”之路?
接連在兩大“奧賽”上摘金,上海AI實驗室透露,計劃將Intern-S1的長程推理能力拓展應(yīng)用于物理、化學(xué)、生命科學(xué)等基礎(chǔ)科研領(lǐng)域,通過與專業(yè)工具的打通與融合,實現(xiàn)從“長時間獨立思考”向“長時間獨立科研”轉(zhuǎn)變,進(jìn)而加速各領(lǐng)域科研范式的根本性變革,為重大科學(xué)突破提供關(guān)鍵支撐,賦能未來的科學(xué)發(fā)現(xiàn)進(jìn)程。
原標(biāo)題:《高分奪金,遠(yuǎn)超國家集訓(xùn)隊入選線!“書生”大模型在奧賽:解法學(xué)生中沒見過!》
欄目編輯:王蔚 題圖來源:東方IC 圖片來源:上海AI實驗室
來源:作者:新民晚報 郜陽
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.