高分奪金，遠(yuǎn)超國家集訓(xùn)隊入選線！“書生”大模型在奧賽：解法學(xué)生中沒見過！

2025-12-13 10:44:59　來源: 新浪財經(jīng)

河北舉報

分享至

來源：滾動播報

（來源：上觀新聞）

一兩年前，連高考數(shù)學(xué)都及格不了的大模型，如今已經(jīng)能在數(shù)學(xué)奧賽里睥睨群雄了！

不久前，在全國中學(xué)生數(shù)學(xué)奧林匹克競賽（CMO）決賽中，由上海人工智能實驗室研發(fā)的“書生”科學(xué)多模態(tài)大模型（Intern-S1）獲得了102分（滿分126分）的高分，不僅遠(yuǎn)超78分的金牌分?jǐn)?shù)線，更“一腳邁過”國家集訓(xùn)隊入選線87分。

有閱卷專家評價：“答案表達(dá)方式非常接近人類”，其中對第四題的解答是“一個新的解法，巧妙的調(diào)整法，在學(xué)生的解法中沒有見過”。

上海AI實驗室青年領(lǐng)軍科學(xué)家陳愷認(rèn)為，數(shù)學(xué)奧賽迎來了“AlphaGo時刻”，顯示出AI在高難度代數(shù)、幾何、數(shù)論、組合數(shù)學(xué)證明題領(lǐng)域的巨大潛力。

“在學(xué)生的解法中沒有見過”

全國中學(xué)生數(shù)學(xué)奧林匹克競賽是我國最高規(guī)格的高中生數(shù)學(xué)奧林匹克競賽，其題目難度往往不亞于國際數(shù)學(xué)奧林匹克競賽。

今年，主辦方首次設(shè)置了賽題AI測試，邀請三家大模型參與，與人類選手在相同時長內(nèi)完成答題，并由官方組織以相同標(biāo)準(zhǔn)進(jìn)行閱卷評分。

新民晚報記者獲悉，全國中學(xué)生數(shù)學(xué)奧林匹克競賽試題覆蓋代數(shù)、幾何、數(shù)論、組合四個板塊，試題往往具有條件隱蔽、邏輯鏈條長、需跨知識點整合等特點，需要答題者對數(shù)學(xué)概念有深刻理解，并能創(chuàng)造性地進(jìn)行應(yīng)用。有奧賽金牌教練直言不諱：“想獲得好名次，四個板塊不能有短板，而且要有板塊比較突出。”

在全部六道題目中，“書生”在其中4道“全對”，各得21分；另2題中，一題“未證明最優(yōu)性”，一題“證明不夠嚴(yán)格”，各得9分。

最令人稱贊的，是“書生”在第四題上的表現(xiàn)。這道題涉及30種顏色、共2100 張紙牌，題目要求的操作極其復(fù)雜。“書生”在規(guī)定時長內(nèi)不僅得出了正確的結(jié)論，還展示了清晰的回答思路。

【相關(guān)閱讀】有30種顏色的紙牌，每種顏色的紙牌均有70張。開始時從這些紙牌中任意選取70張，并從上至下擺成一疊。接著進(jìn)行如下操作：從最下方20張紙牌中選擇一張紙牌 X，滿足其顏色在最上方50張紙牌中從未出現(xiàn)；再從最上方50張紙牌中選擇一張紙牌Y，滿足其顏色在最上方50張紙牌中至少出現(xiàn)兩次；從這疊紙牌中抽出X并將其緊貼著Y的上方放回這疊紙牌中。稱上述過程為一次操作。重復(fù)上述操作直至無法選取這樣的紙牌X時，整個操作過程結(jié)束。

（1）證明：對所有可能的初始情況及操作方式，整個操作過程都會在有限次操作后結(jié)束；

（2）在所有可能的初始情況及操作方式中，求操作次數(shù)的最大可能值。

閱卷專家點評說，“一個新的解法，巧妙的調(diào)整法，在學(xué)生的解法中沒有見過”。在陳愷看來，這說明“書生”已能突破人類解題思路局限，通過自主探索和分析找到新的解題方法，為進(jìn)一步賦能科學(xué)發(fā)現(xiàn)夯實了技術(shù)基礎(chǔ)。

作為本次AI大模型數(shù)學(xué)顧問的第50屆國際數(shù)學(xué)奧林匹克競賽金牌選手鄭凡感慨：“未來，希望大模型能成為一名真正的‘研究伙伴’，攜手探索數(shù)學(xué)，乃至更廣闊科學(xué)邊疆。”

從“長時間獨立思考”邁向“長時間獨立科研”

“書生”的驚艷表現(xiàn)，讓不少“奧賽專業(yè)戶”震驚：“就像10年前的圍棋一樣，突破可能就是一剎那。”

記者獲悉，Intern-S1的表達(dá)邏輯與推理能力大幅提升，得益于AI與數(shù)學(xué)研究者的共同努力。

“基于實驗室提出的通專融合技術(shù)架構(gòu)SAGE，Intern-S1模型重點突破了技術(shù)框架中融合協(xié)同層的技術(shù)，成功實現(xiàn)超長程嚴(yán)謹(jǐn)推理。”陳愷介紹。

要知道，高難度數(shù)學(xué)問題所需的推理復(fù)雜度，遠(yuǎn)遠(yuǎn)超過大模型在單次推理過程中所能探索的范圍。對此，上海AI實驗室的科研人員提出了多輪分層推理機(jī)制，基于通用推理模型和專業(yè)校驗?zāi)Ｐ蜆?gòu)建了具備推理、總結(jié)和驗證智能體的多智能體系統(tǒng)，通過多模型分工協(xié)作實現(xiàn)了分階段推理和探索。

同時，科研人員提出了以數(shù)學(xué)引理為核心的緊湊記憶形式，將復(fù)雜推理過程拆解為可復(fù)用、可積累的引理模塊，讓模型的思考推理過程不再受限于單次上下文長度，從而能夠探索和發(fā)現(xiàn)更多的數(shù)學(xué)性質(zhì)，并基于觀察提出一些人類沒有發(fā)現(xiàn)過的解決思路。

此外，創(chuàng)新性地提出了基于結(jié)果的過程校驗?zāi)Ｐ停@著提升了模型在超長程思考和證明時的嚴(yán)謹(jǐn)性——這使得使得通專融合模型在“奧賽”級別的難題中，能產(chǎn)生“表達(dá)方式非常接近人類”的解答，最終通過閱卷專家嚴(yán)苛的閱卷標(biāo)準(zhǔn)。

值得一提的是，此前，上海AI實驗室的P1物理推理模型，在2025年國際物理奧林匹克大賽上拿下金牌，成為首個也是唯一獲得金牌的開源模型。

【相關(guān)閱讀】AI喜提物理奧賽金牌！來自上海的P1模型，如何開啟“封神”之路？

接連在兩大“奧賽”上摘金，上海AI實驗室透露，計劃將Intern-S1的長程推理能力拓展應(yīng)用于物理、化學(xué)、生命科學(xué)等基礎(chǔ)科研領(lǐng)域，通過與專業(yè)工具的打通與融合，實現(xiàn)從“長時間獨立思考”向“長時間獨立科研”轉(zhuǎn)變，進(jìn)而加速各領(lǐng)域科研范式的根本性變革，為重大科學(xué)突破提供關(guān)鍵支撐，賦能未來的科學(xué)發(fā)現(xiàn)進(jìn)程。

原標(biāo)題：《高分奪金，遠(yuǎn)超國家集訓(xùn)隊入選線！“書生”大模型在奧賽：解法學(xué)生中沒見過！》

欄目編輯：王蔚題圖來源：東方IC 圖片來源：上海AI實驗室

來源：作者：新民晚報郜陽

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.