在云端的另一端,一群當今世界上最聰明的人工智能正端坐在“考場”里,與北京大學化學與分子工程學院的174名大二學生展開了一場特殊的同場競技。
這不僅是一場精心設計的“圖靈測試”,更是北大科研團隊為大語言模型投下的一塊“試金石”。
近日,北京大學化學與分子工程學院聯合北大計算中心、計算機學院及元培學院團隊,共同發布了最新研究成果——SUPERChem。他們沒有沿用常見的通用測試集,而是以一套純正的“北大試卷”為標尺,冷靜而嚴謹地丈量著AI在科學推理能力上的真實邊界。考試現場:一場特殊的期中考
![]()
考試現場
翻開SUPERChem的題庫,撲面而來的是一種令人屏息的“壓迫感”。
晶體結構的精細解析、反應機理的深度推演、物化性質的定量計算……這500道題目絕非網絡上隨手可得的公開習題,而是源于對高難度試題和前沿專業文獻的深度改編與重構。
為何要不遺余力地“自討苦吃”,重新構建一套題庫?
“因為大模型太會‘背書’了。”團隊成員一針見血地解釋道。互聯網上可及的標準化測試題,大多已被那些博聞強識的AI在預訓練階段熟讀于心,甚至可以說是爛熟于“芯”。而化學,恰恰是一門不能只靠死記硬背的學科——它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想象。
“我們非常好奇,大語言模型基于一維文本的nexttokenprediction(下一個詞預測)機制,究竟能否真正解決二維化學結構、甚至三維空間中的復雜推理問題?”
要設計一套讓AI“沒見過”、必須依靠硬實力推理的題目,難度極高。然而,這正是北大化院的獨特優勢所在。近百名師生集結于此,其中不乏奧賽金牌得主,他們決心給AI出一套高門檻、重推理、防作弊的頂級試卷。
他們要考的,是AI是否真的“懂”化學。學術共創:一場寓教于樂的“游戲”
在學術界,構建高質量的評估集往往是一項枯燥且艱巨的工程。但這群年輕的北大人卻別出心裁,將其變成了一場充滿活力的“游戲”。
為了構建這套高質量的評估集,團隊搭建了一個專屬的協作平臺。在這里,出題、審題、修題不再是單調乏味的機械任務,而演變成了一套循序漸進、充滿成就感的“通關”流程。
在這個平臺上,成員們實時協作,互相審閱、彼此“找茬”。嚴謹的科學探討與活躍的思維碰撞在這里交織共融,形成了一種獨特的學術氛圍。
為了進一步激發大家的創造力,團隊還引入了積分激勵系統。出題過程仿佛在游戲中“打怪升級”:
? 編寫初稿 :完成基礎題目的構建;
? 撰寫解析 :提供詳細的解題思路與步驟;
? 初審與終審 :每個環節均由不同的同學層層把關,通過后才能獲得相應積分。
據統計,一道終審通過的題目,甚至最多迭代過15個版本。這種近乎苛刻的打磨,確保了題庫的每一道題都經得起推敲。SUPERChem:重新定義化學AI的基準。
![]()
SUPERChem題庫的三階段審核流程
SUPERChem不僅僅是一套試卷,它更是一個標桿。它試圖回答一個核心問題:在高度專業化的科學領域,AI的“智能”究竟達到了何種水平?
![]()
前沿模型在SUPERChem上的表現
![]()
前沿模型的正確率與RPF關系
通過與人類頂尖學子的同場競技,SUPERChem揭示了當前大模型在面對復雜化學推理時的優勢與短板。它表明,雖然AI在信息檢索和模式識別上表現出色,但在涉及深層邏輯、空間想象和跨學科知識綜合運用的“硬骨頭”面前,依然面臨著巨大的挑戰。
![]()
輸入模態對不同模型的影響
![]()
推理斷點所屬化學能力分布
結語
北大團隊通過這場特殊的“考試”,不僅為大語言模型的科學推理能力提供了一份詳實的“體檢報告”,更為未來的AI輔助科研與教育指明了方向。
在這場云端與現實的交鋒中,無論輸贏,科學探索的邊界都在被一點點拓寬。而SUPERChem,正是那把丈量智慧深度的尺子。
(來源:北京大學版權屬原作者 謹致謝意)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.