關(guān)注“在線學(xué)習(xí)”
獲取更多資訊!
近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合北大計算中心、計算機學(xué)院、元培學(xué)院團隊,發(fā)布了最新成果SUPERChem:他們以一套“北大試卷”為標(biāo)尺,冷靜丈量著AI在科學(xué)推理上的真實邊界。
![]()
考試現(xiàn)場
01
一場特殊的期中考
在北京大學(xué)化學(xué)與分子工程學(xué)院,有機化學(xué)考試的期中考前,學(xué)生們收到突如其來的一條通知:“請注意,本次考試范圍不僅限于有機化學(xué)。”
除了考試范圍的變化,考場里還迎來的一批“特殊考生”:GPT、Gemini、DeepSeek……這些當(dāng)下世界上最聰明的AI,會在云端與174位北大化學(xué)與分子工程學(xué)院的大二學(xué)生同場競技。
這是一場精心設(shè)計的“圖靈測試”,也是北大科研團隊為大語言模型投下的一塊“試金石”。
晶體結(jié)構(gòu)的精細(xì)解析、反應(yīng)機理的深度推演、物化性質(zhì)的定量計算……打開SUPERChem的題庫,這500道題目并非來自網(wǎng)絡(luò)上隨手可得的公開題庫,而是源于對高難度試題和前沿專業(yè)文獻的深度改編。
之所以要費盡周折重新出題,是“因為大模型太會‘背書’了。”團隊成員解釋道。互聯(lián)網(wǎng)可及的測試題大多已被博聞強識的AI在訓(xùn)練階段熟讀,但化學(xué)是一門不能只靠死記硬背的學(xué)科,既有嚴(yán)密的邏輯推演,又充滿了對微觀世界的空間想象。“我們非常好奇,大語言模型的一維 next token prediction,能否解決二維、甚至三維空間中的復(fù)雜推理問題。”
要設(shè)計一套讓AI“沒見過”、必須靠硬實力推理的題目,難度極高。為此,北大化院近百名師生——其中不乏奧林匹克金牌得主——集結(jié)起來,決定給AI出一套高門檻、重推理、防作弊的試卷。
他們要考的,是AI是否真的“懂”化學(xué)。
![]()
SUPERChem總覽與例題
02
北大學(xué)生對決AI
誰考得更好?
在這場精心設(shè)計的考試中,人類展現(xiàn)出了復(fù)雜的科學(xué)直覺。
作為基線,參與測試的北大化院本科生取得了40.3%的平均準(zhǔn)確率。這個數(shù)字本身,就足以說明這套題目的硬核程度。
而AI的表現(xiàn)如何?
即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當(dāng)。
![]()
前沿模型在SUPERChem上的表現(xiàn)
![]()
前沿模型的正確率與RPF關(guān)系
讓團隊感到意外的是視覺信息帶來的困惑。化學(xué)的語言是圖形,分子結(jié)構(gòu)、反應(yīng)機理圖蘊含著關(guān)鍵信息。然而對于部分模型而言,當(dāng)引入圖像信息時,其準(zhǔn)確率不升反降。這說明,當(dāng)前的AI在將視覺信息轉(zhuǎn)化為化學(xué)語義時,仍存在明顯的感知瓶頸。
![]()
輸入模態(tài)對不同模型的影響
然而,即使選對了答案,解題步驟也可能經(jīng)不起推敲。因此,團隊為每一道題目都標(biāo)注了詳細(xì)的評分規(guī)則。在SUPERChem這臺“顯微鏡”下,AI是真懂還是裝懂,一目了然。
團隊發(fā)現(xiàn),AI的推理鏈條往往斷裂于產(chǎn)物結(jié)構(gòu)預(yù)測、反應(yīng)機理識別以及構(gòu)效關(guān)系分析等高階任務(wù)。當(dāng)前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴(yán)密邏輯和深刻理解的硬核化學(xué)問題時,仍顯得力不從心。
![]()
推理斷點所屬化學(xué)能力分布
03
讓AI與人類對決意義何在?
SUPERChem的誕生,填補了化學(xué)領(lǐng)域多模態(tài)深度推理評測的空白。
據(jù)介紹,團隊發(fā)布這項成果,并非為了證明AI的短板,而是為了推動它走得更遠。SUPERChem就像一個路標(biāo)。它提醒我們:從通用的聊天機器人,到能夠理解構(gòu)效關(guān)系、推演反應(yīng)機理的專業(yè)科學(xué)助手,中間還有很長的一段路要走。那是從“記住知識”到“理解物理世界”的跨越。
目前,SUPERChem項目已全面開源。團隊希望這套源自北大的“試卷”,能成為全球科學(xué)與人工智能領(lǐng)域的公共財富,去催化下一次技術(shù)的爆發(fā)。
本文來源|央視網(wǎng)
聲明:轉(zhuǎn)載此文是出于傳遞更多信息之目的。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與我們聯(lián)系,我們將及時更正、刪除,謝謝。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.