![]()
北大174名化學與分子工程學院大二的學生,在考場上迎來了一批特殊的競爭對手——GPT-4、Gemini、Claude等全球頂尖的AI模型。這場看似跨越維度的對決,結果卻出乎所有人的意料。
當成績揭曉,人類的平均正確率是40.3%。而最強大的AI,表現也不過與此相當。一套讓頂尖學府學子平均分僅有40分的試卷,同樣攔住了擁有海量知識的智能模型。這場考試沒有贏家,卻揭示了一個比勝負更重要的真相。
![]()
北大團隊為此精心打造了一套名為SUPERChem的原創題庫,整整500道題,沒有一道來自網絡。因為他們知道,互聯網上能搜到的一切,都早已成為AI訓練中熟記的“課本”。要測試真正的理解,就必須是“全新”的挑戰。近百名師生,包括國際奧賽的金牌得主,像設計一場精密的游戲,搭建平臺,設置關卡,互相審閱,將出題變成共創。一道題最多迭代了15個版本,目標只有一個:讓AI無法依賴記憶,必須依靠推理。
化學的語言,是立體的。它需要大腦在二維的結構式與三維的分子構象之間穿梭,在抽象符號與真實的反應現象之間建立連接。而這正是當前AI的“阿喀琉斯之踵”。研究發現,當題目中包含關鍵的分子結構圖時,部分模型的判斷反而更加困難。圖像非但沒有成為幫手,反而成了干擾。AI的“思考”斷裂在需要空間想象和機理推演的地方——它或許能通過概率拼湊出答案,卻難以展現人類那種基于直覺和理解的、連貫的邏輯鏈。
所以,那40.3分的平均分,此刻不再是一個令人沮喪的數字,而成為一個充滿慰藉的象征。它標志著人類智能中那些尚未被算法征服的領域:在信息不完備時的合理猜想,在多條路徑間的直覺性選擇,以及對復雜體系整體性的、模糊卻常正確的把握。這不是知識的匱乏,而是一種更高級的認知特權。
北大的研究者們清楚地知道,這場測試的目的絕非為了宣告AI的失敗。他們將整個SUPERChem項目全面開源,如同在通往通用人工智能的道路上,豎起了一塊清晰的路標。它冷靜地指明:從擅長“談論”世界,到真正“理解”世界,其間還有漫長的路途。這塊“試金石”的價值,在于為全球的研究者提供精確的測量工具,催化下一次關鍵突破。
那么,回到最初的問題,誰贏了?或許,贏家正是“問題”本身。人類沒有輸給AI的博聞強記,AI也在這場高難度測評中明確了進化的方向。真正的輸家,是我們對“智能”那種單一而扁平的想象。當機器在知識的廣度上無限延伸,人類得以重新審視并珍視自身智能的深度與靈動——那種在化學難題前皺眉沉思,在靈光一閃時欣喜,在探索未知時永懷敬畏的獨特能力。
這場在燕園悄然進行的考試,其回響早已超越了校園。它是一封寫給未來的溫和提醒:在最前沿的智能與最古老的智慧之間,那場偉大的對話與共舞,才剛剛開始。而我們每個人,都既是觀眾,也是舞者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.