網易首頁 > 網易號 > 正文申請入駐

174名北大學生與全球頂尖的AI模型的正面交鋒，誰贏了？

2025-12-28 09:56:01　來源: 教師吧

山東舉報

分享至

北大174名化學與分子工程學院大二的學生，在考場上迎來了一批特殊的競爭對手——GPT-4、Gemini、Claude等全球頂尖的AI模型。這場看似跨越維度的對決，結果卻出乎所有人的意料。

當成績揭曉，人類的平均正確率是40.3%。而最強大的AI，表現也不過與此相當。一套讓頂尖學府學子平均分僅有40分的試卷，同樣攔住了擁有海量知識的智能模型。這場考試沒有贏家，卻揭示了一個比勝負更重要的真相。

北大團隊為此精心打造了一套名為SUPERChem的原創題庫，整整500道題，沒有一道來自網絡。因為他們知道，互聯網上能搜到的一切，都早已成為AI訓練中熟記的“課本”。要測試真正的理解，就必須是“全新”的挑戰。近百名師生，包括國際奧賽的金牌得主，像設計一場精密的游戲，搭建平臺，設置關卡，互相審閱，將出題變成共創。一道題最多迭代了15個版本，目標只有一個：讓AI無法依賴記憶，必須依靠推理。

化學的語言，是立體的。它需要大腦在二維的結構式與三維的分子構象之間穿梭，在抽象符號與真實的反應現象之間建立連接。而這正是當前AI的“阿喀琉斯之踵”。研究發現，當題目中包含關鍵的分子結構圖時，部分模型的判斷反而更加困難。圖像非但沒有成為幫手，反而成了干擾。AI的“思考”斷裂在需要空間想象和機理推演的地方——它或許能通過概率拼湊出答案，卻難以展現人類那種基于直覺和理解的、連貫的邏輯鏈。

所以，那40.3分的平均分，此刻不再是一個令人沮喪的數字，而成為一個充滿慰藉的象征。它標志著人類智能中那些尚未被算法征服的領域：在信息不完備時的合理猜想，在多條路徑間的直覺性選擇，以及對復雜體系整體性的、模糊卻常正確的把握。這不是知識的匱乏，而是一種更高級的認知特權。

北大的研究者們清楚地知道，這場測試的目的絕非為了宣告AI的失敗。他們將整個SUPERChem項目全面開源，如同在通往通用人工智能的道路上，豎起了一塊清晰的路標。它冷靜地指明：從擅長“談論”世界，到真正“理解”世界，其間還有漫長的路途。這塊“試金石”的價值，在于為全球的研究者提供精確的測量工具，催化下一次關鍵突破。

那么，回到最初的問題，誰贏了？或許，贏家正是“問題”本身。人類沒有輸給AI的博聞強記，AI也在這場高難度測評中明確了進化的方向。真正的輸家，是我們對“智能”那種單一而扁平的想象。當機器在知識的廣度上無限延伸，人類得以重新審視并珍視自身智能的深度與靈動——那種在化學難題前皺眉沉思，在靈光一閃時欣喜，在探索未知時永懷敬畏的獨特能力。

這場在燕園悄然進行的考試，其回響早已超越了校園。它是一封寫給未來的溫和提醒：在最前沿的智能與最古老的智慧之間，那場偉大的對話與共舞，才剛剛開始。而我們每個人，都既是觀眾，也是舞者。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.