網易首頁 > 網易號 > 正文申請入駐

距離“數字科學家”還有多遠？從“死記硬背”到“邏輯博弈”

2026-03-09 11:44:05　來源: 深究科學

浙江舉報

分享至

潘展|編譯

在實驗室的幽暗燈光下，科學家常年與實驗數據和復雜的理論公式博弈。而如今，一個全新的“協作者”出現在了實驗臺上。大語言模型（LLMs）已經展示了書寫論文、總結文獻、甚至是構思復雜實驗流程的驚人能力。

然而，當一個AI系統提出一種新的催化劑分子，或是預測了一種全新的蛋白質結構時，我們如何確定它是真的通過“理解”科學原理得出的結論，還是僅僅在進行一場精密的統計游戲？

近日，《科學》雜志探討了這一核心議題：我們究竟該如何衡量人工智能是否聰明到足以從事科學研究？

從“死記硬背”到“邏輯博弈”

在過去幾年中，AI 模型在各類學術基準測試中表現出了近乎狂飆的性能。無論是 MMLU（大規模多任務語言理解）還是其他通用學科測試，AI的得分屢創新高。然而，這引發了研究界深層的擔憂：這些測試是否正在失效？

前沿LLMs在流行基準和HLE上的性能，圖源：HLE

AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集，許多基準測試題本質上已經成為了模型的“考前背誦材料”。由于目前的AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集，許多基準測試題本質上已經成為了模型的“考前背誦材料”。

當模型面對一道復雜的物理競賽題時，它給出的正確答案可能并非基于對物理定律的深刻推演，而是基于海量訓練數據中的相似模式匹配。也由此，這種“記憶力驅動的智能”在科學研究中是危險的，科學家將它稱之為“數據污染”——科學的本質在于探索未知，而記憶只能復述已知。

為了甄別真正的科學智能，研究人員開始設計那些“無法通過互聯網搜索找到答案”的極端考題。其中，生物、化學、物理領域的GPQA（研究生級別谷歌驗證問答集）成為衡量這一能力的標桿。

各流行模型GPQA分數排行榜，圖片來源Frontier

GPQA的獨特之處在于其極高的門檻。即使是相關學科的專家，在擁有無限互聯網訪問權限的情況下，回答這些問題的正確率也僅在65%至70%之間。如果一個非相關領域的博士去參加測試，正確率往往會大幅跌落。

當新一代AI 模型（如 OpenAI o1 系列）在 GPQA-Diamond 測試中取得超過80%的正確率時，科研界感受到了震動。

他們認為，這不再是簡單的記憶檢索，而是模型展現出了某種形式的“科學推演能力”——它能夠處理多步驟的邏輯鏈條，在信息不足的情況下進行嚴謹的外推。

從“結果導向”轉向“過程審計”

在科學發現中，結論的正確性固然重要，但推導過程的嚴謹性往往決定了研究的價值。最新的評估框架開始引入“過程監督”。

FrontierScience奧林匹克與科學研究上各模型準確率，圖源：OpenAI

這不僅僅是檢查AI最后的答案是否正確，而是要求模型展示其思維路徑，如在評估一個AI是否具備合成復雜有機分子的能力時，評估者不再只看最終產量，而是逐一審查AI的每一步操作邏輯：它是否考慮了反應環境的溫度與壓力？是否識別并避開了可能發生的副反應？在實驗失敗時，它能否根據異常數據進行正確的歸因分析？

這種方法有力地剔除了“邏輯幻覺”。許多模型在測試中能夠寫出優美的科研術語，但在嚴密的邏輯審查下，其推導鏈條往往存在致命的科學漏洞。

從“實戰測試”到回歸科學的本質

衡量AI性能的最終戰場是真實的實驗室。目前，最前沿的評估方式被稱為“閉環自動化發現”。

在這種模式下，AI 被直接連接到自動化的化學合成實驗室或計算平臺。研究人員只給出一個宏大的目標，如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設中篩選最優路線，指導機器人進行實驗，并根據實驗回傳的實時數據，動態調整自己的假設。

當實驗數據與初始理論沖突時，AI能否迅速識別出是模型偏差還是實驗誤差的反思能力，成為衡量其是否“聰明”的黃金標準。那些能夠通過少量實驗修正自身知識結構、進而逼近真理的AI，才被認為具備了真正的科學直覺。

然而，即便是最先進的AI，在科學領域的表現依然面臨界限。我們衡量AI，并非為了證明它能取代科學家，而是為了確立一種全新的協作范式。

科學研究不僅需要邏輯推演，還需要那種打破范式的“直覺”。目前，AI擅長在既定的科學空間內進行海量的、高維度的搜索與優化，但在提出顛覆性的科學假說、或在模糊的交叉學科邊緣進行原創性飛躍方面，人類科學家依然掌握著主導權。

結語

我們距離創造出一個能夠獨立從事科學研究的“數字科學家”還有多遠？《科學》這篇文章的結論或許可以給予我們啟發：這取決于我們的評估體系演進得有多快。

當我們不再僅僅以“考試成績”來衡量模型，而是以“邏輯嚴謹度”、“實驗修正能力”和“跨學科泛化能力”為坐標系時，我們不僅在篩選更好的工具，更是在重新定義科學本身。

在這個人機共進的時代，衡量AI的過程，本質上也是人類在不斷審視自身如何理解自然界的過程。

https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

Deep Science預印本

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Anthropic開始搶科學家了？周薪2.7萬駐場，專治Claude專家級錯誤

新智元 2026-04-22 06:36:30
27 跟貼 27
Steering：從底層機理到系統評估，全面破解大模型行為控制之謎

機器之心Pro 2026-04-21 18:46:15
1 跟貼 1

對話劉子鳴：從MIT回到清華，給AI找一套“務實的理論”

DeepTech深科技 2026-04-21 15:38:21
0 跟貼 0

機器人“實習生”要住家了！自變量機器人CEO王潛：具身智能的“Aha Moment”或在2至3年內出現

每日經濟新聞 2026-04-23 00:10:04
0 跟貼 0
OpenAI最新生圖模型，馬斯克直播賣老干媽？

量子位 2026-04-21 04:17:17
0 跟貼 0

AI硬件殺手級場景，到底藏在哪兒？

虎嗅APP 2026-04-23 01:02:14
0 跟貼 0

騰訊與阿里巴巴洽談投資DeepSeek 估值超過200億美元

財聯社 2026-04-22 19:24:36
0 跟貼 0
谷歌云年度Next大會：TPU打破“內存墻” OCS、液冷題材如期亮相

財聯社 2026-04-23 03:20:30
0 跟貼 0

初中物理怎么學？樹德名師提到學生要有三種思維

成都商報教育報道 2026-04-22 21:58:14
0 跟貼 0
夸孩子萬能公式

小南劇社 2026-04-21 10:16:00
24 跟貼 24
格力回應鋁線電機爭議：相關工程機已停產，海信稱靠多三兩銅多500元時代已終結

紅星資本局 2026-04-21 20:40:16
17351 跟貼 17351
無錫籍學者錢紘全職加入西湖大學，出身學術世家一門三杰全是科學家

現代快報 2026-04-22 20:28:07
0 跟貼 0
宿舍遙控器被收走，宿舍長不讓大家熱著，直接用物理方式把空調打開了

樂動向前 2026-04-21 18:52:04
0 跟貼 0
“榮格揭秘：冷淡如何引發恐懼，權力邏輯揭示人性！”

星云母體在分娩n 2026-04-19 06:49:10
1 跟貼 1
大爺駕駛MPV強穿掛壁公路，出來時全車被刮花

荔枝新聞 2026-04-22 05:14:55
201 跟貼 201
中國歷史為何總是北方統一南方？其底層邏輯是什么？

為了更好 2026-04-19 14:49:59
9 跟貼 9
中國科學院院士顏寧一行到我校考察調研，多項重要合作達成！

內蒙古大學 2026-04-21 18:52:15
3 跟貼 3
V8發動機模型

制造科技 2026-04-19 17:41:19
0 跟貼 0
"取消午休改16點下班"火了上海人一針見血

魯中晨報 2026-04-22 14:28:23
352 跟貼 352
8歲考出760高分，智商230碾壓愛因斯坦，天才陶哲軒如今現狀如何

大魚簡科 2026-04-22 17:11:04
62 跟貼 62
冪的運算，基礎公式不熟練，這道題很難做出來

智慧的小老虎 2026-04-19 18:50:12
0 跟貼 0
謝鋒:中國大蒜做夢也沒想到會被美列為"國家安全威脅"

極目新聞 2026-04-22 08:45:19
367 跟貼 367
生命科學實驗室地產正從低谷回暖，對投資者意味著什么

新浪財經 2026-04-22 22:18:06
0 跟貼 0
中國軍艦大片震撼上新：雷達一開周圍都是透明的

環球網資訊 2026-04-22 09:00:22
2212 跟貼 2212
科學恒星的質量增長存在著怎樣的物理極限！

素玉姑娘 2026-04-21 03:33:39
0 跟貼 0
寧馬線開通場面太火爆，有乘客等三趟車沒擠上

現代快報 2026-04-22 14:20:23
306 跟貼 306
它喊著防止追尾，卻又有意急剎，設計這個邏輯的公司真無敵了！

旅行指南者 2026-04-20 09:47:38
0 跟貼 0
男子玩射擊游戲，用筷子開“物理外掛”，竟然還能這樣玩呢！

搞笑喵星人 2026-04-22 13:25:41
1 跟貼 1
用生姜、大蒜和辣椒制作生物殺蟲劑，噴灑在蔬菜上治理蟲害

機械女孩 2026-04-21 09:19:47
3 跟貼 3
時間的能量起源：基于?E/?F=VT的宇宙學解釋

原創物理理論研究與探索 2026-04-22 17:50:07
0 跟貼 0
專家號剛放出就瞬間"秒空" 上海三甲醫院緊急報警

大風新聞 2026-04-22 15:12:13
0 跟貼 0
背負丑陋生物之名，深海真身驚艷，徹底打破固有印象

小禾荒野 2026-04-21 15:40:51
3 跟貼 3
動物專家農田設局：野鹿模型引猛獸來襲大揭秘

煙寒若雨s 2026-04-21 03:56:14
1 跟貼 1
黑洞噴流瞬時能量首獲測量

環球網資訊 2026-04-21 09:18:08
11 跟貼 11
各學科地位

姜不夠 2026-04-21 02:38:02
0 跟貼 0
兩人吃飯時起“爭執”，爭辯勺子中的水能不能煮開，網友：這是初中物理知識

柚子Video 2026-04-21 13:36:36
1 跟貼 1
從人工到機器，插秧邏輯已經變了！

秘密大爆炸 2026-04-22 10:16:34
1 跟貼 1
當小行星用物理撞擊地球時

音樂知多少 2026-04-21 13:19:02
0 跟貼 0
云南一幼童十余天反復咳痰帶血，氣管內取出8厘米活體蠕動螞蟥

澎湃新聞 2026-04-22 11:02:28
1647 跟貼 1647
國新辦舉行“新征程上的奮斗者”中外記者見面會圍繞“弘揚科學家精神聚力科技自立自強”與中外記者見面交流

三思派 2026-04-22 18:19:35
0 跟貼 0

深究科學

科學、技術、創新。

216文章數 11關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

房產

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

距離“數字科學家”還有多遠？從“死記硬背”到“邏輯博弈”

對話梅濤：沒有視頻底座，具身智能走不遠

伊朗：特朗普“又說謊了”

伊朗：特朗普“又說謊了”

網易傳媒再度簽約法國隊和阿根廷隊

蜜雪冰城泰國代言人 被扒出辱華黑歷史

醫院專家號"秒空"！警方牽出黑色產業鏈

純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態度原創

用了8年還心動，這筆錢是花得真值啊

春色滿城關不住｜白鵑梅浪漫盛放，吳山藏了一片四月雪

官宣！今年9月起，廣州中小學“重點班”將成歷史！

特朗普宣布延長停火 伊朗表態

蜜雪冰城泰國代言人被扒出辱華黑歷史

純電續航301km+激光雷達宋Pro DM-i飛馳版9.99萬起

特朗普宣布延長停火伊朗表態