<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      距離“數字科學家”還有多遠?從“死記硬背”到“邏輯博弈”

      0
      分享至


      潘 展|編譯

      在實驗室的幽暗燈光下,科學家常年與實驗數據和復雜的理論公式博弈。而如今,一個全新的“協作者”出現在了實驗臺上。大語言模型(LLMs)已經展示了書寫論文、總結文獻、甚至是構思復雜實驗流程的驚人能力。

      然而,當一個AI系統提出一種新的催化劑分子,或是預測了一種全新的蛋白質結構時,我們如何確定它是真的通過“理解”科學原理得出的結論,還是僅僅在進行一場精密的統計游戲?


      近日,《科學》雜志探討了這一核心議題:我們究竟該如何衡量人工智能是否聰明到足以從事科學研究?

      01


      從“死記硬背”到“邏輯博弈”

      在過去幾年中,AI 模型在各類學術基準測試中表現出了近乎狂飆的性能。無論是 MMLU(大規模多任務語言理解)還是其他通用學科測試,AI的得分屢創新高。然而,這引發了研究界深層的擔憂:這些測試是否正在失效?


      前沿LLMs在流行基準和HLE上的性能,圖源:HLE

      AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。由于目前的AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。

      當模型面對一道復雜的物理競賽題時,它給出的正確答案可能并非基于對物理定律的深刻推演,而是基于海量訓練數據中的相似模式匹配。也由此,這種“記憶力驅動的智能”在科學研究中是危險的,科學家將它稱之為“數據污染”——科學的本質在于探索未知,而記憶只能復述已知。

      為了甄別真正的科學智能,研究人員開始設計那些“無法通過互聯網搜索找到答案”的極端考題。其中,生物、化學、物理領域的GPQA(研究生級別谷歌驗證問答集)成為衡量這一能力的標桿。


      各流行模型GPQA分數排行榜,圖片來源Frontier

      GPQA的獨特之處在于其極高的門檻。即使是相關學科的專家,在擁有無限互聯網訪問權限的情況下,回答這些問題的正確率也僅在65%至70%之間。如果一個非相關領域的博士去參加測試,正確率往往會大幅跌落。

      當新一代AI 模型(如 OpenAI o1 系列)在 GPQA-Diamond 測試中取得超過80%的正確率時,科研界感受到了震動。

      他們認為,這不再是簡單的記憶檢索,而是模型展現出了某種形式的“科學推演能力”——它能夠處理多步驟的邏輯鏈條,在信息不足的情況下進行嚴謹的外推。

      02


      從“結果導向”轉向“過程審計”

      在科學發現中,結論的正確性固然重要,但推導過程的嚴謹性往往決定了研究的價值。最新的評估框架開始引入“過程監督”。


      FrontierScience奧林匹克與科學研究上各模型準確率,圖源:OpenAI

      這不僅僅是檢查AI最后的答案是否正確,而是要求模型展示其思維路徑,如在評估一個AI是否具備合成復雜有機分子的能力時,評估者不再只看最終產量,而是逐一審查AI的每一步操作邏輯:它是否考慮了反應環境的溫度與壓力?是否識別并避開了可能發生的副反應?在實驗失敗時,它能否根據異常數據進行正確的歸因分析?

      這種方法有力地剔除了“邏輯幻覺”。許多模型在測試中能夠寫出優美的科研術語,但在嚴密的邏輯審查下,其推導鏈條往往存在致命的科學漏洞。

      03


      從“實戰測試”到回歸科學的本質

      衡量AI性能的最終戰場是真實的實驗室。目前,最前沿的評估方式被稱為“閉環自動化發現”。

      在這種模式下,AI 被直接連接到自動化的化學合成實驗室或計算平臺。研究人員只給出一個宏大的目標,如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設中篩選最優路線,指導機器人進行實驗,并根據實驗回傳的實時數據,動態調整自己的假設。

      當實驗數據與初始理論沖突時,AI能否迅速識別出是模型偏差還是實驗誤差的反思能力,成為衡量其是否“聰明”的黃金標準。那些能夠通過少量實驗修正自身知識結構、進而逼近真理的AI,才被認為具備了真正的科學直覺。

      然而,即便是最先進的AI,在科學領域的表現依然面臨界限。我們衡量AI,并非為了證明它能取代科學家,而是為了確立一種全新的協作范式。

      科學研究不僅需要邏輯推演,還需要那種打破范式的“直覺”。目前,AI擅長在既定的科學空間內進行海量的、高維度的搜索與優化,但在提出顛覆性的科學假說、或在模糊的交叉學科邊緣進行原創性飛躍方面,人類科學家依然掌握著主導權。

      04


      結語

      我們距離創造出一個能夠獨立從事科學研究的“數字科學家”還有多遠?《科學》這篇文章的結論或許可以給予我們啟發:這取決于我們的評估體系演進得有多快。

      當我們不再僅僅以“考試成績”來衡量模型,而是以“邏輯嚴謹度”、“實驗修正能力”和“跨學科泛化能力”為坐標系時,我們不僅在篩選更好的工具,更是在重新定義科學本身。

      在這個人機共進的時代,衡量AI的過程,本質上也是人類在不斷審視自身如何理解自然界的過程。

      https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

      Deep Science預印本



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全球最貴電車來了

      全球最貴電車來了

      大象新聞
      2026-04-20 10:35:05
      醫院的專家號剛放出就瞬間“秒空”,上海三甲醫院緊急報警!警方:對倒賣醫院號源犯罪團伙的李某、鄭某等人依法刑事拘留

      醫院的專家號剛放出就瞬間“秒空”,上海三甲醫院緊急報警!警方:對倒賣醫院號源犯罪團伙的李某、鄭某等人依法刑事拘留

      大風新聞
      2026-04-22 15:12:13
      老兵借廁所被拒后續!官方公布處理結果,保安被開除,老兵回應

      老兵借廁所被拒后續!官方公布處理結果,保安被開除,老兵回應

      180視角
      2026-04-22 01:03:20
      3連鞭!世錦賽戰報速遞:斯佳輝3-4暫時落后,奧沙利文約戰希金斯

      3連鞭!世錦賽戰報速遞:斯佳輝3-4暫時落后,奧沙利文約戰希金斯

      郝小小看體育
      2026-04-23 00:40:25
      王毅這次出訪不一般,身邊多帶了一個人!東南亞三國要變天了?

      王毅這次出訪不一般,身邊多帶了一個人!東南亞三國要變天了?

      閆樹軍論評
      2026-04-22 15:47:07
      10大天規,不可打破,君子知命不算命!

      10大天規,不可打破,君子知命不算命!

      神奇故事
      2026-04-20 19:27:24
      紅綠燈倒計時取消!全國推行新規,以后過路口記住這1句話

      紅綠燈倒計時取消!全國推行新規,以后過路口記住這1句話

      阿振觀點
      2026-04-22 06:00:49
      與伊朗談判取消  特朗普再次上演TACO,宣布延長停火期

      與伊朗談判取消 特朗普再次上演TACO,宣布延長停火期

      劉耘博士
      2026-04-22 10:49:40
      網傳孫吉被前妻實名舉報:騙婚、出軌、海外擁有巨額不明資產

      網傳孫吉被前妻實名舉報:騙婚、出軌、海外擁有巨額不明資產

      懂球帝
      2026-04-22 12:46:51
      偷了機場114盞燈!沒留照片、指紋、DNA的機場大盜被抓

      偷了機場114盞燈!沒留照片、指紋、DNA的機場大盜被抓

      環球網資訊
      2026-04-22 17:00:50
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      全球九成產能在日本,前2月中國一滴未買,若斷供,我們頂得住嗎

      全球九成產能在日本,前2月中國一滴未買,若斷供,我們頂得住嗎

      遠方風林
      2026-04-22 11:56:20
      曝67歲唐鶴德患眼疾獨自求醫,寂寞難耐病愈后找史先生及男孩散心

      曝67歲唐鶴德患眼疾獨自求醫,寂寞難耐病愈后找史先生及男孩散心

      開開森森
      2026-04-21 14:34:44
      醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

      醪糟再次被關注!醫生發現:高血脂患者喝醪糟,不用多久4大變化

      芹姐說生活
      2026-04-19 15:52:53
      切爾西官宣41歲主帥下課!帶隊107天+英超遭5連敗 解約金1200萬鎊

      切爾西官宣41歲主帥下課!帶隊107天+英超遭5連敗 解約金1200萬鎊

      我愛英超
      2026-04-23 00:41:15
      伊朗不打算給面子,美軍三航母就位,特朗普想把中國拖下水

      伊朗不打算給面子,美軍三航母就位,特朗普想把中國拖下水

      林子說事
      2026-04-22 20:10:33
      世錦賽戰報:2-10!中國5人出局了,16強基本定14席火箭vs希金斯

      世錦賽戰報:2-10!中國5人出局了,16強基本定14席火箭vs希金斯

      小火箭愛體育
      2026-04-22 22:37:51
      谷雨后,這菜使勁吃,一清熱解毒,二健胃消食,三祛濕,鮮嫩營養

      谷雨后,這菜使勁吃,一清熱解毒,二健胃消食,三祛濕,鮮嫩營養

      阿龍美食記
      2026-04-20 15:29:14
      浪胃仙整容失敗!在昆明被網友偶遇,真人又壯又老,差點認出是他

      浪胃仙整容失敗!在昆明被網友偶遇,真人又壯又老,差點認出是他

      離離言幾許
      2026-04-22 07:06:44
      爆大冷!2-3!保級隊奇跡逆襲,西蒙尼又搞砸了:恥辱4連敗

      爆大冷!2-3!保級隊奇跡逆襲,西蒙尼又搞砸了:恥辱4連敗

      足球狗說
      2026-04-23 03:00:34
      2026-04-23 03:56:49
      深究科學 incentive-icons
      深究科學
      科學、技術、創新。
      216文章數 11關注度
      往期回顧 全部

      科技要聞

      對話梅濤:沒有視頻底座,具身智能走不遠

      頭條要聞

      伊朗:特朗普“又說謊了”

      頭條要聞

      伊朗:特朗普“又說謊了”

      體育要聞

      網易傳媒再度簽約法國隊和阿根廷隊

      娛樂要聞

      蜜雪冰城泰國代言人 被扒出辱華黑歷史

      財經要聞

      醫院專家號"秒空"!警方牽出黑色產業鏈

      汽車要聞

      純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

      態度原創

      時尚
      本地
      房產
      公開課
      軍事航空

      用了8年還心動,這筆錢是花得真值啊

      本地新聞

      春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

      房產要聞

      官宣!今年9月起,廣州中小學“重點班”將成歷史!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普宣布延長停火 伊朗表態

      無障礙瀏覽 進入關懷版