<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大變天?Nature 報道科研邁向AI自動化:從研究構思到通過盲審

      0
      分享至


      認知神經科學前沿文獻分享


      基本信息

      Title:Towards end-to-end automation of AI research

      發表時間:2026-03-25

      發表期刊:Nature

      影響因子:48.5

      獲取原文:

      1. 添加小助手:PSY-Brain-Frontier即可獲取PDF版本



      研究背景

      過去幾年,AI在科研中的角色不斷擴張,但多數停留在查文獻、寫代碼、提假設等單點輔助上。真正困難的問題是:模型能否將一個研究想法推進成完整實驗,再把實驗結果整理成論文,并最終通過同行評議的檢驗?

      這篇《Nature》論文探討的正是這一關鍵缺口:是否可以構建一個基于基礎模型(foundation models)的代理式系統(agentic system),端到端自動完成機器學習科研流程。作者提出了The AI Scientist系統,其目標不是簡單生成文本,而是覆蓋構思、查重、實驗、畫圖、寫作乃至AI審稿的完整鏈條。同時,評估這類系統本身也極具挑戰。若每次都依賴人類專家逐篇審稿,成本極高且難以規模化比較。因此,作者構建了配套的自動審稿器 The Automated Reviewer,用以近似人類評審群體的判斷。

      這項工作最引人注目的結果在于其真實的外部驗證:經批準后,3篇全AI生成的論文被匿名投至ICLR 2025的一個workshop,其中1篇在真實盲審中超過了平均接收閾值。這表明AI自動化科研開始觸碰真實學術評審體系,但作者也極其謹慎地指出,這距離頂級主會標準仍有明顯差距,且系統的穩定性與方法正確性仍有待解決。


      實驗設計與方法邏輯

      論文的論證為三個層次:系統構建、評估器驗證與能力檢驗。

      第一層是系統構建。The AI Scientist包含兩種形態:基于模板(template-based)的系統從人類提供的初始代碼出發,在特定子領域上迭代推進;無模板(template-free)系統則在更開放的空間中,通過代理式樹搜索(agentic tree search)生成代碼、調試并推進研究議程,更接近從零開始的開放式科研。

      第二層是評估器驗證。作者構建了The Automated Reviewer,采用5個獨立AI審稿加1個元審稿(meta-review)的集成流程。在OpenReview的ICLR歷史決策數據上,該審稿器的平衡準確率(balanced accuracy)達到0.66至0.69,與已知的人類評審一致性水平相當。這使其具備了作為大規模比較系統輸出質量的近似標尺的資格。

      第三層是能力檢驗。作者首先在內部比較了不同底層模型和測試時計算(test-time compute)對生成論文質量的影響。隨后進行了最關鍵的外部驗證:經ICLR 2025 workshop組織方和IRB批準,作者將3篇未經人工修改正文的AI生成論文提交至ICBINB workshop盲審。此設計的目的并非證明AI已達頂會水平,而是檢驗其能否在真實同行評審場景下跨過最低可接受門檻。


      核心發現

      發現一:AI首次閉環完成科研流程,并在真實workshop盲審中達到接收門檻

      The AI Scientist將提出想法、新穎性檢查、修改代碼、運行實驗、繪制圖表、撰寫論文及AI審稿等環節串聯為完整閉環。在經批準的外部驗證中,3篇全AI生成的論文被提交至ICLR 2025的ICBINB workshop。其中1篇獲得6、7、6的評分,超過該workshop的平均接收閾值。這證明全AI生成的論文已能在真實的同行評審環境中跨過初步門檻,但作者強調,這僅是workshop級別,且3篇中僅1篇過線,尚未達到頂級主會標準。



      Fig. 1a 中,作者展示了 The AI Scientist 覆蓋構思、實驗、寫作與審稿的完整流程;Fig. 2 則展示了在真實盲審中達到接收門檻的 AI 生成論文片段。
      發現二:底層模型升級與測試時計算增加,能顯著提升AI生成的論文質量

      借助與人類評審一致性相當的自動審稿器,作者量化評估了不同配置下的系統產出。結果顯示,驅動系統的底層基礎模型發布時間越新,生成的論文得分越高。此外,在無模板的開放式探索中,增加測試時計算,尤其是增加樹搜索中的實驗節點預算,能讓系統嘗試更多路徑并修復錯誤,從而進一步提高最終論文的質量評分。


      Fig. 1b 中,作者展示了不同發布時間的底層模型驅動系統時,論文評分整體上升的趨勢;Fig. 3c 則表明隨著實驗節點數量增加,自動審稿器給出的論文分數也隨之上升。
      發現三:當前系統仍存在方法錯誤與幻覺等短板,尚未能穩定替代人類科研

      文中 Limitations 段落與討論中,作者認為:盡管實現了流程閉環,但當前系統在科學嚴謹性上仍存在明顯瓶頸。作者坦誠列舉了常見的失敗模式,包括研究想法不成熟、核心方法實現錯誤、實驗不夠嚴謹、圖表重復以及引用幻覺(hallucination)等。這些問題直接觸及科學研究的正確性與可信度。因此,當前的系統更像是一個能跑通流程的研究代理原型,若無監督地大規模使用,可能帶來制造文獻噪聲、擠占評審資源等倫理與社會風險。


      省流總結

      本研究提出The AI Scientist系統,實現了機器學習科研從構思到審稿的端到端自動化。在真實workshop盲審中,1篇AI生成論文達到接收門檻。盡管模型升級能提升質量,但系統仍存在實驗錯誤與幻覺等短板,距離頂會標準仍有差距。


      請打分

      這篇剛剛登上Nature的研究,是否實至名歸?我們邀請您作為“云審稿人”,一同品鑒。精讀全文后,歡迎在匿名投票中打分,并在評論區分享您的深度見解。

      分享人:天天

      審核:PsyBrain 腦心前沿編輯部

      你好,這里是「PsyBrain 腦心前沿

      專注追蹤全球認知神經科學的最尖端突破

      視野直擊 Nature, Science, Cell 正刊 及核心子刊與頂級大刊

      每日速遞「深度解讀」與「前沿快訊

      科研是一場探索未知的長跑,但你無需獨行。歡迎加入PsyBrain 學術社群,和一群懂你的同行,共同丈量腦與心智的無垠前沿。

      點擊卡片進群,歡迎你的到來

      一鍵關注,點亮星標 ? 前沿不走丟!


      一鍵分享,讓更多人了解前沿

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      從2.9萬/㎡跌到5千/㎡!總價20萬抄底南沙收租?

      從2.9萬/㎡跌到5千/㎡!總價20萬抄底南沙收租?

      樂居財經官方
      2026-04-14 17:34:59
      僅24歲!湖北美女護士付雪飛,走斑馬線遭拖行致死,判同等責任?

      僅24歲!湖北美女護士付雪飛,走斑馬線遭拖行致死,判同等責任?

      川渝視覺
      2026-04-13 15:54:25
      王鷗,好美好白

      王鷗,好美好白

      阿廢冷眼觀察所
      2026-04-14 10:44:35
      庫存即將耗盡!摩根大通警告:石油沖擊將全面爆發

      庫存即將耗盡!摩根大通警告:石油沖擊將全面爆發

      華爾街見聞官方
      2026-04-14 11:42:12
      中國空軍實力被嚴重低估:53個航空旅,放在全球處于什么水平?

      中國空軍實力被嚴重低估:53個航空旅,放在全球處于什么水平?

      梁佇愛玩車
      2026-04-13 21:07:17
      特朗普:美軍對伊朗的“封鎖”已開始,不允許一個國家敲詐勒索全世界,在伊問題解決后或會對古巴采取行動

      特朗普:美軍對伊朗的“封鎖”已開始,不允許一個國家敲詐勒索全世界,在伊問題解決后或會對古巴采取行動

      揚子晚報
      2026-04-14 07:10:52
      “尼帕病毒”來勢洶洶,建議:每家備好6樣東西,關鍵時刻能救命

      “尼帕病毒”來勢洶洶,建議:每家備好6樣東西,關鍵時刻能救命

      路醫生健康科普
      2026-01-28 12:18:49
      活久見!一家長在班級群稱不愿為未成年女兒承擔還款責任,引熱議

      活久見!一家長在班級群稱不愿為未成年女兒承擔還款責任,引熱議

      火山詩話
      2026-04-14 16:57:50
      下一代光通信核心材料:薄膜鈮酸鋰概念總結

      下一代光通信核心材料:薄膜鈮酸鋰概念總結

      風風順
      2026-04-11 07:07:51
      河南周口一女神好漂亮, 國色天姿,眉眼帶笑 ,美的讓人移不開眼

      河南周口一女神好漂亮, 國色天姿,眉眼帶笑 ,美的讓人移不開眼

      小椰的奶奶
      2026-04-03 18:22:57
      鄭麗文返臺后,島內民調曝光,位列倒數第三,與沈伯洋幾乎持平?

      鄭麗文返臺后,島內民調曝光,位列倒數第三,與沈伯洋幾乎持平?

      混沌錄
      2026-04-14 21:42:16
      二甲雙胍抗衰老再獲證據!新研究發現:中年開始用,減輕衰弱、保持肌肉骨骼健康,從源頭延緩衰老

      二甲雙胍抗衰老再獲證據!新研究發現:中年開始用,減輕衰弱、保持肌肉骨骼健康,從源頭延緩衰老

      醫諾維
      2026-04-12 12:35:26
      4月15日財運爆發,這4個生肖正財偏財雙雙走旺,賺錢機會正在靠近

      4月15日財運爆發,這4個生肖正財偏財雙雙走旺,賺錢機會正在靠近

      小智223
      2026-04-13 22:40:05
      女星朱庭萱炮轟張敬軒!道歉就能原諒還有資源,對愛國藝人不公平

      女星朱庭萱炮轟張敬軒!道歉就能原諒還有資源,對愛國藝人不公平

      談史論天地
      2026-04-14 18:28:09
      李小冉與王濛、唐藝昕《心愿便利貼》,跑調忘詞爆火,原唱回復

      李小冉與王濛、唐藝昕《心愿便利貼》,跑調忘詞爆火,原唱回復

      暖心萌阿菇涼
      2026-04-14 09:33:13
      烏軍對克里米亞發動大規模襲擊

      烏軍對克里米亞發動大規模襲擊

      財聯社
      2026-04-14 18:33:12
      出大事了,蘇不宣而戰,56人死亡,聯合國已發聲,事情果然不簡單

      出大事了,蘇不宣而戰,56人死亡,聯合國已發聲,事情果然不簡單

      黑鷹觀軍事
      2026-04-12 17:04:02
      中年返貧4件套,一個也不要碰!

      中年返貧4件套,一個也不要碰!

      細說職場
      2026-04-13 12:36:59
      喜憂參半!不到12小時,傳來東契奇一則壞消息,球迷請求放棄

      喜憂參半!不到12小時,傳來東契奇一則壞消息,球迷請求放棄

      去山野間追風
      2026-04-15 00:30:55
      一線記者傳回中東戰報,伊朗國內的慘烈程度,遠比想象中大得多

      一線記者傳回中東戰報,伊朗國內的慘烈程度,遠比想象中大得多

      阿褲趣聞君
      2026-04-13 21:48:50
      2026-04-15 02:27:00
      PsyBrain腦心前沿
      PsyBrain腦心前沿
      追蹤腦科學新動態,聚焦認知與神經新研究
      310文章數 15關注度
      往期回顧 全部

      科技要聞

      離職同事"煉化"成AI?這屆公司不需要活人了

      頭條要聞

      54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

      頭條要聞

      54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

      體育要聞

      帶出中超最大黑馬!他讓球迷們“排隊道歉”

      娛樂要聞

      網曝鐘麗緹代孕要了個男孩 備孕近10年

      財經要聞

      許家印認罪,他和恒大還有多少欠債?

      汽車要聞

      售12.99萬起/續航2000km 風云T9L上市

      態度原創

      教育
      本地
      藝術
      手機
      公開課

      教育要聞

      他們眼里的光被點燃!中華中學首屆南大班學習成果匯報

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      藝術要聞

      她的水彩畫竟讓億萬男人傾倒,你絕對想不到!

      手機要聞

      顏值天花板!OPPO A6s Pro發布:首銷1999元起 六年流暢

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版