<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Nature:首個能寫綜述論文的開源AI模型來了,大幅減少科研“幻覺”,堪比人類專家

      0
      分享至


      撰文丨王聰

      編輯丨王多魚

      排版丨水成文

      科學進步取決于科研人員綜合日益增多的文獻資料的能力,面對科學文獻的爆炸式增長,科研人員如何才能快速篩選、總結海量文獻?大語言模型(LLM)是否能夠在這方面為科研人員提供幫助?

      在日常生活中,很多人會用到 ChatGPT、DeepSeek 等大語言模型來聊天、寫郵件或生成答案,但當你問它一個專業、前沿的科學問題,它可能會給出看似合理但實際虛構的答案,甚至編造根本不存在的論文引用。這種“幻覺”問題在科研領域尤為致命,因為準確性是科學的生命線。

      而現在,一項發表于Nature期刊的研究給出了解決方案——OpenScholar,這是一個專為科研打造的 AI 助手,不僅能準確回答復雜的科學問題,生成綜述論文,還解決了 AI 喜歡胡編亂造的“幻覺”難題。


      該研究來自華盛頓大學、艾倫人工智能研究所,于 2026 年 2 月 4 日在線發表于Nature期刊,論文題為:Synthesizing scientific literature with retrieval-augmented language models。

      OpenScholar是一個檢索增強的語言模型(Retrieval-Augmented Language Model),它能夠從4500 萬篇開放獲取(Open Access)論文中智能檢索相關段落,生成帶引用的長篇綜述論文(涵蓋計算機科學、物理學、神經科學和生物醫學領域),其引用準確率與人類專家相當,并在多項測試中超越了 GPT-4o 等主流大模型。更令人驚喜的是,研究團隊全面開源了 OpenScholar,為科研社區提供了一個透明、可復現的工具。

      OpenScholar 是什么?科研文獻的“智能管家”

      如果你是一名研究人員,需要寫一篇關于“人工智能在醫療診斷中的應用”的綜述論文。通常情況下,你需要花費數周甚至更長時間閱讀上百篇相關研究論文,篩選關鍵信息,構思框架,最終完成綜述論文的撰寫、修改。

      OpenScholar就像一個高效的智能助手,只需輸入問題,它就能在幾分鐘內合成一份結構清晰、引用準確的綜述論文。

      OpenScholar的核心創新在于其全開放、可檢索增強的架構。它不依賴“黑箱” API,而是構建了一個包含 4500 萬篇開放獲取論文的專用數據存儲(OpenScholar DataStore,OSDS),并配備了訓練過的檢索器和生成模型。該系統通過以下步驟工作:

      1、檢索階段:從多個來源(例如學術數據庫和網絡搜索)智能抓取相關論文段落。

      2、生成階段:語言模型基于檢索到的內容起草答案,并標記引用。

      3、自反饋循環:模型會自我審查初稿,提出改進意見(例如“需要補充更多實驗數據”),并迭代優化答案,確保事實性和覆蓋范圍。


      OpenScholar 推理(上)和訓練流程(下)

      這張圖清晰展示了OpenScholar的工作流程:從輸入查詢到最終輸出,每一步都注重證據支撐。這種設計直接針對了當前 AI 在科學領域應用的痛點——例如,該研究顯示,當要求GPT-4o引用計算機科學或生物醫學等領域的近期文獻時,其在 78%-90% 的情況下編造了引用,而 OpenScholar 的引用準確性堪比人類專家。

      如何評估 AI 的“科研能力”?ScholarQABench 基準登場

      要判斷一個 AI 系統是否可靠,需要嚴格的測試標準。為此,研究團隊開發了ScholarQABench,這是首個大規模、多領域的科學文獻合成基準。它包含近 3000 個由專家編寫的問題,覆蓋計算機科學、物理、神經科學和生物醫學等領域,要求模型生成長篇、多論文支持的答案。

      與以往只關注選擇題或短答案的基準不同,ScholarQABench 引入了多維評估協議,包括自動指標(例如引用準確性)和人類專家基于量表的評分(覆蓋范圍、連貫性、寫作質量等)。例如,在“計算機科學”部分中,專家會列出答案必須包含的關鍵要點,AI 的回答需要滿足這些“評分標準”才能得分。


      上圖是一個評估示例:問題、評分標準和 AI 輸出的對比。這種設計確保了評估的客觀性,避免了 AI “刷分”的可能。

      實驗結果:小模型大能量,OpenScholar 全面領先

      OpenScholar在 ScholarQABench 上的測試結果令人印象深刻。盡管 OpenScholar 的核心模型參數量僅為 80 億(遠小于 GPT-4o 的規模),但它在多項任務中表現優異:

      • 正確率提升:在需要多論文合成的任務中,OpenScholar-8B 比 GPT-4o 高出 6.1%,比 PaperQA2 高出5.5%。

      • 引用準確性:OpenScholar 的引用 F1 分數達到 47.9%,而 GPT-4o 幾乎為 0。

      • 成本效益:使用高效的檢索管道,OpenScholar-8B 的成本比基于 GPT-4o 的商業系統更低。


      更引人注目的是人類評估結果:16 位人類專家在盲測中比較了 AI 回答和人類專家撰寫的答案。結果顯示,人類專家在 50.8% 和 70.0% 的情況下選擇了 OpenScholar-8B 和 OpenScholar-GPT-4o 的回答,而 GPT-4o 的這一比例僅為 31.9%,人類專家認為,OpenScholar 的回答更全面、信息深度更大,而這正是撰寫綜述論文所需的關鍵能力


      AI,正在改變科研范式

      OpenScholar的推出標志著 AI 在科學領域的應用邁出重要一步。它不僅是工具的創新,更體現了開放科學的精神——通過可復現的系統,降低科研門檻。對于忙碌的科學家和學生來說,這類 AI 助手有望將文獻回顧從“苦役”變為高效探索。


      OpenScholar、ScholarQABench 概述及評估結果

      未來,隨著多模態學習和用戶反饋的整合,OpenScholar可能會變得更智能,從而成為科研人員的真正“協作者”,讓科研工作更聚焦于創新而非信息篩選。

      論文鏈接

      https://www.nature.com/articles/s41586-025-10072-4


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      楊瀚森:我不是真親約基奇是在表達尊重;他今天也兩罰不中呢

      楊瀚森:我不是真親約基奇是在表達尊重;他今天也兩罰不中呢

      懂球帝
      2026-02-21 15:17:07
      高人預測:十年后的南通,真正值錢的只有5個板塊,別選錯!

      高人預測:十年后的南通,真正值錢的只有5個板塊,別選錯!

      小影的娛樂
      2026-02-21 19:56:29
      推力35.2噸!國產航發再創紀錄,媲美安225的超級運輸機已不是夢

      推力35.2噸!國產航發再創紀錄,媲美安225的超級運輸機已不是夢

      老范談史
      2026-02-19 19:55:46
      蘋果首款折疊屏iPhone Fold將于2026年秋季亮相 目前已進入量產籌備階段

      蘋果首款折疊屏iPhone Fold將于2026年秋季亮相 目前已進入量產籌備階段

      驅動中國
      2026-02-21 16:46:12
      中國科學家發現黃鐵礦能煉出黃金,簡單來說就是:黃金可以長出來

      中國科學家發現黃鐵礦能煉出黃金,簡單來說就是:黃金可以長出來

      暮雨咋歇著
      2026-02-16 13:16:15
      張博源三喜臨門!這個19歲少年的NBA前景比楊瀚森更可期?

      張博源三喜臨門!這個19歲少年的NBA前景比楊瀚森更可期?

      弄月公子
      2026-02-21 20:52:06
      大年初二,中美兩國在黃海突發對峙,整整2天2夜后才傳出消息?

      大年初二,中美兩國在黃海突發對峙,整整2天2夜后才傳出消息?

      通鑒史智
      2026-02-21 09:34:58
      太陽報:魯尼被拍到買伏特加&朗姆酒,科琳隨后打包炸魚薯條

      太陽報:魯尼被拍到買伏特加&朗姆酒,科琳隨后打包炸魚薯條

      可愛小菜
      2026-02-20 08:38:55
      1993年六位上將,還有三位健在,都快100歲了

      1993年六位上將,還有三位健在,都快100歲了

      文史茶館2020
      2026-02-15 16:43:24
      家里這8個“先進設計”,如果一樣都沒有,說明你家還停在20年前

      家里這8個“先進設計”,如果一樣都沒有,說明你家還停在20年前

      Home范
      2026-02-19 14:55:03
      央視曝:全程追蹤美航母,殲-20S“獵殺”能力讓美媒炸鍋

      央視曝:全程追蹤美航母,殲-20S“獵殺”能力讓美媒炸鍋

      蔡蔡說史
      2026-02-21 20:52:27
      廣東佛山五區現形記:誰在撐場面,誰在熬出頭

      廣東佛山五區現形記:誰在撐場面,誰在熬出頭

      荷蘭豆愛健康
      2026-02-21 19:39:17
      德媒:德國總理的北京之行非常的棘手,德國不能接受中國主導

      德媒:德國總理的北京之行非常的棘手,德國不能接受中國主導

      我心縱橫天地間
      2026-02-20 21:43:22
      央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

      央視坐實!成本2元售價19800元!不少人受騙,趕緊別用了

      白色得季節
      2026-01-27 21:30:49
      初次從蘋果換到華為是啥感受?上手Mate80Pro一個月,說說心里話

      初次從蘋果換到華為是啥感受?上手Mate80Pro一個月,說說心里話

      小兔子發現大事情
      2026-02-17 08:14:39
      美國對華關稅立即降低10%!詳細細節來了

      美國對華關稅立即降低10%!詳細細節來了

      貿易夜航
      2026-02-21 09:20:21
      廣東一媽媽養21年的玉樹,送人前突然爆花上萬朵,網友:成精了

      廣東一媽媽養21年的玉樹,送人前突然爆花上萬朵,網友:成精了

      觀察鑒娛
      2026-01-29 09:25:47
      “仨兒子打光棍”視頻走紅,網友調侃:長成這樣,擼網貸都費勁!

      “仨兒子打光棍”視頻走紅,網友調侃:長成這樣,擼網貸都費勁!

      妍妍教育日記
      2026-02-04 19:09:07
      13+8到22+11!完美增強阿倫,阿特金森猛贊哈登,梅里爾說出優點

      13+8到22+11!完美增強阿倫,阿特金森猛贊哈登,梅里爾說出優點

      巴叔GO聊體育
      2026-02-21 15:52:50
      讓人心寒!給弟弟三孩子每人500,自己一孩子回500,姐姐決定斷親

      讓人心寒!給弟弟三孩子每人500,自己一孩子回500,姐姐決定斷親

      火山詩話
      2026-02-20 15:43:13
      2026-02-21 23:40:49
      生物世界 incentive-icons
      生物世界
      最前沿、最有趣的生命科學研究
      8900文章數 144999關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      美軍戰機選在大年初二挑釁解放軍 韓國防長抗議了

      頭條要聞

      美軍戰機選在大年初二挑釁解放軍 韓國防長抗議了

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      旅游
      教育
      時尚
      藝術
      健康

      旅游要聞

      一游客在北帝山景區棧道與山體銜接處滑落,廣西貴港平南縣通報情況

      教育要聞

      就業數據:未落實畢業去向5032人!太嚇人!

      冬天穿衣盡量別露腿,這些基礎穿搭可嘗試,簡單大方又不挑人

      藝術要聞

      歷時144年,全球最高的教堂正式封頂!

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版