![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
科學進步取決于科研人員綜合日益增多的文獻資料的能力,面對科學文獻的爆炸式增長,科研人員如何才能快速篩選、總結海量文獻?大語言模型(LLM)是否能夠在這方面為科研人員提供幫助?
在日常生活中,很多人會用到 ChatGPT、DeepSeek 等大語言模型來聊天、寫郵件或生成答案,但當你問它一個專業、前沿的科學問題,它可能會給出看似合理但實際虛構的答案,甚至編造根本不存在的論文引用。這種“幻覺”問題在科研領域尤為致命,因為準確性是科學的生命線。
而現在,一項發表于Nature期刊的研究給出了解決方案——OpenScholar,這是一個專為科研打造的 AI 助手,不僅能準確回答復雜的科學問題,生成綜述論文,還解決了 AI 喜歡胡編亂造的“幻覺”難題。
![]()
該研究來自華盛頓大學、艾倫人工智能研究所,于 2026 年 2 月 4 日在線發表于Nature期刊,論文題為:Synthesizing scientific literature with retrieval-augmented language models。
OpenScholar是一個檢索增強的語言模型(Retrieval-Augmented Language Model),它能夠從4500 萬篇開放獲取(Open Access)論文中智能檢索相關段落,生成帶引用的長篇綜述論文(涵蓋計算機科學、物理學、神經科學和生物醫學領域),其引用準確率與人類專家相當,并在多項測試中超越了 GPT-4o 等主流大模型。更令人驚喜的是,研究團隊全面開源了 OpenScholar,為科研社區提供了一個透明、可復現的工具。
OpenScholar 是什么?科研文獻的“智能管家”
如果你是一名研究人員,需要寫一篇關于“人工智能在醫療診斷中的應用”的綜述論文。通常情況下,你需要花費數周甚至更長時間閱讀上百篇相關研究論文,篩選關鍵信息,構思框架,最終完成綜述論文的撰寫、修改。
而OpenScholar就像一個高效的智能助手,只需輸入問題,它就能在幾分鐘內合成一份結構清晰、引用準確的綜述論文。
OpenScholar的核心創新在于其全開放、可檢索增強的架構。它不依賴“黑箱” API,而是構建了一個包含 4500 萬篇開放獲取論文的專用數據存儲(OpenScholar DataStore,OSDS),并配備了訓練過的檢索器和生成模型。該系統通過以下步驟工作:
1、檢索階段:從多個來源(例如學術數據庫和網絡搜索)智能抓取相關論文段落。
2、生成階段:語言模型基于檢索到的內容起草答案,并標記引用。
3、自反饋循環:模型會自我審查初稿,提出改進意見(例如“需要補充更多實驗數據”),并迭代優化答案,確保事實性和覆蓋范圍。
![]()
OpenScholar 推理(上)和訓練流程(下)
這張圖清晰展示了OpenScholar的工作流程:從輸入查詢到最終輸出,每一步都注重證據支撐。這種設計直接針對了當前 AI 在科學領域應用的痛點——例如,該研究顯示,當要求GPT-4o引用計算機科學或生物醫學等領域的近期文獻時,其在 78%-90% 的情況下編造了引用,而 OpenScholar 的引用準確性堪比人類專家。
如何評估 AI 的“科研能力”?ScholarQABench 基準登場
要判斷一個 AI 系統是否可靠,需要嚴格的測試標準。為此,研究團隊開發了ScholarQABench,這是首個大規模、多領域的科學文獻合成基準。它包含近 3000 個由專家編寫的問題,覆蓋計算機科學、物理、神經科學和生物醫學等領域,要求模型生成長篇、多論文支持的答案。
與以往只關注選擇題或短答案的基準不同,ScholarQABench 引入了多維評估協議,包括自動指標(例如引用準確性)和人類專家基于量表的評分(覆蓋范圍、連貫性、寫作質量等)。例如,在“計算機科學”部分中,專家會列出答案必須包含的關鍵要點,AI 的回答需要滿足這些“評分標準”才能得分。
![]()
上圖是一個評估示例:問題、評分標準和 AI 輸出的對比。這種設計確保了評估的客觀性,避免了 AI “刷分”的可能。
實驗結果:小模型大能量,OpenScholar 全面領先
OpenScholar在 ScholarQABench 上的測試結果令人印象深刻。盡管 OpenScholar 的核心模型參數量僅為 80 億(遠小于 GPT-4o 的規模),但它在多項任務中表現優異:
正確率提升:在需要多論文合成的任務中,OpenScholar-8B 比 GPT-4o 高出 6.1%,比 PaperQA2 高出5.5%。
引用準確性:OpenScholar 的引用 F1 分數達到 47.9%,而 GPT-4o 幾乎為 0。
成本效益:使用高效的檢索管道,OpenScholar-8B 的成本比基于 GPT-4o 的商業系統更低。
![]()
更引人注目的是人類評估結果:16 位人類專家在盲測中比較了 AI 回答和人類專家撰寫的答案。結果顯示,人類專家在 50.8% 和 70.0% 的情況下選擇了 OpenScholar-8B 和 OpenScholar-GPT-4o 的回答,而 GPT-4o 的這一比例僅為 31.9%,人類專家認為,OpenScholar 的回答更全面、信息深度更大,而這正是撰寫綜述論文所需的關鍵能力。
![]()
AI,正在改變科研范式
OpenScholar的推出標志著 AI 在科學領域的應用邁出重要一步。它不僅是工具的創新,更體現了開放科學的精神——通過可復現的系統,降低科研門檻。對于忙碌的科學家和學生來說,這類 AI 助手有望將文獻回顧從“苦役”變為高效探索。
![]()
OpenScholar、ScholarQABench 概述及評估結果
未來,隨著多模態學習和用戶反饋的整合,OpenScholar可能會變得更智能,從而成為科研人員的真正“協作者”,讓科研工作更聚焦于創新而非信息篩選。
論文鏈接:
https://www.nature.com/articles/s41586-025-10072-4
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.