網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Nature認(rèn)定的論文綜述神器來了

2026-02-07 13:13:15　來源: 量子位

北京舉報(bào)

分享至

聞樂發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

AI寫論文這事兒確實(shí)不新鮮了，但天下苦假引用久矣。

以往咱用大模型寫個(gè)綜述，看著像模像樣的，結(jié)果一查參考文獻(xiàn)——

好家伙，論文不存在、期刊不存在、作者也不存在（扶額）。

現(xiàn)在不用愁了，Nature新發(fā)表了一篇研究，艾倫人工智能研究所（Ai2）和華盛頓大學(xué)開源了一個(gè)叫OpenScholar的AI系統(tǒng)，寫文獻(xiàn)綜述絕不瞎編。

背靠整整4500萬篇科學(xué)論文庫(kù)，直接把GPT-4o那種78%-90%的虛假引用率給干翻了。

那么問題來了，大家都在編，OpenScholar為啥不編？

自我反饋推理

其實(shí)主要還是因?yàn)長(zhǎng)LM的底層邏輯就是預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率。

當(dāng)你問它一個(gè)非常生僻的學(xué)術(shù)問題時(shí)，它為了維持語言的連貫性以及“我無所不知”的人設(shè)——

會(huì)強(qiáng)行根據(jù)語料庫(kù)里的作者名、期刊名、標(biāo)題關(guān)鍵詞，拼湊出一個(gè)看起來最像真論文的…幻覺產(chǎn)物。

還有，通用AI缺乏事實(shí)錨點(diǎn)，讀過萬卷書結(jié)果全記串了。

張教授寫過超導(dǎo)，李教授寫過材料，當(dāng)你問它超導(dǎo)材料時(shí)，它能面不改色地給你編出一篇《張教授與李教授關(guān)于超導(dǎo)材料的巔峰對(duì)話》……

這種由于訓(xùn)練數(shù)據(jù)截?cái)嘁约?strong>缺乏真實(shí)文獻(xiàn)驗(yàn)證機(jī)制導(dǎo)致的假引用，真的太太太離譜了！

OpenScholar就不一樣了，不再拍腦門預(yù)測(cè)下一個(gè)詞，直接接入了一個(gè)名為ScholarStore的龐大數(shù)據(jù)庫(kù)。

這是目前公開的最大科學(xué)領(lǐng)域段落索引，全開源可下載，任何人都能本地部署或者擴(kuò)展。

里面實(shí)打?qū)嵉卮媪?500萬篇論文的全文和摘要，再通過RAG技術(shù)，讓每個(gè)知識(shí)點(diǎn)都背靠一篇真實(shí)存在的論文。

當(dāng)你拋出一個(gè)科研難題，它會(huì)先在那個(gè)擁有2.37億個(gè)向量嵌入的超大數(shù)據(jù)庫(kù)里瘋狂檢索，把相關(guān)的論文片段全翻出來。

給出初稿之后，帶著生成的“這里缺少討論”“這里引文不準(zhǔn)”“需要補(bǔ)搜最新進(jìn)展”等反饋再檢索、再改稿，通過搜索、生成、自我審查、再搜索、再修正這套閉環(huán)，反復(fù)確認(rèn)輸出的內(nèi)容是不是真有論文支撐。

這樣一來顯著降低了幻覺，提高了輸出內(nèi)容的覆蓋度和引文精度，整個(gè)管道還會(huì)被用來生成高質(zhì)量合成數(shù)據(jù)，反哺訓(xùn)練。

有多強(qiáng)？

但是！如果只是搜得準(zhǔn)，那它充其量是個(gè)高級(jí)搜索引擎，OpenScholar不止如此。

它在知識(shí)合成的深度上，已經(jīng)開始正面硬剛?cè)祟悓＜伊恕?/p>

研發(fā)團(tuán)隊(duì)整了個(gè)叫Scholar QABench的測(cè)試集，涵蓋了計(jì)算機(jī)科學(xué)、物理、生物醫(yī)藥等最吃邏輯的領(lǐng)域，由3000個(gè)問題和250個(gè)長(zhǎng)篇專家答案構(gòu)成。

在自動(dòng)測(cè)評(píng)上，OpenScholar-8B這個(gè)體量不算大的模型，在正確性上GPT-4o高出5%，比專業(yè)的PaperQA2也高出7%，引文準(zhǔn)確度和人類專家持平。

團(tuán)隊(duì)還搞了個(gè)“人機(jī)大戰(zhàn)”雙盲實(shí)驗(yàn)，把AI寫的答案和實(shí)打?qū)嵉牟┦俊⒀芯繂T寫的答案放一起，然后讓另一群頂級(jí)科學(xué)家來盲評(píng)打分。

16位專家兩兩對(duì)比了108份學(xué)術(shù)答案。結(jié)果顯示，OpenScholar-8B的回答有51%比人類研究者親手寫的更好，升級(jí)組合版的OpenScholar-GPT4o勝率更是沖到70%，而普通GPT-4o只有32%。

評(píng)審專家們普遍反饋，OpenScholar的優(yōu)勢(shì)集中在信息覆蓋更全面、結(jié)構(gòu)更清晰、邏輯連貫性更強(qiáng)，實(shí)用價(jià)值也更高。

作者團(tuán)隊(duì)

這篇研究的一作Akari Asai是艾倫人工智能研究所研究科學(xué)家，2026年秋起將任卡內(nèi)基梅隆大學(xué)助理教授。

在此之前她獲得了東京大學(xué)電氣工程與計(jì)算機(jī)科學(xué)專業(yè)的學(xué)士學(xué)位，后在華盛頓大學(xué)完成博士學(xué)業(yè)，研究聚焦于自然語言處理和機(jī)器學(xué)習(xí)，尤其側(cè)重于大型語言模型。

Jacqueline He目前在華盛頓大學(xué)讀自然語言處理專業(yè)博士，本科畢業(yè)于普林斯頓大學(xué)，曾是普林斯頓自然語言處理小組成員，主要導(dǎo)師是陳丹琦。

讀研之前，她還擔(dān)任過Meta的軟件工程師。

Rulin Shao本科畢業(yè)于西安交通大學(xué)，取得了數(shù)學(xué)的學(xué)士學(xué)位，后在卡內(nèi)基梅隆大學(xué)完成了機(jī)器學(xué)習(xí)碩士學(xué)位，現(xiàn)為華盛頓大學(xué)博士生，同時(shí)也是Meta的訪問研究員。

團(tuán)隊(duì)的其他作者均來自伊利諾伊大學(xué)厄巴納 - 香檳分校、卡內(nèi)基梅隆大學(xué)、Meta、北卡羅來納大學(xué)教堂山分校、斯坦福大學(xué)等高校和機(jī)構(gòu)。

論文地址：https://arxiv.org/abs/2411.14199

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.