聞樂 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI寫論文這事兒確實(shí)不新鮮了,但天下苦假引用久矣。
以往咱用大模型寫個(gè)綜述,看著像模像樣的,結(jié)果一查參考文獻(xiàn)——
好家伙,論文不存在、期刊不存在、作者也不存在(扶額)。
現(xiàn)在不用愁了,Nature新發(fā)表了一篇研究,艾倫人工智能研究所(Ai2)和華盛頓大學(xué)開源了一個(gè)叫OpenScholar的AI系統(tǒng),寫文獻(xiàn)綜述絕不瞎編。
![]()
背靠整整4500萬篇科學(xué)論文庫(kù),直接把GPT-4o那種78%-90%的虛假引用率給干翻了。
那么問題來了,大家都在編,OpenScholar為啥不編?
自我反饋推理
其實(shí)主要還是因?yàn)長(zhǎng)LM的底層邏輯就是預(yù)測(cè)下一個(gè)詞出現(xiàn)的概率。
當(dāng)你問它一個(gè)非常生僻的學(xué)術(shù)問題時(shí),它為了維持語言的連貫性以及“我無所不知”的人設(shè)——
會(huì)強(qiáng)行根據(jù)語料庫(kù)里的作者名、期刊名、標(biāo)題關(guān)鍵詞,拼湊出一個(gè)看起來最像真論文的…幻覺產(chǎn)物。
還有,通用AI缺乏事實(shí)錨點(diǎn),讀過萬卷書結(jié)果全記串了。
張教授寫過超導(dǎo),李教授寫過材料,當(dāng)你問它超導(dǎo)材料時(shí),它能面不改色地給你編出一篇《張教授與李教授關(guān)于超導(dǎo)材料的巔峰對(duì)話》……
這種由于訓(xùn)練數(shù)據(jù)截?cái)嘁约?strong>缺乏真實(shí)文獻(xiàn)驗(yàn)證機(jī)制導(dǎo)致的假引用,真的太太太離譜了!
![]()
OpenScholar就不一樣了,不再拍腦門預(yù)測(cè)下一個(gè)詞,直接接入了一個(gè)名為ScholarStore的龐大數(shù)據(jù)庫(kù)。
這是目前公開的最大科學(xué)領(lǐng)域段落索引,全開源可下載,任何人都能本地部署或者擴(kuò)展。
里面實(shí)打?qū)嵉卮媪?500萬篇論文的全文和摘要,再通過RAG技術(shù),讓每個(gè)知識(shí)點(diǎn)都背靠一篇真實(shí)存在的論文。
當(dāng)你拋出一個(gè)科研難題,它會(huì)先在那個(gè)擁有2.37億個(gè)向量嵌入的超大數(shù)據(jù)庫(kù)里瘋狂檢索,把相關(guān)的論文片段全翻出來。
給出初稿之后,帶著生成的“這里缺少討論”“這里引文不準(zhǔn)”“需要補(bǔ)搜最新進(jìn)展”等反饋再檢索、再改稿,通過搜索、生成、自我審查、再搜索、再修正這套閉環(huán),反復(fù)確認(rèn)輸出的內(nèi)容是不是真有論文支撐。
這樣一來顯著降低了幻覺,提高了輸出內(nèi)容的覆蓋度和引文精度,整個(gè)管道還會(huì)被用來生成高質(zhì)量合成數(shù)據(jù),反哺訓(xùn)練。
![]()
有多強(qiáng)?
但是!如果只是搜得準(zhǔn),那它充其量是個(gè)高級(jí)搜索引擎,OpenScholar不止如此。
它在知識(shí)合成的深度上,已經(jīng)開始正面硬剛?cè)祟悓<伊恕?/p>
研發(fā)團(tuán)隊(duì)整了個(gè)叫Scholar QABench的測(cè)試集,涵蓋了計(jì)算機(jī)科學(xué)、物理、生物醫(yī)藥等最吃邏輯的領(lǐng)域,由3000個(gè)問題和250個(gè)長(zhǎng)篇專家答案構(gòu)成。
在自動(dòng)測(cè)評(píng)上,OpenScholar-8B這個(gè)體量不算大的模型,在正確性上GPT-4o高出5%,比專業(yè)的PaperQA2也高出7%,引文準(zhǔn)確度和人類專家持平。
![]()
團(tuán)隊(duì)還搞了個(gè)“人機(jī)大戰(zhàn)”雙盲實(shí)驗(yàn),把AI寫的答案和實(shí)打?qū)嵉牟┦俊⒀芯繂T寫的答案放一起,然后讓另一群頂級(jí)科學(xué)家來盲評(píng)打分。
16位專家兩兩對(duì)比了108份學(xué)術(shù)答案。結(jié)果顯示,OpenScholar-8B的回答有51%比人類研究者親手寫的更好,升級(jí)組合版的OpenScholar-GPT4o勝率更是沖到70%,而普通GPT-4o只有32%。
評(píng)審專家們普遍反饋,OpenScholar的優(yōu)勢(shì)集中在信息覆蓋更全面、結(jié)構(gòu)更清晰、邏輯連貫性更強(qiáng),實(shí)用價(jià)值也更高。
作者團(tuán)隊(duì)
這篇研究的一作Akari Asai是艾倫人工智能研究所研究科學(xué)家,2026年秋起將任卡內(nèi)基梅隆大學(xué)助理教授。
在此之前她獲得了東京大學(xué)電氣工程與計(jì)算機(jī)科學(xué)專業(yè)的學(xué)士學(xué)位,后在華盛頓大學(xué)完成博士學(xué)業(yè),研究聚焦于自然語言處理和機(jī)器學(xué)習(xí),尤其側(cè)重于大型語言模型。
![]()
Jacqueline He目前在華盛頓大學(xué)讀自然語言處理專業(yè)博士,本科畢業(yè)于普林斯頓大學(xué),曾是普林斯頓自然語言處理小組成員,主要導(dǎo)師是陳丹琦。
讀研之前,她還擔(dān)任過Meta的軟件工程師。
Rulin Shao本科畢業(yè)于西安交通大學(xué),取得了數(shù)學(xué)的學(xué)士學(xué)位,后在卡內(nèi)基梅隆大學(xué)完成了機(jī)器學(xué)習(xí)碩士學(xué)位,現(xiàn)為華盛頓大學(xué)博士生,同時(shí)也是Meta的訪問研究員。
![]()
團(tuán)隊(duì)的其他作者均來自伊利諾伊大學(xué)厄巴納 - 香檳分校、卡內(nèi)基梅隆大學(xué)、Meta、北卡羅來納大學(xué)教堂山分校、斯坦福大學(xué)等高校和機(jī)構(gòu)。
論文地址:https://arxiv.org/abs/2411.14199
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.