![]()
學術研究工作流正在經歷前所未有的變革,AI的快速發展是這一變革的核心驅動力。學術研究流程歷來嚴謹繁瑣,遠不止構思想法和撰寫論文那么簡單。許多研究人員面臨的一大難題,是如何有效地將研究成果可視化。盡管AI能夠輔助文字撰寫,但要生成頂級會議和期刊所要求的復雜方法論示意圖和精確的統計圖表,難度要大得多。與此同時,科學界依賴同行評審來維護已發表研究的學術嚴謹性,然而論文投稿數量的爆炸式增長使這一體系承受巨大壓力,導致評審人疲憊不堪、評審質量參差不齊。隨著大語言模型和多智能體系統日趨成熟,我們看到它們不僅僅是研究對象,更有潛力成為科學研究過程的主動參與者。
為此,我們推出兩個全新的智能體框架:(一)PaperVizAgent(原名PaperBanana),一款用于繪制學術圖表的可視化智能體;(二)ScholarPeer,一款能夠自動且嚴格評估學術論文(包括論文中嵌入的圖表)的評審智能體。這兩款智能體專為輔助學術研究全生命周期而設計,旨在幫助科研人員將精力集中于創新本身,而非繁瑣的輔助性工作。評估結果顯示,PaperVizAgent能夠穩定生成達到專家水準的圖表,表現大幅優于主流基準模型(GPT-Image-1.5、Nano-Banana-Pro、Paper2Any);而ScholarPeer則能輸出具有高度批判性、有文獻依據支撐的評審意見,超越當前最先進的自動化評審工具。
PaperVizAgent介紹
PaperVizAgent是一個自主框架,旨在根據學術文本自動生成適合發表的學術插圖。通過彌合技術描述與視覺傳達之間的鴻溝,PaperVizAgent讓研究人員能夠直接從論文手稿中生成專業級圖表。啟動流程時,研究人員需提供兩項輸入內容。
PaperVizAgent框架協同調度五個專業化AI智能體,分別是:(1)檢索智能體、(2)規劃智能體、(3)風格智能體、(4)可視化智能體,以及(5)評審智能體。首先,檢索智能體和規劃智能體負責收集參考資料(例如,參照已有文獻中的相關學術圖表)并對內容進行組織整理。隨后,風格智能體綜合歸納美學規范,確保輸出結果符合學術標準。可視化智能體負責渲染圖像或生成可執行的Python代碼用于統計圖表繪制。最后,評審智能體將輸出結果與原始文本進行對照評估。若發現不一致之處,評審智能體將向可視化智能體提供針對性反饋,觸發迭代優化循環。通過這一多智能體系統的反復迭代,最終生成的插圖既美觀大方,又在技術層面準確無誤。
在給定來源內容與傳達意圖后,PaperVizAgent會檢索相關參考示例,并綜合生成經過風格優化的描述,再通過迭代優化循環將該描述轉化為最終插圖。
在全面的實驗評測中,PaperVizAgent持續優于各主流基準模型,包括直接提示法、少樣本提示法以及當前最先進的可視化方法Paper2Any。系統采用比較評分指標(0至100分制,分值越高越好)進行嚴格評估,涵蓋忠實度、簡潔性、可讀性和美觀性四個關鍵維度。評測中使用的大語言模型評判器以人工繪制的圖表作為輸入進行校準,并將人類表現基準設定為50.0分。
PaperVizAgent取得了60.2分的優異總分,顯著超越GPT-Image-1.5、Nano-Banana-Pro和Paper2Any等所有參評基準模型,也是唯一在綜合評分上突破人類基準線50.0分的框架。從各細分維度來看,該系統在簡潔性和美觀性方面尤為突出,兩項得分均遠高于人類基準值;在統計圖表生成方面,其表現同樣達到了與人類相當的水平,充分體現了系統的多功能性。上述成果代表著自動化學術插圖領域的重大突破。
ScholarPeer介紹
ScholarPeer是一個具有情境感知能力、支持搜索的多智能體框架,旨在模擬資深研究人員的工作流程,實現同行評審過程的自動化與質量提升。
與將評審視為簡單文本生成任務的標準大語言模型不同,ScholarPeer依賴于情境獲取與主動核驗的雙流程機制。它通過一個子領域歷史智能體動態構建領域敘事,將評審內容錨定于實時的網絡規模文獻之中。基線偵察智能體則充當對抗性審計員,專門排查作者可能遺漏的數據集或對比基準。最后,多維度問答引擎對論文的技術主張進行嚴格核實,確保評審內容深入且基于事實。最終生成的評審報告涵蓋詳細摘要、優點、不足以及對作者的提問,形式與標準專家評審高度一致。
針對輸入論文,ScholarPeer采用雙流信息檢索流程。情境與知識模塊通過摘要生成器和具備搜索功能的文獻綜述工具,對內外部信息進行壓縮整合。這些輸入隨后進入多維度問答引擎,該引擎圍繞論文的創新性和技術可靠性生成并回答深度追問。最后,評審生成器綜合以上輸入及特定會議的評審規范,生成最終評審意見。
ScholarPeer的表現充分證明了將主動網絡搜索與多智能體協同編排相結合在學術評審領域的巨大潛力。在大型公開數據集上的測試中,ScholarPeer在與當前最先進的自動化評審方法的對比評測中取得了顯著的勝率優勢。更重要的是,該系統的主動核驗工作流大幅縮小了AI生成反饋與人類評審多樣性之間的差距,所產出的評審意見批判性強、貼近實際,并深度植根于現有文獻之中。
總結與展望
PaperVizAgent與ScholarPeer是我們探索AI輔助科研這一宏觀方向的重要組成部分。通過分別應對論文發表生命周期中兩個截然不同卻同樣繁重的階段,這兩款工具以協作者的角色提升了科學交流的質量,并能與其他工具協同,加速知識的傳播與擴散。
盡管這兩個框架已能為學術界帶來即時且切實的價值,但這僅僅是我們探索旅程的起點。我們期望未來的研究人員能夠擁有一套豐富且互聯互通的AI助手生態系統,無縫融入科學研究工作流的每一個環節,我們也將在這一方向上持續深耕。
致謝
感謝Palash Goyal、Dawei Zhu、Mihir Parmar、Rui Meng、Yiwen Song、Yale Song、Hamid Palangi、Xiyu Wei、Sujian Li和Burak Gokturk對本項工作的寶貴貢獻。
免責聲明
PaperVizAgent與ScholarPeer均為實驗性研究原型,并非面向生產環境的成熟工具。其自動生成的反饋、圖表及評審意見僅供研究探索使用,不應作為編輯或出版決策的唯一依據。
Q&A
Q1:PaperVizAgent是什么?它能生成哪些類型的學術圖表?
A:PaperVizAgent是一個自主智能體框架,能夠根據學術文本自動生成適合發表的學術插圖,包括方法論示意圖和統計圖表。它由五個專業化智能體協同工作,通過迭代優化確保圖表在視覺上美觀、技術上準確。在評測中,其綜合得分為60.2分,是唯一超越人類基準線(50.0分)的框架,在簡潔性和美觀性維度上表現尤為突出。
Q2:ScholarPeer和普通大語言模型做論文評審有什么區別?
A:ScholarPeer與普通大語言模型的核心區別在于其雙流程機制:它不僅做文本生成,還通過子領域歷史智能體實時檢索網絡文獻構建領域背景,并用基線偵察智能體專門查找作者遺漏的對比基準。多維度問答引擎則對論文技術主張進行嚴格核實。最終生成的評審報告包含摘要、優點、不足及對作者的追問,接近真實專家評審水準,并在公開數據集測試中顯著優于現有自動化評審工具。
Q3:PaperVizAgent和ScholarPeer現在可以直接使用嗎?
A:目前這兩款工具均為實驗性研究原型,尚未達到生產環境部署標準。官方明確說明,其自動生成的圖表、反饋和評審意見僅供研究探索使用,不應作為編輯或出版決策的唯一依據。如需使用,需了解其局限性,并結合人工判斷進行綜合評估。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.