一會議要求所有投稿的主要作者都得有AI，并需要接受AI的審稿

2025-11-05 19:56:14　來源: 醫(yī)咖會

北京舉報(bào)

分享至

本文整理自Science官網(wǎng)在2025年10月23日發(fā)布的一篇文章，原文標(biāo)題為“At futuristic meeting, AIs took the lead in producing and reviewing all the studies”

眾多學(xué)術(shù)期刊和會議禁止將ChatGPT等AI工具列為研究的作者或?qū)徃迦耍浜诵睦砟钤谟跈C(jī)器無法承擔(dān)責(zé)任。但近日，一場突破常規(guī)的會議顛覆了這一禁忌：所有提交的48篇論文（研究主題從蛋白質(zhì)設(shè)計(jì)到心理健康），不僅必須將AI列為主要作者，還需接受AI審稿人的全面評審。

這場名為"Agents4Science"的虛擬會議開創(chuàng)了先河，它探討的主題在一年前或許還被歸為科幻范疇：AI能否主導(dǎo)提出研究假設(shè)、設(shè)計(jì)并運(yùn)行計(jì)算驗(yàn)證、最終撰寫研究論文？而大語言模型又能否有效評審學(xué)術(shù)論文？

鏈接：https://agents4science.stanford.edu/index.html

組織者表示，會議旨在推動"制定AI參與科研的指南"。他們希望全面接納AI加速科研進(jìn)程，并減輕審稿人日益增長的審稿壓力。

但部分研究者對該會議的立意提出強(qiáng)烈批評。悉尼大學(xué)數(shù)字創(chuàng)新研究員Raffaele Ciriello在會前通過媒體中心發(fā)表聲明指出："不應(yīng)將此認(rèn)為是學(xué)術(shù)研究。科學(xué)不是將數(shù)據(jù)轉(zhuǎn)化為結(jié)論的工廠，而是根植于闡釋、判斷與批判的人類集體事業(yè)。將研究視作機(jī)械流程......無異于假定只要輸出結(jié)果在統(tǒng)計(jì)上有效，探索的過程就無足輕重。"

會議主席、斯坦福大學(xué)AI研究員James Zou則認(rèn)為，以創(chuàng)新方式審視AI在科研中的角色至關(guān)重要。他指出，盡管越來越多科學(xué)家使用AI，但證據(jù)顯示多數(shù)人未按期刊會議要求公開使用情況。

Zou向《Science》表示："使用AI仍存在污名化現(xiàn)象，人們傾向于隱瞞或淡化AI的使用。會議組織者希望公開進(jìn)行這些研究，以便收集真實(shí)數(shù)據(jù)來解答這些重要問題。"

這場吸引1800名注冊者的會議采取了與期刊背道而馳的評審方式。組織者使用三種常見的大語言模型，GPT-5、Gemini 2.5 Pro和Claude Sonnet 4，對提交的315篇論文進(jìn)行六分制評分，并取平均值（均分在2.3-4.2分）。

隨后由人類對達(dá)到分?jǐn)?shù)門檻的80篇論文進(jìn)行復(fù)審，最終綜合AI與人工的評審意見接收48篇。論文主題橫跨化學(xué)（尋找降低大氣二氧化碳的新催化劑）、醫(yī)學(xué)（阿爾茨海默病的新候選治療藥物）、心理學(xué)（模擬長期航天任務(wù)中宇航員的心理壓力）等多個(gè)學(xué)科。

麻省理工學(xué)院生物學(xué)家Sergey Ovchinnikov提交的論文受到組委會的重點(diǎn)關(guān)注。他的團(tuán)隊(duì)要求ChatGPT進(jìn)階版（推理模型o3、o4-mini和o4-mini-high）生成具有四螺旋束結(jié)構(gòu)特征的生物活性蛋白質(zhì)氨基酸序列。

令人驚訝的是，ChatGPT在未優(yōu)化提問的情況下直接輸出了基因序列。經(jīng)團(tuán)隊(duì)進(jìn)一步分析及實(shí)驗(yàn)室測試，確認(rèn)其中一個(gè)序列成功合成具有四螺旋束結(jié)構(gòu)的蛋白質(zhì)。Ovchinnikov指出，鑒于ChatGPT的易用性，該成果頗具潛力。目前科學(xué)家通常需專用軟件設(shè)計(jì)蛋白質(zhì)，但他也發(fā)現(xiàn)ChatGPT在此任務(wù)中仍需優(yōu)化，團(tuán)隊(duì)生成的大部分序列未能獲得形成目標(biāo)蛋白質(zhì)結(jié)構(gòu)的"高置信度"評分。

會議數(shù)據(jù)表明，AI可在科研項(xiàng)目中與人類協(xié)作，但尚無法完全取代人類。組織者要求作者團(tuán)隊(duì)報(bào)告AI與人類在生成假設(shè)、數(shù)據(jù)分析和論文撰寫等關(guān)鍵環(huán)節(jié)的貢獻(xiàn)比例。在57%的投稿和52%的錄用論文中，AI承擔(dān)了主要假設(shè)的生成工作；在約90%的論文中，AI在寫作環(huán)節(jié)貢獻(xiàn)顯著，這或許反映出寫作任務(wù)的計(jì)算需求較低。

一些參會研究者稱贊AI助手能將通常耗時(shí)數(shù)周的任務(wù)壓縮至數(shù)日完成，并促進(jìn)了跨學(xué)科合作，但也指出AI存在缺陷：曲解復(fù)雜方法、編寫的代碼需人工調(diào)試、編造無關(guān)或虛構(gòu)參考文獻(xiàn)。

斯坦福計(jì)算天體物理學(xué)家Risa Wechsler在評審?fù)陡搴笾赋觯?b>AI的表層檢查可提升論文質(zhì)量，但對需要深度概念推理與科學(xué)判斷的任務(wù)，科學(xué)家應(yīng)保持審慎態(tài)度。她在專題討論中表示："我對AI賦能科研感到振奮，但本次會議也有效揭示了AI的局限性。目前AI顯然不具備設(shè)計(jì)能推動領(lǐng)域發(fā)展的科學(xué)問題的能力。"

她評審的一篇論文"技術(shù)層面無誤，但既無趣又缺乏重要意義"，她認(rèn)為"培養(yǎng)科學(xué)鑒賞力是人類科學(xué)家的核心素養(yǎng)，而如何將此賦予AI仍是未知數(shù)"。

芝加哥大學(xué)計(jì)算社會科學(xué)家James Evans提出，科學(xué)想法的自動化評估可能需要多個(gè)AI智能體協(xié)同工作，各自持續(xù)提供批判視角。但現(xiàn)階段主流商業(yè)AI表現(xiàn)出"諂媚傾向"，只會生成迎合人類請求的內(nèi)容。Evans指出："所有主流商業(yè)AI都過于友善，它們無法產(chǎn)生突破性工作所需的觀點(diǎn)沖突與多元視角。"

會議組織者計(jì)劃發(fā)布分析報(bào)告，比較每篇論文的AI評審與人工評審意見。這種分歧在Ovchinnikov的蛋白質(zhì)設(shè)計(jì)論文評審中已現(xiàn)端倪：AI審稿人盛贊其"意義深遠(yuǎn)"，而人類專家則評價(jià)為"有趣的概念驗(yàn)證研究，但仍存在一些未解的問題"。

內(nèi)容整理自：https://www.science.org/content/article/futuristic-meeting-ais-took-lead-producing-and-reviewing-all-studies

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.