本文整理自Science官網(wǎng)在2025年10月23日發(fā)布的一篇文章,原文標(biāo)題為“At futuristic meeting, AIs took the lead in producing and reviewing all the studies”
眾多學(xué)術(shù)期刊和會議禁止將ChatGPT等AI工具列為研究的作者或?qū)徃迦耍浜诵睦砟钤谟跈C(jī)器無法承擔(dān)責(zé)任。但近日,一場突破常規(guī)的會議顛覆了這一禁忌:所有提交的48篇論文(研究主題從蛋白質(zhì)設(shè)計(jì)到心理健康),不僅必須將AI列為主要作者,還需接受AI審稿人的全面評審。
這場名為"Agents4Science"的虛擬會議開創(chuàng)了先河,它探討的主題在一年前或許還被歸為科幻范疇:AI能否主導(dǎo)提出研究假設(shè)、設(shè)計(jì)并運(yùn)行計(jì)算驗(yàn)證、最終撰寫研究論文?而大語言模型又能否有效評審學(xué)術(shù)論文?
![]()
鏈接:https://agents4science.stanford.edu/index.html
組織者表示,會議旨在推動"制定AI參與科研的指南"。他們希望全面接納AI加速科研進(jìn)程,并減輕審稿人日益增長的審稿壓力。
但部分研究者對該會議的立意提出強(qiáng)烈批評。悉尼大學(xué)數(shù)字創(chuàng)新研究員Raffaele Ciriello在會前通過媒體中心發(fā)表聲明指出:"不應(yīng)將此認(rèn)為是學(xué)術(shù)研究。科學(xué)不是將數(shù)據(jù)轉(zhuǎn)化為結(jié)論的工廠,而是根植于闡釋、判斷與批判的人類集體事業(yè)。將研究視作機(jī)械流程......無異于假定只要輸出結(jié)果在統(tǒng)計(jì)上有效,探索的過程就無足輕重。"
會議主席、斯坦福大學(xué)AI研究員James Zou則認(rèn)為,以創(chuàng)新方式審視AI在科研中的角色至關(guān)重要。他指出,盡管越來越多科學(xué)家使用AI,但證據(jù)顯示多數(shù)人未按期刊會議要求公開使用情況。
Zou向《Science》表示:"使用AI仍存在污名化現(xiàn)象,人們傾向于隱瞞或淡化AI的使用。會議組織者希望公開進(jìn)行這些研究,以便收集真實(shí)數(shù)據(jù)來解答這些重要問題。"
這場吸引1800名注冊者的會議采取了與期刊背道而馳的評審方式。組織者使用三種常見的大語言模型,GPT-5、Gemini 2.5 Pro和Claude Sonnet 4,對提交的315篇論文進(jìn)行六分制評分,并取平均值(均分在2.3-4.2分)。
隨后由人類對達(dá)到分?jǐn)?shù)門檻的80篇論文進(jìn)行復(fù)審,最終綜合AI與人工的評審意見接收48篇。論文主題橫跨化學(xué)(尋找降低大氣二氧化碳的新催化劑)、醫(yī)學(xué)(阿爾茨海默病的新候選治療藥物)、心理學(xué)(模擬長期航天任務(wù)中宇航員的心理壓力)等多個(gè)學(xué)科。
麻省理工學(xué)院生物學(xué)家Sergey Ovchinnikov提交的論文受到組委會的重點(diǎn)關(guān)注。他的團(tuán)隊(duì)要求ChatGPT進(jìn)階版(推理模型o3、o4-mini和o4-mini-high)生成具有四螺旋束結(jié)構(gòu)特征的生物活性蛋白質(zhì)氨基酸序列。
令人驚訝的是,ChatGPT在未優(yōu)化提問的情況下直接輸出了基因序列。經(jīng)團(tuán)隊(duì)進(jìn)一步分析及實(shí)驗(yàn)室測試,確認(rèn)其中一個(gè)序列成功合成具有四螺旋束結(jié)構(gòu)的蛋白質(zhì)。Ovchinnikov指出,鑒于ChatGPT的易用性,該成果頗具潛力。目前科學(xué)家通常需專用軟件設(shè)計(jì)蛋白質(zhì),但他也發(fā)現(xiàn)ChatGPT在此任務(wù)中仍需優(yōu)化,團(tuán)隊(duì)生成的大部分序列未能獲得形成目標(biāo)蛋白質(zhì)結(jié)構(gòu)的"高置信度"評分。
會議數(shù)據(jù)表明,AI可在科研項(xiàng)目中與人類協(xié)作,但尚無法完全取代人類。組織者要求作者團(tuán)隊(duì)報(bào)告AI與人類在生成假設(shè)、數(shù)據(jù)分析和論文撰寫等關(guān)鍵環(huán)節(jié)的貢獻(xiàn)比例。在57%的投稿和52%的錄用論文中,AI承擔(dān)了主要假設(shè)的生成工作;在約90%的論文中,AI在寫作環(huán)節(jié)貢獻(xiàn)顯著,這或許反映出寫作任務(wù)的計(jì)算需求較低。
一些參會研究者稱贊AI助手能將通常耗時(shí)數(shù)周的任務(wù)壓縮至數(shù)日完成,并促進(jìn)了跨學(xué)科合作,但也指出AI存在缺陷:曲解復(fù)雜方法、編寫的代碼需人工調(diào)試、編造無關(guān)或虛構(gòu)參考文獻(xiàn)。
斯坦福計(jì)算天體物理學(xué)家Risa Wechsler在評審?fù)陡搴笾赋觯?b>AI的表層檢查可提升論文質(zhì)量,但對需要深度概念推理與科學(xué)判斷的任務(wù),科學(xué)家應(yīng)保持審慎態(tài)度。她在專題討論中表示:"我對AI賦能科研感到振奮,但本次會議也有效揭示了AI的局限性。目前AI顯然不具備設(shè)計(jì)能推動領(lǐng)域發(fā)展的科學(xué)問題的能力。"
她評審的一篇論文"技術(shù)層面無誤,但既無趣又缺乏重要意義",她認(rèn)為"培養(yǎng)科學(xué)鑒賞力是人類科學(xué)家的核心素養(yǎng),而如何將此賦予AI仍是未知數(shù)"。
芝加哥大學(xué)計(jì)算社會科學(xué)家James Evans提出,科學(xué)想法的自動化評估可能需要多個(gè)AI智能體協(xié)同工作,各自持續(xù)提供批判視角。但現(xiàn)階段主流商業(yè)AI表現(xiàn)出"諂媚傾向",只會生成迎合人類請求的內(nèi)容。Evans指出:"所有主流商業(yè)AI都過于友善,它們無法產(chǎn)生突破性工作所需的觀點(diǎn)沖突與多元視角。"
會議組織者計(jì)劃發(fā)布分析報(bào)告,比較每篇論文的AI評審與人工評審意見。這種分歧在Ovchinnikov的蛋白質(zhì)設(shè)計(jì)論文評審中已現(xiàn)端倪:AI審稿人盛贊其"意義深遠(yuǎn)",而人類專家則評價(jià)為"有趣的概念驗(yàn)證研究,但仍存在一些未解的問題"。
內(nèi)容整理自:https://www.science.org/content/article/futuristic-meeting-ais-took-lead-producing-and-reviewing-all-studies
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.