距離 OpenReview 因代碼漏洞導致審稿人身份大規模泄露的“開盒事件”僅僅過去不到兩周,ICLR 又翻車了。
前兩天,AI 內容檢測機構 GPTZero 發布的最新調查報告顯示,在隨機抽取的 300 篇 ICLR 2026 投稿論文中,超過 50 篇論文被檢測出存在明顯的 AI 幻覺問題。這些問題涵蓋了偽造參考文獻、捏造不存在的作者以及編造實驗數據,其中部分論文在同行評審階段甚至獲得了均分 8.0 的高分評價。
![]()
圖 | 部分問題論文(來源:GPTZero)
然而,就在今年 8 月 27 日,ICLR 組委會曾正式發布針對 LLM 使用的嚴格規范,明確要求作者對論文中由 AI 生成的任何內容負責,并嚴厲禁止偽造數據或誤導性陳述。這項政策本意是為當下過熱的 AI 輔助研究設立一道防火墻。
![]()
(來源:X)
但現實表明,這道墻有些不堪一擊了。
GPTZero 的創始人 Alex Cui 及其團隊對 ICLR 2026 的投稿進行了小范圍抽樣核查。調查結果顯示,在被抽檢的 300 篇論文中,有 16% 的樣本包含了無法在現實世界中驗證的引文或數據。按照 ICLR 本屆會議近 2 萬篇的投稿總量推算,可能有數千篇包含嚴重學術瑕疵的論文正混跡于評審流程之中。更令人擔憂的是,這些本應在初審階段就被“直接拒稿”(Desk Reject)的問題論文,不僅未被系統攔截,反而順利進入了同行評審環節,部分甚至獲得了極高的評價。
在被曝光的具體案例中,一篇題為 TamperTok 的投稿論文引發了廣泛關注。該論文在評審系統中獲得了均分 8.0 的成績。在 ICLR 的評分體系中,這一分數通常意味著論文具備沖擊 Oral(口頭報告)或 Spotlight(特別關注)資格的潛力,代表了投稿中前 1.8% 的頂尖水平。
然而,GPTZero 的檢測工具發現,該論文在參考文獻部分存在嚴重的幻覺現象。作者引用了一篇據稱發表于 NeurIPS 2023(神經信息處理系統大會)的論文,雖然引用的論文標題與年份在現實中確實存在,但作者名單卻被完全篡改。原本的真實作者團隊被替換為一組完全不相關的人名。
![]()
圖 | 原作者名單(來源:arXiv)
![]()
圖 | 幻覺論文作者名單(來源:Openreview)
這是典型的 AI 幻覺特征: 模型在概率預測中拼湊出了看似合理但實則虛構的信息。令人遺憾的是,負責評審該論文的四位審稿人均未發現這一明顯硬傷,一致給出了高分推薦。
類似的作者幻覺還出現在一篇名為 MixtureVitae 的均分 8.0 論文中。與直接篡改全部作者不同,這篇論文在引用時采用了“真假參半”的策略。它在引用列表中保留了被引論文的前三位真實作者,后面幾位作者的名字要么是完全虛構,要么是只拼對了一半。這種混合了真實信息與虛構信息的手段具有極強的欺騙性,極易逃過審稿人的常規檢查。
![]()
圖 | 問題論文引用文獻作者 (來源:OpenReview)
![]()
圖 | 原論文作者(來源:arXiv)
除了上述試圖通過“高仿真”手段蒙混過關的案例外,調查還發現了一些近乎荒誕的低級錯誤,例如一篇 6 分論文引用完全不存在的文獻。
![]()
圖 | GPTZero 檢測出引用無效文獻(來源:GPTZero)
此外,一篇名為《Safe-LLM》的投稿論文更是令人哭笑不得,明明正在參與 ICLR 2026 的評審,但其頁眉位置赫然標注著“Published at ICLR 2025”。
![]()
(來源: OpenReview)
在另一篇名為 IMPQ 的論文中,障眼法則高明一些:該論文在引用時提供了一個真實存在的 arXiv ID。如果審稿人僅是機械地驗證鏈接的有效性,會發現該 ID 確實指向一個有效的 arXiv 頁面。
![]()
圖 | IMPQ 參考文獻引用(來源:OpenReview)
![]()
圖 | 論文 arXiv 鏈接指向頁面(來源:arXiv)
然而,一旦對比頁面內容,就會發現該 ID 對應的真實論文標題、作者與投稿論文中引用的信息完全不符。這種“掛羊頭賣狗肉”的手法利用了審稿人在高強度工作負荷下可能產生的倦怠,比純粹的虛構更難被發現。
此次 GPTZero 披露的 50 篇問題論文,也是學術界評審目前面臨的重要問題。
隨著大語言模型降低了論文寫作的門檻,各大頂級會議的投稿量呈現指數級增長。ICLR 2026 共收到了 19,490 篇研究論文投稿,產生了超過 75,000 條評審意見。但合格的審稿人資源是有限的,無法匹配如此龐大的審核需求。供需失衡導致了評審質量的稀釋,甚至出現了“用 AI 對抗 AI”的惡性循環。
之前 OpenReview 的信息泄露就證明了這一點:不僅稿子存在 AI 痕跡,大量審稿意見本身也是 AI 生成的。有數據顯示,約有 21% 的 ICLR 同行評審意見可能由人工智能生成,超過一半的評審帶有使用 AI 輔助的痕跡。
這種現象如果得不到遏制,真正具備創新價值的人類研究成果就有可能被淹沒在由模型生成的冗余信息中。
同時,ICLR 組委會在今年 8 月出臺的新規中曾強調,作者必須對 LLM 的使用進行公開披露,并對論文內容的準確性承擔最終責任,違規者將面臨拒稿等處罰。
可從目前的實際情況來看,單純依賴作者的道德自律和事后追責已經難以形成約束。GPTZero 的檢測結果表明,現有的同行評審流程缺乏針對 AI 幻覺的有效技術攔截手段。哪怕是最基礎的參考文獻核查,在面對數以萬計的投稿時也成為了巨大的人力負擔,導致大量顯而易見的錯誤被遺漏。
https://gptzero.me/news/iclr-2026/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.