歡迎觀看本期【我】,在閱讀此文之前,麻煩您點擊一下“關(guān)注”,既方便您進行討論和分享,又能給您帶來不一樣的參與感,感謝您的支持。
![]()
ICLR2026這屆頂會,算是徹底爆出大瓜了,居然有五分之一還多的評審意見是純AI生成的!這事兒不是空穴來風,是Pangram實驗室實打?qū)崣z測出來的,而整件事的開端,還挺有戲劇性。
懸賞引出檢測行動CMU的AI研究員GrahamNeubig,前段時間收到了幾篇論文的同行評審,看完就覺得不對勁。
![]()
這些評審內(nèi)容極為冗長,堆砌大量專業(yè)符號,而且,其要求的分析方式并非人工智能領(lǐng)域?qū)徃迦藨T用的標準統(tǒng)計方法,實難令人滿意。
Graham因無暇開展系統(tǒng)性檢測,遂于社交平臺發(fā)布懸賞,他愿慷慨拿出50美元,將這筆獎金授予首位能檢測出ICLR論文與評審里AI文本占比的人士。
![]()
Pangram實驗室剛好是做AI文本檢測工具的,直接接下了這個活,50美元不算多,但實驗室顯然更看重這個話題的價值。
他們的目標很明確,不是要揪出誰用了AI,而是想把這個行業(yè)趨勢擺到臺面上,讓大家看看頂會里的AI代寫已經(jīng)到了什么程度。
技術(shù)手段掃清障礙要做檢測,第一步得先拿到數(shù)據(jù),Pangram從OpenReview上拉來了ICLR2026的全部數(shù)據(jù),差不多兩萬篇論文投稿,七萬多條審稿意見。
![]()
這些論文大多以PDF格式呈現(xiàn),常規(guī)解析工具面對如此格式的論文,往往力不從心,難以承擔解析之重任。
普通PDF解析工具碰到公式、圖表、表格就容易抽風,會給后續(xù)文本分析添亂,本來想直接用PyMuPDF這類常用工具,后來發(fā)現(xiàn)完全不行。
![]()
Pangram只能換思路,先用MistralOCR模型把PDF轉(zhuǎn)成Markdown格式,再統(tǒng)一轉(zhuǎn)成純文本,盡量把格式帶來的干擾去掉。
檢測論文正文用的是extendedtextclassifier,先把論文拆成小片段,逐個判斷是AI寫的還是人寫的,再匯總出整篇的AI占比。
![]()
檢測評審意見采用EditLens模型,其功能強大,可精準劃分出AI參與的五個級別,無論是純?nèi)斯?chuàng)作,亦或是純AI生成的內(nèi)容,都能清晰標注。
為了驗證準確性,他們還拿2022年前的頂會論文測試,結(jié)果顯示那些論文的AI生成概率都是0,這才讓檢測結(jié)果有了說服力。
檢測結(jié)果揭露亂象檢測結(jié)果一出來,確實讓人有點震驚,七萬多條評審意見里,有一萬五千多條是純AI生成的,超半數(shù)評審都有不同程度的AI參與。
![]()
論文這邊情況稍好,大部分是人工撰寫,但也有兩百篇左右是純AI生成的,而且實驗室還提到,有些純AI論文可能早被拒稿,沒出現(xiàn)在公開數(shù)據(jù)里。
更有意思的是兩個關(guān)聯(lián)趨勢,論文中人工智能相關(guān)內(nèi)容占比越高,評審給出的評分往往越低。
這揭示出在學術(shù)評價里,原創(chuàng)性與深度思考仍占據(jù)著至關(guān)重要的地位,這大概率是因為現(xiàn)階段AI寫的論文還沒摸到學術(shù)原創(chuàng)的門檻,質(zhì)量上不去。
![]()
但評審這邊剛好反過來,AI參與程度越高,給的評分就越寬松,AI評審好像自帶“老好人”屬性,打分容易偏高。
本來以為評審寫得越長,質(zhì)量就越高,結(jié)果AI評審是典型的“又長又沒料”。
![]()
建設(shè)性建議沒幾句,要么是車轱轆話,要么是挑些表面問題,比如讓作者多做幾次消融實驗、擴大測試集。
作者們?yōu)榱嘶貜?fù)評審得逐字研讀,最后發(fā)現(xiàn)讀了一堆沒用的廢話,這體驗屬實糟糕。
學術(shù)誠信面臨挑戰(zhàn)其實ICLR早就有關(guān)于AI使用的明確規(guī)定。
![]()
無論是作者撰寫論文,亦或是評審給出意見,若使用了AI技術(shù),均需予以披露,且最終責任需由本人承擔,如此方能確保學術(shù)與評審的公正、嚴謹。
純AI寫評審還可能違反倫理準則,畢竟這不是評審本人的觀點,還可能涉及保密問題。
ICLR2026高級項目主席透露,作為頂級學術(shù)會議,此次大規(guī)模遭遇此類問題尚屬首次。
目前,會議方已啟用自動化工具對違規(guī)內(nèi)容展開核查工作。
![]()
芝加哥大學的經(jīng)濟學家還拋出了一個值得深思的問題,大家到底要不要在同行評審里保留人類判斷?
如果全換成AI,那評審的意義又在哪?我覺得AI輔助學術(shù)研究沒問題,比如幫著潤色語言、整理數(shù)據(jù),這能提高效率。
![]()
但純AI代寫論文、生成評審意見就不行了,這不僅浪費學術(shù)資源,還會破壞同行間的信任。
現(xiàn)在有些頂會已經(jīng)在探索人機協(xié)同評審,把基礎(chǔ)反饋交給AI,核心的學術(shù)價值判斷留給人類,這應(yīng)該是個不錯的方向。
畢竟學術(shù)研究的核心,始終是人類的思考和創(chuàng)新,AI只能是幫手,不能當主角。
![]()
支持作者,寫作不易!如果您喜歡我的文章,可以點個“關(guān)注”,成為鐵粉后能第一時間收到文章推送。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.