ICLR 2026 (國際學術表征會議)將于明年 4 月在巴西里約熱內盧召開。目前(11 月11 日—12月3 日 )為論文的作者-評審階段。
最近,這個國際頂級 AI 會議,爆出了個“讓業界都震驚了”的大丑聞。
征集階段,蘋果研究團隊提交了一篇論文,標題為《推理究竟哪里出錯了?》(Where Did the Reasoning Go Wrong?) 。
![]()
這篇論文提出名為 PRISM-Bench 的基準測試,稱能專門檢測多模態大模型在推理時的第一處錯誤。
![]()
論文被上海“階躍星辰”研究員 Lei yang看到后,他把階躍星辰模型適配到 Benchmark 上做了實驗。
結果,他發現自家模型跑分,低得離譜。
于是,他開始排查自己的集成方式,但在查閱 Apple 官方代碼時,他看到了一個震碎三觀的低級 Bug。
在調用視覺語言模型進行推理時,本該傳入圖片像素數據,代碼卻錯誤地只傳了圖片的存儲路徑字符串。
也就是說,模型壓根沒看到圖,只是讀到了一行類似“D盤/圖片/01.jpg”的文字。
![]()
于是, Lei Yang 順手改了 Bug,還把真正的圖片傳了進去。
結果,分數反而更低了。
這意味著,在蘋果公司提交的這個 Benchmark 里,模型瞎蒙的效果,比實際看圖還要好。
也就是說,其數據集本身存在巨大的邏輯漏洞,或者更可能的是,純粹是為了湊數的擺設。
帶著這個懷疑, Lei Yang 決定放棄代碼,直接人工檢查數據。
他隨機選擇了模型答錯的前20道題,結果,有 6 個題的標準答案本身就是錯的。
真是震碎了三觀!
就此, Lei Yang在 GitHub 上認真提交了一個問題反饋。
沒想到,接下來 Apple 作者團隊的操作,讓人大跌眼鏡。
6 天后,他們敷衍的給出了一個簡短回復,然后,然后,就連夜撤稿,刪庫跑路了!
![]()
![]()
之后,Lei Yang 提出強烈抗議,他們才又不得不重新恢復。
被蘋果式傲慢激怒的Lei Yang,最后選擇了將這一丑聞公之于眾。
![]()
他用“可怕的錯誤”來形容蘋果論文的 bug,公布了 20 道題的測試文件,還表示,這些示例的“真實推理過程”也包含大量幻覺和錯誤。
比如,在論文附錄的 Figure 11 里,題目要求找一條直線和一條曲線,圖里明明是相切,AI 生成的“正確推理”,卻說這一步錯了,理由是“這圖里展示的是相交” 。
![]()
更吊詭的是,有網友查詢蘋果論文原文發現,在第 4 頁上煞有介事的寫著,“所有的思維鏈都經過標注員審查,以確保……錯誤位置清晰明確”。
![]()
簡直是自欺欺人!
還有更恐怖的。在該論文的 Table 2 中,作者列出了一大堆模型在這個 Benchmark 上的跑分。比如,GPT-5 跑了 52.6%,Qwen2.5-VL 跑了 57.0%。
![]()
這些精確到小數點后一位的分數,到底是怎么跑出來的?!!!
除了蘋果公司本身的不靠譜,還可以繼續追問的是,這篇論文有 5 位審稿人,而論文發表的場合 ICLR,更是AI 界的頂級會議。這些評審都在做啥?
我們來看看審稿人們的評價。
![]()
這位審稿人評價為Soundness: 4 excellent(可靠性:極佳)的評價。
![]()
這位審稿人的評價是Soundness: 3 good(可靠性:3 良好),并稱其“提供了詳細的復現細節”。
這顯然與Lei Yang的復現結果大相徑庭,這位評審真的去認真復現了么?
有網友揭秘稱,蘋果從2023年開始,每年發一篇實際上并不靠譜的論文,詆毀大模型。
比如,2023 年的《ReLU 強勢回歸:利用大語言模型的激活稀疏性》,2024 年的
《GSM?Symbolic:理解大語言模型在數學推理中的局限性》。
開始時,還有很多人叫好,去年開始受到不少質疑,沒想到今年就翻車了,而且還這么徹底。
沒想到高大上的蘋果公司,還有 AI 頂級學術界,也會“草臺班子”如此。
但幸好還有來自中國上海 AI 公司階躍星辰的這位較真的Lei Yang!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.