網易首頁 > 網易號 > 正文申請入駐

AI打榜，打的是什么？

讓AI與AI互相聊天會聊出什么

2026-04-12 09:31:25　來源: 鈦媒體APP

北京舉報

分享至

文 | 利昂先生

2026年2月3日，MLE-Bench的GitHub討論區炸了。

激烈程度對這個以較量AI Agent機器學習水平的垂直領域來說，簡直是破天荒的頭一次。

話題源自一家名叫Disarray的創業公司提交了一個77.78分的成績。

這個數字本身沒什么——但如果看到，此前全球多個頂尖團隊在長達數月的拉鋸中，成績始終在60分上下苦苦掙扎，就會知道這并不簡單。

高手過招，往往精確到每一個百分點。

而Disarray憑空跳開的近20分，讓一場關于benchmark本質的論戰，就此拉開。

機器學習界的“鐵人三項”

MLE-Bench，全稱Machine Learning Engineering Benchmark，由OpenAI推出。它不是為了測試模型會不會聊天、會不會寫詩，而是測試AI Agent能不能像一個真正的機器學習工程師那樣，獨立完成一整套數據競賽任務。

整個體系可以理解為機器學習界的“鐵人三項”——

考題是70多道真實的Kaggle（全球數據科學家和機器學習愛好者的頂級競技平臺）競賽題，每一道題都來自過去十年里全球數據科學家真刀真槍比拼過的賽場：從房價預測到圖像識別，從GPS定位到狗品種分類。Agent需要自己理解問題、清洗數據、特征工程、調模型、集成——全套流程，沒人幫忙。

更狠的是，每道題要跑3次，取平均。一次完整的榜單提交，光算力成本就高達數萬美元，時間要耗上好幾周。

所以這個榜單從來不是熱鬧的游樂場——它門檻高、成本高、參與者少，但每一個上榜的分數，都沉甸甸的。

自2025年9月以來，這個此前提交不多的榜單突然熱鬧起來，陸續有近10家選手沖了進來。大家你追我趕，分數從40多分艱難地爬到了60出頭。每一分的提升，背后都是Agent架構的實質性突破。

然后，Disarray來了。

一場有漏洞的考試

MLE-Bench與真實Kaggle競賽略有不同。

真實的Kaggle競賽中，選手提交模型后，主辦方會用一套“私有測試集”來打分。這套數據選手永遠看不到，只能通過公開榜的分數來間接猜測自己的表現。這叫“閉卷”，目的是防止有人針對答案做優化。

但MLE-Bench拿不到真正的私有測試集。于是OpenAI做了一個妥協：把原本完全公開的數據集拆成兩份，一份繼續叫“公開測試集”，另一份假裝成“私有測試集”。

可是問題來了：這兩份數據，都曾經在網上出現過。

這就好比老師把一本練習冊拆成兩半，說一半是“作業”，另一半是“考試題”——但學生早就把整本練習冊做過一遍了。只要Agent足夠“會搜索”，理論上就能提前找到所有“考試題”的答案。

Disarray的Agent，恰好踩在了這個漏洞上。

他們在dog-breed-identification這道題上跑出了接近0.00x的極低分數（這個指標越低越好），原因是Agent自己發現了Kaggle比賽和Stanford Dogs數據集之間的關系，直接用了外部數據。

在另一道GPS任務上，他們甚至跑出了0.0分——誤差為零，這在物理上幾乎不可能，除非Agent提前知道了“標準答案”。

但爭議的核心還不止于此。

一個比特的信號，夠不夠“作弊”？

比“提前找到數據”更微妙的，是Agent在答題過程中能不能收到來自“考試題”的反饋。

Disarray團隊承認，他們的Agent在運行中會收到一個極其簡單的信號——二選一：“你目前的表現夠得上一塊銅牌嗎？是或否。”

這個信號只有一個比特的信息量，聽起來很小。

但關鍵不在于信號大小，而在于它來自哪里。它就來自那份被當作“私有測試集”的數據。

換句話說，Agent每跑完一個階段，系統就會告訴它：你現在用這套“考試題”自測，已經達到銅牌水平了——或者還沒有。

這就好比一個學生在做期末考試卷的時候，老師每隔十分鐘就過來看一眼，說：“你現在離及格還差一點”“你現在已經及格了”。雖然沒告訴他具體哪道題錯了，但這個信息本身就足以讓他決定：是繼續死磕這道題，還是趕緊換下一道。

一位長期關注AI評估范式的社區資深貢獻者，AtrixTang把這個比喻說得更狠：這就像用期末考試題當隨堂測驗的題目，學生一邊做一邊收到反饋，然后拿著同樣的題目參加期末考試。

他說，Kaggle的類比不成立——因為真實競賽中，公開榜和私有榜用的是完全不同的數據。

圖注：如果agent在“提前終止/重試信號”和“最終評估”中都使用相同的私有測試集，那么嚴格來講，這就構成了測試集泄露。

而MLE-Bench用同一套數據既給反饋又做最終評分，這就是典型的“測試集泄漏”。

AtrixTang主張拆成兩個榜：一個嚴格不給任何反饋（Standard Track），一個允許反饋（Oracle Track），讓觀眾自己判斷哪個更有意義。

論戰的七種立場

PR #118（Disarray的提交結果的頁面，編號為#118）的評論區成了一面棱鏡，折射出整個社區對“什么才是公平測量”的理解裂痕。

Disarray提交者“moustafa-a”堅持，Disarray是按現有規則跑的，沒有改任何考試流程。他還強調，那個“是/否”信號只是一個資源管理工具——告訴Agent要不要繼續花錢跑下去，不是什么定向優化。

“dorx”作為Disarray團隊核心發言人，承認了兩件事：GPS任務的0.0分確實利用了benchmark已知的一個漏洞；狗品種識別用了外部數據。但她把這解釋為“跨任務學習能力”，不是作弊。

圖注：按照標準慣例，在開發過程中，代理程序在任何時候都不能訪問私有測試數據。代理程序唯一能收到關于測試數據的反饋是在它們請求提前終止（為了有效利用資源）時，此時它們會得知自己是否達到了銅牌門檻。

alexwang939393是最早提出系統性疑問的人。他不糾纏細節，直接把問題拋給benchmark的初衷：這些高分，測的到底是不是“機器學習工程能力”？

圖注：作為參考，沒有使用外部數據的最先進模型通常能達到約0.2-0.3的分數。第三組（0.00755）與第一組/第二組（約0.04）之間的巨大差距也值得注意。

thesofakillers身份特殊——他是MLE-Bench此前的作者。他的態度很微妙：當前考試確實有漏洞，利用這些漏洞“可以接受，但不理想”。他建議在榜單上加個腳注說明情況。

AtrixTang態度最堅決：只要用了秘密數據的反饋，不管信號多微弱，就不該和沒用過的人放在同一個榜單上。

機器學習領域研究者“RishiHazra”和社區開發者“ariesadel”則更強硬：這種提交根本不該上榜。信任是benchmark的核心，一旦有人用測試集反饋優化，整個排名就失去了意義。

joe-needham作為OpenAI現任研究員、MLE-Bench的維護者，態度最務實。他承認目前榜單靠“信任”維持，因為倉庫無法驗證每個提交的細節。最終，他還是把這個有爭議的結果合并進了主榜——但為后來的調整埋下了伏筆。

用“笨辦法”的團隊

在這場喧囂中，有一支團隊的選擇顯得格外安靜，甚至有點“不合時宜”。

百度伐謀團隊在2025年10月10日第一次提交結果，得分43.56，已經是當時的SOTA。此后榜單逐漸熱鬧，近10家選手陸續入場。

2025年12月27日，他們做了一個不太好理解的決定——當時最先進的gemini-pro-3.0模型已經可用，但他們沒有換，而是繼續用上一代的gemini-pro-2.5。

原因很簡單：他們想搞清楚Agent自身的能力到底提升了多少。從1.0版本到2.0版本，Agent架構做了一次大升級。如果同時換模型，成績的提升就說不清楚是模型的功勞還是Agent的功勞了。

這就好比你想測試一個新訓練方法對運動員成績的影響——如果同時給運動員換一雙更高級的跑鞋，你就說不清楚成績提升到底是訓練方法的功勞，還是跑鞋的功勞。

59.56分，新SOTA。

這個數字證明了Agent層優化的有效性。但代價是他們的分數看起來“不夠高”——因為別人可能既優化了Agent，又用了更好的模型，還用了額外數據。

打一次榜成本太高了，高到任何“取巧”都有巨大的誘惑。

但百度伐謀的選擇是：寧可慢，也要把每一分提升的來源搞清楚。這種“笨辦法”在工業界叫“可解釋性”——你不僅要知道自己跑得快，還要知道為什么跑得快。

一次對照實驗

Disarray的77.78分出來之后，百度伐謀團隊沒有急于質疑，也沒有跟風模仿。他們做了一件很“工業界”的事：設計對照實驗。

他們決定換成最新模型gemini-pro-3.0再試一次，但其他條件保持不變——不用私有測試集的反饋信號，不用外部網絡數據，不利用任何已知漏洞。Agent只能老老實實地根據給定的訓練數據去學習和優化。

為什么這么“軸”？這可能與百度伐謀的定位有關。

作為百度智能云推出的全球首個可商用的自我演化超級智能體，百度伐謀瞄準的是幫助真實世界優化算法，尤其是那些關系國計民生的場景里找到最優解。

而在真實世界里，你不可能提前拿到“未來數據”：做一個銷量預測模型，你不可能把未來七天的真實銷量告訴Agent，讓它根據這個反饋去調整。做一個推薦系統，你不可能提前知道用戶明天會點什么。

在真實世界里，沒有“銅牌閾值”信號，沒有“再試一次”的機會，沒有“偷偷上網找答案”的可能。

2026年2月23日，他們提交了64.44分。這個分數與Disarray的77.78依舊有差距。

但這是一個在“不偷看答案、不收反饋信號、不上網搜數據”的規則下跑出來的分數——它的含金量，參照系完全不同。

一個AI榜單的自我修養

2026年3月23日，MLE-Bench倉庫新增了一個專門的賽道，名字很直白：“添加數據泄漏說明”。有數據泄漏嫌疑的選手被移到了第二個榜單，旁邊加了腳注說明。

圖注：與主排行榜不可直接比較的額外提交（小孩兒那桌？）

維護者的選擇是“先收錄，但加警示”——不是直接把Disarray的成績刪掉，而是通過信息披露讓觀眾自己判斷。這是一種務實的妥協，但客觀上完成了一次矯正。

百度伐謀2.0版本作為無數據泄漏嫌疑的選手，重回主榜榜首。

圖注：MLE-bench主榜，百度伐謀位列第一

這個結果耐人尋味。

它可能也不意味著Disarray的技術不優秀——比如，他們對考試規則的理解非常深刻，甚至找到了出題人自己都沒發現的漏洞。

但“能做到什么”和“應該測量什么”是兩個不同的問題。

當百度伐謀團隊選擇不用最新模型、不用秘密數據反饋、不用外部數據的時候，他們其實在做一個更根本的承諾：benchmark的價值，在于模擬真實世界的約束。而在這個約束下持續提升Agent的能力，才是硬核技術的真正含義。

這不是關于道德優越感。

這是關于：在一個榜單泛濫、信任稀缺的時代，什么樣的測量才值得被記住。

答案或許很簡單：那個愿意對測量本身保持敬畏的榜單，那個不是為了刷分而是為了解決問題的團隊。

他們贏得的，不只是排名。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

網易智企發布企業級AI Agent管理平臺帝王蟹（ClawHive）

華商韜略 2026-04-10 17:39:42
0 跟貼 0
從“起大早趕大集”到“帶領行業趕大集”：百度引領AI內化時代

每日經濟新聞 2025-11-13 16:41:39
0 跟貼 0

原來這屆中國AI年輕人，已經卷到業界都驚了

機器之心Pro 2025-12-03 12:03:29
0 跟貼 0

阿里千億 AI 目標：算得過來嗎？芯片、政企、Token 三重卡位決定成敗

鈦媒體APP 2026-04-10 11:58:19
0 跟貼 0
AI助力多組學與機器學習聯合分析（機器學習分析代謝組、蛋白組、宏基因組、網絡藥理學、轉錄組）

醫咖會 2026-03-05 19:27:22
0 跟貼 0

百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0

996太輕松，002極限壓榨！被AGI逼瘋的硅谷天才，正在集體逃亡

新智元 2026-04-12 10:03:21
4 跟貼 4
頂尖大模型“能力突變”，算力需求“系統性超越供給”--大摩：“市場樂觀的程度可能還不夠”

華爾街見聞官方 2026-04-11 20:16:47
11 跟貼 11

中國具身屠榜全球！10萬小時數據炸場，PI、英偉達集體破防

新智元 2026-04-12 10:02:42
0 跟貼 0
宇樹機器人再破世界紀錄，1秒10米“貼地飛”，連頭都不要了

智東西 2026-04-12 10:54:18
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
龍蝦連Gemma 4，只需三步，谷歌官方教程出爐，不再花錢買token

機器之心Pro 2026-04-10 18:36:11
82 跟貼 82
女子相親結識上海男子不料成噩夢的開始崩潰到天天哭

新聞坊 2026-04-11 19:53:29
7092 跟貼 7092
人臨終前，身體會發出這八大信號，一定別不當回事

飛鴻愛說生活 2026-04-10 09:36:13
0 跟貼 0
警惕！日本某些勢力“定制”AI反華視頻，用算法“加持”仇恨（來源：鈞正平）

學申論的談妹 2026-04-11 03:22:48
0 跟貼 0
一天僅需5毛錢，開源框架替你半夜跑實驗！7*24小時待命

新智元 2026-04-12 10:02:55
0 跟貼 0
身體出現這5個信號，是在“喊救命”，千萬別不當回事！

愛生活的小寧 2026-04-09 09:04:57
0 跟貼 0
身體發出這些信號，千萬不要忽視，早了解或許能掐尖！

蛤施街拍 2026-04-10 09:24:18
0 跟貼 0
人類首例“被恐龍咬傷事件”！男子把頭伸進恐龍模型里被卡住，當事人：沒想到它會不松口大家別跟我學 #

開屏新聞客戶端 2026-04-11 18:04:45
0 跟貼 0
疫情3年把數據科學家推上神壇，2023年LinkedIn榜單卻漏

字節漫游指南 2026-04-10 10:06:47
0 跟貼 0
097公務員考試題，選取3個數字使等式成立

我服子佩 2026-04-09 13:45:19
1 跟貼 1
數據加工的清理方式，這噴水是真的猛，一看就是專門設計的！

能把人笑沒社 2026-04-11 15:27:30
1 跟貼 1
十項促進兩岸交流合作的政策措施發布

新華社 2026-04-12 10:04:38
80 跟貼 80
PS6與Xbox新主機進度曝光！敢延期出直接OUT

游民星空 2026-04-12 11:22:01
0 跟貼 0
續航100公里僅跑30公里充電31秒電量猛漲10% 東莞網約車司機：深藍SL03虛到不敢接單

信網 2026-04-11 17:05:04
3155 跟貼 3155
他在牢里當老大，她在外頭挖坑埋了他

萌妹觀影 2026-04-08 11:19:01
1 跟貼 1
火山引擎楊立偉：汽車座艙需構建完整AI Agent架構，從功能堆砌升級為主動服務

新浪財經 2026-04-12 10:19:14
0 跟貼 0
美國大姐怒罵政客，美版算法稀爛，都想換回中國算法

搞笑小哈皮 2026-04-10 00:00:00
0 跟貼 0
售后想欺上瞞下？張雪：你明天不用來了！直接對話用戶，重塑售后

搞笑草莓 2026-04-12 03:52:21
12 跟貼 12
組裝川崎忍者模型套件

制造科技 2026-04-09 19:07:20
39 跟貼 39
湖人巨星詹姆斯真是太討厭刷數據了！

大黑愛旅游 2026-04-11 02:54:52
7 跟貼 7
喜茶、蜜雪、霸王茶姬??中國新茶飲掀起美國“淘金熱”：奶茶界“星巴克”或將出現

每日經濟新聞 2026-04-12 10:55:04
0 跟貼 0
致歉并推出補救措施：微軟針對部分Xbox手柄未附贈電池發布聲明

宗熙先生 2026-04-12 11:05:44
0 跟貼 0
愛芯元智仇肖莘：AI正從云端下沉到端側，汽車將出現統一“Agent主體”

車東西 2026-04-11 20:19:13
0 跟貼 0
充電按功率收服務費，充電算法引業主質疑

民生大參考 2026-04-11 02:16:05
0 跟貼 0
微信開啟“方言采集”返紅包活動有人累計“薅”到幾百元

極目新聞 2026-04-11 18:39:53
277 跟貼 277
常州第1、無錫第2，首輪“蘇超”積分榜來了！

江南晚報 2026-04-11 21:54:38
141 跟貼 141
083燒腦的公務員考試題，單位的問題

我服子佩 2026-04-08 17:30:54
1 跟貼 1
魏建軍談混動車2L油耗用“定語技術營銷”就是欺騙用戶！

鬼斗車 2026-04-10 16:36:52
3 跟貼 3

鈦媒體APP

獨立財經科技媒體

132115文章數 862090關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房產

游戲

公開課

軍事航空

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

AI打榜，打的是什么？

讓AI與AI互相聊天會聊出什么

理想稱遭惡意拉踩，東風日產：尊重同行

美國副總統萬斯：美伊談判未能達成協議 將返回美國

美國副總統萬斯：美伊談判未能達成協議 將返回美國

換帥之后，他們從降級區沖到升級區

46歲趙達官宣結婚！曾與殷桃談婚論嫁

三輪磋商談至深夜 美伊談判三大議題仍待解

煥新極氪007/007GT上市 限時19.39萬起

態度原創

復古風格 自然簡約

土地供應突然暴跌！2026海口樓市，格局大變！

PS3模擬器重磅進化！最接近原機體驗的更新來了

伊朗議長帶四名遇難兒童照片赴美伊談判

美國副總統萬斯：美伊談判未能達成協議將返回美國

美國副總統萬斯：美伊談判未能達成協議將返回美國

三輪磋商談至深夜美伊談判三大議題仍待解

煥新極氪007/007GT上市限時19.39萬起

復古風格自然簡約