<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI打榜,打的是什么?

      讓AI與AI互相聊天會聊出什么

      0
      分享至

      文 | 利昂先生

      2026年2月3日,MLE-Bench的GitHub討論區炸了。

      激烈程度對這個以較量AI Agent機器學習水平的垂直領域來說,簡直是破天荒的頭一次。

      話題源自一家名叫Disarray的創業公司提交了一個77.78分的成績。

      這個數字本身沒什么——但如果看到,此前全球多個頂尖團隊在長達數月的拉鋸中,成績始終在60分上下苦苦掙扎,就會知道這并不簡單。

      高手過招,往往精確到每一個百分點。

      而Disarray憑空跳開的近20分,讓一場關于benchmark本質的論戰,就此拉開。

      機器學習界的“鐵人三項”

      MLE-Bench,全稱Machine Learning Engineering Benchmark,由OpenAI推出。它不是為了測試模型會不會聊天、會不會寫詩,而是測試AI Agent能不能像一個真正的機器學習工程師那樣,獨立完成一整套數據競賽任務。

      整個體系可以理解為機器學習界的“鐵人三項”——

      考題是70多道真實的Kaggle(全球數據科學家和機器學習愛好者的頂級競技平臺)競賽題,每一道題都來自過去十年里全球數據科學家真刀真槍比拼過的賽場:從房價預測到圖像識別,從GPS定位到狗品種分類。Agent需要自己理解問題、清洗數據、特征工程、調模型、集成——全套流程,沒人幫忙。

      更狠的是,每道題要跑3次,取平均。一次完整的榜單提交,光算力成本就高達數萬美元,時間要耗上好幾周。

      所以這個榜單從來不是熱鬧的游樂場——它門檻高、成本高、參與者少,但每一個上榜的分數,都沉甸甸的。

      自2025年9月以來,這個此前提交不多的榜單突然熱鬧起來,陸續有近10家選手沖了進來。大家你追我趕,分數從40多分艱難地爬到了60出頭。每一分的提升,背后都是Agent架構的實質性突破。

      然后,Disarray來了。

      一場有漏洞的考試

      MLE-Bench與真實Kaggle競賽略有不同。

      真實的Kaggle競賽中,選手提交模型后,主辦方會用一套“私有測試集”來打分。這套數據選手永遠看不到,只能通過公開榜的分數來間接猜測自己的表現。這叫“閉卷”,目的是防止有人針對答案做優化。

      但MLE-Bench拿不到真正的私有測試集。于是OpenAI做了一個妥協:把原本完全公開的數據集拆成兩份,一份繼續叫“公開測試集”,另一份假裝成“私有測試集”。

      可是問題來了:這兩份數據,都曾經在網上出現過。

      這就好比老師把一本練習冊拆成兩半,說一半是“作業”,另一半是“考試題”——但學生早就把整本練習冊做過一遍了。只要Agent足夠“會搜索”,理論上就能提前找到所有“考試題”的答案。

      Disarray的Agent,恰好踩在了這個漏洞上。

      他們在dog-breed-identification這道題上跑出了接近0.00x的極低分數(這個指標越低越好),原因是Agent自己發現了Kaggle比賽和Stanford Dogs數據集之間的關系,直接用了外部數據。

      在另一道GPS任務上,他們甚至跑出了0.0分——誤差為零,這在物理上幾乎不可能,除非Agent提前知道了“標準答案”。

      但爭議的核心還不止于此。

      一個比特的信號,夠不夠“作弊”?

      比“提前找到數據”更微妙的,是Agent在答題過程中能不能收到來自“考試題”的反饋。

      Disarray團隊承認,他們的Agent在運行中會收到一個極其簡單的信號——二選一:“你目前的表現夠得上一塊銅牌嗎?是或否。”

      這個信號只有一個比特的信息量,聽起來很小。

      但關鍵不在于信號大小,而在于它來自哪里。它就來自那份被當作“私有測試集”的數據。

      換句話說,Agent每跑完一個階段,系統就會告訴它:你現在用這套“考試題”自測,已經達到銅牌水平了——或者還沒有。

      這就好比一個學生在做期末考試卷的時候,老師每隔十分鐘就過來看一眼,說:“你現在離及格還差一點”“你現在已經及格了”。雖然沒告訴他具體哪道題錯了,但這個信息本身就足以讓他決定:是繼續死磕這道題,還是趕緊換下一道。

      一位長期關注AI評估范式的社區資深貢獻者,AtrixTang把這個比喻說得更狠:這就像用期末考試題當隨堂測驗的題目,學生一邊做一邊收到反饋,然后拿著同樣的題目參加期末考試。

      他說,Kaggle的類比不成立——因為真實競賽中,公開榜和私有榜用的是完全不同的數據。


      圖注:如果agent在“提前終止/重試信號”和“最終評估”中都使用相同的私有測試集,那么嚴格來講,這就構成了測試集泄露。

      而MLE-Bench用同一套數據既給反饋又做最終評分,這就是典型的“測試集泄漏”。

      AtrixTang主張拆成兩個榜:一個嚴格不給任何反饋(Standard Track),一個允許反饋(Oracle Track),讓觀眾自己判斷哪個更有意義。

      論戰的七種立場

      PR #118(Disarray的提交結果的頁面,編號為#118)的評論區成了一面棱鏡,折射出整個社區對“什么才是公平測量”的理解裂痕。

      Disarray提交者“moustafa-a”堅持,Disarray是按現有規則跑的,沒有改任何考試流程。他還強調,那個“是/否”信號只是一個資源管理工具——告訴Agent要不要繼續花錢跑下去,不是什么定向優化。

      “dorx”作為Disarray團隊核心發言人,承認了兩件事:GPS任務的0.0分確實利用了benchmark已知的一個漏洞;狗品種識別用了外部數據。但她把這解釋為“跨任務學習能力”,不是作弊。


      圖注:按照標準慣例,在開發過程中,代理程序在任何時候都不能訪問私有測試數據。代理程序唯一能收到關于測試數據的反饋是在它們請求提前終止(為了有效利用資源)時,此時它們會得知自己是否達到了銅牌門檻。

      alexwang939393是最早提出系統性疑問的人。他不糾纏細節,直接把問題拋給benchmark的初衷:這些高分,測的到底是不是“機器學習工程能力”?


      圖注:作為參考,沒有使用外部數據的最先進模型通常能達到約0.2-0.3的分數。第三組(0.00755)與第一組/第二組(約0.04)之間的巨大差距也值得注意。

      thesofakillers身份特殊——他是MLE-Bench此前的作者。他的態度很微妙:當前考試確實有漏洞,利用這些漏洞“可以接受,但不理想”。他建議在榜單上加個腳注說明情況。

      AtrixTang態度最堅決:只要用了秘密數據的反饋,不管信號多微弱,就不該和沒用過的人放在同一個榜單上。

      機器學習領域研究者“RishiHazra”和社區開發者“ariesadel”則更強硬:這種提交根本不該上榜。信任是benchmark的核心,一旦有人用測試集反饋優化,整個排名就失去了意義。

      joe-needham作為OpenAI現任研究員、MLE-Bench的維護者,態度最務實。他承認目前榜單靠“信任”維持,因為倉庫無法驗證每個提交的細節。最終,他還是把這個有爭議的結果合并進了主榜——但為后來的調整埋下了伏筆。

      用“笨辦法”的團隊

      在這場喧囂中,有一支團隊的選擇顯得格外安靜,甚至有點“不合時宜”。

      百度伐謀團隊在2025年10月10日第一次提交結果,得分43.56,已經是當時的SOTA。此后榜單逐漸熱鬧,近10家選手陸續入場。

      2025年12月27日,他們做了一個不太好理解的決定——當時最先進的gemini-pro-3.0模型已經可用,但他們沒有換,而是繼續用上一代的gemini-pro-2.5。

      原因很簡單:他們想搞清楚Agent自身的能力到底提升了多少。從1.0版本到2.0版本,Agent架構做了一次大升級。如果同時換模型,成績的提升就說不清楚是模型的功勞還是Agent的功勞了。

      這就好比你想測試一個新訓練方法對運動員成績的影響——如果同時給運動員換一雙更高級的跑鞋,你就說不清楚成績提升到底是訓練方法的功勞,還是跑鞋的功勞。

      59.56分,新SOTA。

      這個數字證明了Agent層優化的有效性。但代價是他們的分數看起來“不夠高”——因為別人可能既優化了Agent,又用了更好的模型,還用了額外數據。

      打一次榜成本太高了,高到任何“取巧”都有巨大的誘惑。

      但百度伐謀的選擇是:寧可慢,也要把每一分提升的來源搞清楚。這種“笨辦法”在工業界叫“可解釋性”——你不僅要知道自己跑得快,還要知道為什么跑得快。

      一次對照實驗

      Disarray的77.78分出來之后,百度伐謀團隊沒有急于質疑,也沒有跟風模仿。他們做了一件很“工業界”的事:設計對照實驗。

      他們決定換成最新模型gemini-pro-3.0再試一次,但其他條件保持不變——不用私有測試集的反饋信號,不用外部網絡數據,不利用任何已知漏洞。Agent只能老老實實地根據給定的訓練數據去學習和優化。

      為什么這么“軸”?這可能與百度伐謀的定位有關。

      作為百度智能云推出的全球首個可商用的自我演化超級智能體,百度伐謀瞄準的是幫助真實世界優化算法,尤其是那些關系國計民生的場景里找到最優解。

      而在真實世界里,你不可能提前拿到“未來數據”:做一個銷量預測模型,你不可能把未來七天的真實銷量告訴Agent,讓它根據這個反饋去調整。做一個推薦系統,你不可能提前知道用戶明天會點什么。

      在真實世界里,沒有“銅牌閾值”信號,沒有“再試一次”的機會,沒有“偷偷上網找答案”的可能。

      2026年2月23日,他們提交了64.44分。這個分數與Disarray的77.78依舊有差距。

      但這是一個在“不偷看答案、不收反饋信號、不上網搜數據”的規則下跑出來的分數——它的含金量,參照系完全不同。

      一個AI榜單的自我修養

      2026年3月23日,MLE-Bench倉庫新增了一個專門的賽道,名字很直白:“添加數據泄漏說明”。有數據泄漏嫌疑的選手被移到了第二個榜單,旁邊加了腳注說明。


      圖注:與主排行榜不可直接比較的額外提交(小孩兒那桌?)

      維護者的選擇是“先收錄,但加警示”——不是直接把Disarray的成績刪掉,而是通過信息披露讓觀眾自己判斷。這是一種務實的妥協,但客觀上完成了一次矯正。

      百度伐謀2.0版本作為無數據泄漏嫌疑的選手,重回主榜榜首。


      圖注:MLE-bench主榜,百度伐謀位列第一

      這個結果耐人尋味。

      它可能也不意味著Disarray的技術不優秀——比如,他們對考試規則的理解非常深刻,甚至找到了出題人自己都沒發現的漏洞。

      但“能做到什么”和“應該測量什么”是兩個不同的問題。

      當百度伐謀團隊選擇不用最新模型、不用秘密數據反饋、不用外部數據的時候,他們其實在做一個更根本的承諾:benchmark的價值,在于模擬真實世界的約束。而在這個約束下持續提升Agent的能力,才是硬核技術的真正含義。

      這不是關于道德優越感。

      這是關于:在一個榜單泛濫、信任稀缺的時代,什么樣的測量才值得被記住。

      答案或許很簡單:那個愿意對測量本身保持敬畏的榜單,那個不是為了刷分而是為了解決問題的團隊。

      他們贏得的,不只是排名。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      總理去世,毛遠新問:誰當總理合適?毛主席說:還是他比較好一些

      總理去世,毛遠新問:誰當總理合適?毛主席說:還是他比較好一些

      鍋鍋愛歷史
      2026-04-11 18:21:06
      親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對生死的認知

      親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對生死的認知

      古怪奇談錄
      2025-09-09 14:36:35
      CBA排名一夜大亂!廣州殺進第12,又有黑馬搶前4,廣東這下更難了

      CBA排名一夜大亂!廣州殺進第12,又有黑馬搶前4,廣東這下更難了

      后仰大風車
      2026-04-11 22:55:36
      剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

      剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

      復轉這些年
      2026-04-01 09:17:19
      小學生在學校附近被撞身亡

      小學生在學校附近被撞身亡

      新快報新聞
      2026-04-11 16:12:08
      職稱倒查30年,有問題的正高、副高,追繳不正當待遇追究法律責任

      職稱倒查30年,有問題的正高、副高,追繳不正當待遇追究法律責任

      馬蹄燙嘴說美食
      2026-04-11 13:09:52
      腳痛醫頭?楊世元突然“腦震蕩”!前國腳質疑,申花教練當場申訴

      腳痛醫頭?楊世元突然“腦震蕩”!前國腳質疑,申花教練當場申訴

      足球大腕
      2026-04-12 00:34:50
      若曼城剩余英超比賽全勝,英超冠軍歸屬可能通過凈勝球決定

      若曼城剩余英超比賽全勝,英超冠軍歸屬可能通過凈勝球決定

      懂球帝
      2026-04-11 22:00:12
      為了鄭麗文專機能順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

      為了鄭麗文專機能順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

      混沌錄
      2026-04-09 16:05:22
      誰能告訴蔚來,別再造旗艦了

      誰能告訴蔚來,別再造旗艦了

      青橙汽車
      2026-04-10 16:36:45
      國行居然也有!馬斯克推出首款仿微信聊天應用 XChat

      國行居然也有!馬斯克推出首款仿微信聊天應用 XChat

      XCiOS俱樂部
      2026-04-11 19:23:43
      白銀連環殺人兇手高承勇:為兒子前途收手,被捕后兒子被單位辭退

      白銀連環殺人兇手高承勇:為兒子前途收手,被捕后兒子被單位辭退

      就一點
      2026-03-17 16:10:56
      0-1負申花!海港折損4主力,楊世元“神操作”致衛冕夢碎?

      0-1負申花!海港折損4主力,楊世元“神操作”致衛冕夢碎?

      阿晞體育
      2026-04-12 11:37:57
      你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

      你最接近生理極限的一次經歷是什么?網友分享讓人目瞪口呆!

      夜深愛雜談
      2026-04-09 19:39:13
      以色列襲擊黎巴嫩被譴責,內塔尼亞胡:“以軍是世界上最有道德的軍隊”;此前以色列對黎巴嫩發動襲擊,造成包括兒童在內數百名平民死傷

      以色列襲擊黎巴嫩被譴責,內塔尼亞胡:“以軍是世界上最有道德的軍隊”;此前以色列對黎巴嫩發動襲擊,造成包括兒童在內數百名平民死傷

      揚子晚報
      2026-04-11 11:33:21
      老人不死孩子遭罪,如果八九十歲的雙親還在,要牢記這三條準則

      老人不死孩子遭罪,如果八九十歲的雙親還在,要牢記這三條準則

      三農老歷
      2026-04-11 15:34:40
      張大千:國家的錢怎么能用來幫私人還債,由此拒絕回歸大陸

      張大千:國家的錢怎么能用來幫私人還債,由此拒絕回歸大陸

      南極狼人
      2026-04-11 19:00:11
      4-2沖冠,完爆日本張本智和,3-1:溫瑞博強勢逆轉日本篠塚大登

      4-2沖冠,完爆日本張本智和,3-1:溫瑞博強勢逆轉日本篠塚大登

      畫夕
      2026-04-12 10:12:38
      美國爆出丑聞:美軍真實傷亡慘烈,政府或故意隱瞞,全美熱議!

      美國爆出丑聞:美軍真實傷亡慘烈,政府或故意隱瞞,全美熱議!

      基斯默默
      2026-04-10 22:58:18
      臉腫了!弗洛倫蒂諾遭當眾拒絕,皇馬 1.6 億目標被死死鎖死

      臉腫了!弗洛倫蒂諾遭當眾拒絕,皇馬 1.6 億目標被死死鎖死

      瀾歸序
      2026-04-12 05:09:40
      2026-04-12 12:31:00
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經科技媒體
      132115文章數 862090關注度
      往期回顧 全部

      科技要聞

      理想稱遭惡意拉踩,東風日產:尊重同行

      頭條要聞

      美國副總統萬斯:美伊談判未能達成協議 將返回美國

      頭條要聞

      美國副總統萬斯:美伊談判未能達成協議 將返回美國

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      46歲趙達官宣結婚!曾與殷桃談婚論嫁

      財經要聞

      三輪磋商談至深夜 美伊談判三大議題仍待解

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      家居
      房產
      游戲
      公開課
      軍事航空

      家居要聞

      復古風格 自然簡約

      房產要聞

      土地供應突然暴跌!2026海口樓市,格局大變!

      PS3模擬器重磅進化!最接近原機體驗的更新來了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗議長帶四名遇難兒童照片赴美伊談判

      無障礙瀏覽 進入關懷版