<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      刷榜風波驚動OpenAI后,這家中國團隊拿回Agent硬核榜單第一

      0
      分享至



      編輯 | 澤南

      2026 年 AI 領域最重要的概念,可能非 Harness 莫屬。

      上個月底,Anthropic 的 AI 編程智能體 Claude Code 源代碼意外泄露,業界在圍觀之下無不發出感嘆:「Harness engineering 真是太難了。」



      作為 AI 智能體(Agent)的兩大支柱之一,大模型就像基礎,Harness 則是上層建筑。具體來說,Harness Engineering 是指圍繞 AI 智能體設計系統、約束和反饋循環,使其在生產環境中能夠可靠運行的工程學科。

      在這其中,權限與安全護欄、記憶與狀態管理、工具與工作流編排,以及自我糾錯循環的機制缺一不可。AI 領域對于 Harness 的重視,意味著 AI 技術正在告別盲盒時代,邁向了工程學的范疇。

      而在產業落地這個層面上,國內的實踐走在了前面,還率先完成了第三方的實證。

      近日,在由 OpenAI 主導設立的權威基準測試 MLE-Bench 上,企業級算法自主優化智能體百度伐謀(Famou)擊敗了各路玩家登頂,并刷新了 SOTA 成績。





      這是繼去年 10 月首次登頂后,百度伐謀的第二次領跑。這次拿下第一的是 2.0 版,預計于今年 5 月 13 日的 Create 2026 百度 AI 開發者大會上正式發布。

      與那些考常識問答、寫代碼的常規評測不同,MLE-Bench 被業內公認為是檢驗智能體「動手能力」的硬核考場。它挑選了 75 個來自頂尖數據科學平臺 Kaggle 競賽的真實工程難題,重點考察 AI 在模型訓練、數據準備、實驗運行等機器學習全流程中的端到端實戰能力。

      簡單來說,MLE-Bench 不考「單選題」,它考的是工程項目開發的應用題,需要 AI 智能體能像一位經驗豐富的人類算法工程師一樣,完成從需求理解到解法輸出的全鏈路設計,找出全局最優解。

      能在 MLE-Bench 上登頂,意味著伐謀已經超越了做題家的范疇,在解決實際工程和算法優化問題上的能力達到了頂尖水平。

      而且這次的成績「來之不易」。

      登榜風波:有關 AI 評測底線的較量

      故事要先從一場榜單風波說起。

      去年 10 月,百度伐謀團隊首次向 OpenAI 主導的 MLE-Bench 提交了 Famou Agent 的成績,以 43.56 分拿下當時的 SOTA(最優水平)。在此之前,這個硬核的機器學習工程榜單提交者寥寥,伐謀的登頂瞬間讓榜單熱鬧了起來,陸續吸引了近 10 家頂尖團隊入場角逐。

      到 12 月末,百度伐謀推出了 2.0 版本,并以 59.56 分再次登頂。

      有意思的是在這次升級中,伐謀團隊做出了一個有些反直覺的決定:他們沒有使用當時最先進的基座模型,而是繼續使用上一代的模型作為基礎。他們希望單獨驗證智能體 Harness 自身的系統進步。

      今年 2 月,在大家都還在 60 分區間苦苦掙扎時,一家名為 Disarray 的創業公司突然提交了一份 77.78 分的答卷。

      但很快 AI 社區發現了異樣之處:Disarray 的智能體在某些任務(如 GPS 定位任務)上竟然跑出了「0.0 誤差」的成績,在另一些圖像任務中也拿到了低得離譜的分數。這種幾乎不可能的成績引爆了 GitHub 討論區。

      有研究者發現,Disarray 的智能體在運行過程中會利用 MLE-Bench 機制的漏洞接收來自「私有測試集」的二值反饋信號,智能體在還沒交卷的時候,就已經提前知道了考試答案的大致方向。同時,它甚至在某些任務中直接調用了外部網絡數據。



      爭議之外,伐謀團隊決定出手,他們換上了最新 SOTA 模型作為基礎模型進行提交,最終得分:64.44 分。雖然絕對分數沒有超過利用了漏洞的 Disarray,但這個成績沒有使用私有測試集的反饋信號,也沒有使用外部網絡數據。

      3 月 23 日,MLE-Bench 官方終于做出決定,新增一個專屬的清潔賽道(No Private LB),將所有具有數據泄漏嫌疑的方法(包括 Disarray)隔離,并打上警示標簽。

      排除了干擾項后,一直堅守實驗原則、拒絕走捷徑的百度伐謀 2.0 以無可爭議的分數重回主榜榜首。

      這場榜單名次的更迭,似乎也隱喻了 AI 工程化的核心命題:在有研究團隊不斷刷分的同時,也有探索者正在踐行 Harness 的工程化思路,一步步攻克真實世界任務的壁壘。

      伐謀 2.0 為什么能贏?

      百度能夠在全球頂尖智能體的角逐中拔得頭籌并非偶然,答案就藏在那個讓整個硅谷都在熱烈討論的新詞里:Harness Engineering(系統編排工程)。

      過去幾年,AI 行業的競爭焦點集中在基礎模型上。但人們發現,在處理真實世界復雜的工程問題時,再聰明的模型如果沒有合理的系統編排與約束,還是會在長鏈條任務中失去方向,陷入死循環,或者產出無法落地的錯誤代碼。

      Harness Engineering 因此逐漸受人重視,其目標非常明確:從手工構建 AI 轉向框架驅動的演化。

      基于大模型這個「發動機」,Harness 負責管理任務的拆解、記憶存儲、試錯反饋、工具調用以及安全邊界。已有不少 AI 專業人士認為,在未來的 AI 競賽中,誰能構建出最優秀的 Harness 框架,誰就能真正把大模型的智力轉化為生產力。



      這個前沿議題也正是百度伐謀一直以來努力的方向。

      伐謀是一個讓 AI 算法自主進化、尋找全局最優解的多智能體系統,旨在高效率地解決高難度的問題。它結合了大語言模型和進化搜索算法,能夠解決復雜的現實世界問題。去年 11 月的百度世界大會上,我們已經見證了百度伐謀的技術框架和實踐成果。



      李彥宏曾表示,「只要問題的解法是明確可驗證的,伐謀就可以模擬甚至超越頂尖的算法專家。」

      在伐謀 2.0 版本上,演化策略、長程記憶機制、底層基礎設施等層面又獲得了全面優化。

      首先,伐謀執行的是多智能體并行探索模式。在面對一個新任務時,系統首先會通過多智能體并發生成多個「初始算法解」,將它們分發到不同的「島嶼」形成初始種群。隨后進入自演化階段,在分布式集群上利用大規模并行的變異與交叉機制持續迭代,不斷向全局最優解逼近。它不需要工程師手工構建每一層能力,而是讓智能體在演化中自主尋優。

      其次,伐謀升級了長程記憶機制,能讓智能體像人類工程師一樣在長鏈條任務中保持思路清晰、邏輯一致。該機制解決了大模型「做著后面忘了前面」的痛點,讓智能體能在真實世界復雜的工程任務中記住此前的分析、決策和中間結果。

      最后,通過底層基礎設施優化,伐謀實現了算法演化迭代效率的顯著提升。依托百度智能云的全棧 AI 云優化,伐謀在計算資源調度、任務并行執行、容錯恢復等方面做到了極致。底層的夯實,讓整個龐大的系統能夠「跑得穩、跑得快、跑得可靠」。

      榜單是驗證,產業是答案

      MLE-Bench 榜單的成績只是技術驗證的一角,百度伐謀其實已經在真實物理世界里解決了很多產業難題,其中不乏一些我們想象不到的案例。

      在汽車研發中,風阻系數很大程度上決定了新能源車的續航水平,但氣動驗證是一個困難的任務。傳統方法依賴于仿真軟件求解復雜的偏微分方程,單次驗證可能需要耗時 10 個小時。設計師畫完草圖,只能像「開盲盒」一樣等待工程師的反饋。

      亞洲最大的獨立汽車設計公司阿爾特,將其 AI 核心平臺與百度伐謀進行了深度結合,通過伐謀的自我演化能力,訓練出了「御風」智能預測系統。



      原本需要 10 小時的分析驗證,現在僅需數分鐘就能輸出可視化的壓力云圖及風阻系數,預測誤差被控制在 5% 以內。這種降維打擊,直接將傳統的「設計 - 驗證 - 修改」串行循環,升級成「邊設計、邊驗證」的并行協同,整車研發周期直接縮短了 25%。

      數字銀行的核心護城河是風控,而風控的生命線在于「特征挖掘」。中信百信銀行將伐謀智能體引入了核心風控體系。在這里,伐謀作為一位不知疲倦的「策略演化大師」,利用高維數據感知能力,7×24 小時在海量數據中挖掘風險特征,在極短時間內達到了專業數據工程師的水平。

      實戰結果令人矚目:伐謀不僅將特征挖掘效率提升了 100%,還精準抓取到了人類極易忽略的高價值特征,使風控模型的風險區分度提升了 2.41%。這意味著銀行能在可控風險內更精準地篩選出優質客戶,拓寬普惠金融的邊界。

      更進一步,伐謀解決復雜問題的能力不僅落地在工業上,也在推動前沿科研范式的升級。

      北京工業大學將百度伐謀引入到了中國空間站微型空氣質量監測設備的研發中。面對核心部件「氣相色譜柱」的流場均勻性難題,伐謀通過自我演化打破了人類常規的設計極限,找出了更小構型、更緊密排列的最優解,極大提升了氣體分離效率。

      天津大學則將其應用于災害預測與預警模型選優(如滑坡位移預測、結構面巖爆)。過去依賴人工串行試驗、動輒以「周」為單位的選優周期,被伐謀直接壓縮到了 6 個小時。

      通過 AI 的幫助,人類專家終于得以從枯燥的手動試錯中解放出來,回歸科研的本質 —— 定義科學問題、產出新規律。而那些最困難、最耗時的算法演化與龐雜計算,正在全面交由智能體去完成。

      結語

      從百度伐謀的實踐我們或許可以看出,Harness Engineering 正在成為下一代 AI 工程化的分水嶺。

      通過大量實際任務的驗證,伐謀證明了一套完整的 AI 智能體架構,不再需要人類工程師去手工編寫每一層規則,而是可以放手讓其在自我演化中尋找最優解。

      當 AI 競賽從模型層卷向框架層,國內 AI 團隊在實踐領域的持續深耕正在定義工程化的范式。新一代的生產力,正在真實戰場上解決「最難的問題」。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      體制內一片祥和,體制外哀鴻遍野

      體制內一片祥和,體制外哀鴻遍野

      黯泉
      2026-04-12 20:14:45
      快訊!鄭麗文太讓人吃驚了!

      快訊!鄭麗文太讓人吃驚了!

      達文西看世界
      2026-04-12 19:38:07
      昆凌素顏化妝畫面曝光!五官變化大到離譜,周杰倫見了都得愣三秒

      昆凌素顏化妝畫面曝光!五官變化大到離譜,周杰倫見了都得愣三秒

      觀魚聽雨
      2026-04-12 20:28:25
      地鐵上見過最絕色的女人,太美了吧

      地鐵上見過最絕色的女人,太美了吧

      草莓解說體育
      2026-04-12 21:17:17
      內塔尼亞胡,將重新接受刑事審判?

      內塔尼亞胡,將重新接受刑事審判?

      大風新聞
      2026-04-12 19:55:16
      31歲!維金斯徹底進化!交易市場又一香餑餑

      31歲!維金斯徹底進化!交易市場又一香餑餑

      籃球實戰寶典
      2026-04-12 22:45:40
      急了眼了!阿聯酋命令巴基斯坦,35億美元必須馬上還清

      急了眼了!阿聯酋命令巴基斯坦,35億美元必須馬上還清

      頭條爆料007
      2026-04-11 18:33:48
      特朗普稱封鎖霍爾木茲海峽“需要一點時間”

      特朗普稱封鎖霍爾木茲海峽“需要一點時間”

      界面新聞
      2026-04-12 22:53:05
      伊朗不接受美國“紅線”,美伊談判在“不信任和猜疑”中無果而終

      伊朗不接受美國“紅線”,美伊談判在“不信任和猜疑”中無果而終

      上觀新聞
      2026-04-12 16:24:15
      耶魯大學教授夸贊特朗普:他像狐貍一樣聰明,很多決策都是理性的

      耶魯大學教授夸贊特朗普:他像狐貍一樣聰明,很多決策都是理性的

      爆角追蹤
      2026-04-12 13:15:47
      如何優雅地謀殺一座城:陳麗華的推土機與華新民的廢紙

      如何優雅地謀殺一座城:陳麗華的推土機與華新民的廢紙

      有戲
      2026-04-11 09:21:04
      馬伊琍官宣喜訊不到24小時,文章高調求復合姚笛才是笑到最后

      馬伊琍官宣喜訊不到24小時,文章高調求復合姚笛才是笑到最后

      智慧生活筆記
      2026-04-12 16:43:48
      理想稱遭某品牌惡意拉踩將追究法律責任,東風日產回應:尊重同行

      理想稱遭某品牌惡意拉踩將追究法律責任,東風日產回應:尊重同行

      澎湃新聞
      2026-04-12 04:46:55
      匈牙利國會選舉開始投票

      匈牙利國會選舉開始投票

      界面新聞
      2026-04-12 12:37:35
      長談21小時未果,萬斯離開前豎大拇指,特朗普關鍵時刻看格斗賽 ,伊朗:不著急

      長談21小時未果,萬斯離開前豎大拇指,特朗普關鍵時刻看格斗賽 ,伊朗:不著急

      紅星新聞
      2026-04-12 15:44:23
      3人同日發聲!特朗普:美國“贏了”;佩澤希齊揚:以勇敢的態度進行談判;內塔尼亞胡:對伊打擊尚未結束

      3人同日發聲!特朗普:美國“贏了”;佩澤希齊揚:以勇敢的態度進行談判;內塔尼亞胡:對伊打擊尚未結束

      大象新聞
      2026-04-12 09:45:02
      缺兵少將廣東憑啥還能掀翻廣廈!數據一目了然,最大功臣是這4人

      缺兵少將廣東憑啥還能掀翻廣廈!數據一目了然,最大功臣是這4人

      后仰大風車
      2026-04-12 21:41:54
      美國之恥:30分鐘滾出去。伊朗利用狼群戰術,將美軍逼出霍爾木茲

      美國之恥:30分鐘滾出去。伊朗利用狼群戰術,將美軍逼出霍爾木茲

      梁訊
      2026-04-12 14:59:13
      我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

      我敢說,大部分會跟我一樣,選擇黑色衣服那個女孩!

      草莓解說體育
      2026-04-12 17:05:01
      網盤禁止分享美劇?天塌了

      網盤禁止分享美劇?天塌了

      來看美劇
      2026-04-12 16:08:02
      2026-04-12 23:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12732文章數 142623關注度
      往期回顧 全部

      科技要聞

      理想稱遭惡意拉踩,東風日產:尊重同行

      頭條要聞

      特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

      頭條要聞

      特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

      體育要聞

      創造歷史!五大聯賽首位女性主教練誕生

      娛樂要聞

      賭王女兒何超蕸病逝,常年和乳癌斗爭

      財經要聞

      美伊談判破裂的三大癥結

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      健康
      親子
      教育
      藝術
      時尚

      干細胞抗衰4大誤區,90%的人都中招

      親子要聞

      “晚上疼得睡不著”!8歲女童雙眼、身上被灼傷!警惕這東西,不少人家里有

      教育要聞

      高中地理必會知識點115條全梳理

      藝術要聞

      山東第一高樓即將完工!濟南CBD,顏值爆表!

      被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

      無障礙瀏覽 進入關懷版