<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      刷榜風波驚動OpenAI后,這家中國團隊拿回Agent硬核榜單第一

      0
      分享至



      編輯 | 澤南

      2026 年 AI 領域最重要的概念,可能非 Harness 莫屬。

      上個月底,Anthropic 的 AI 編程智能體 Claude Code 源代碼意外泄露,業界在圍觀之下無不發出感嘆:「Harness engineering 真是太難了。」



      作為 AI 智能體(Agent)的兩大支柱之一,大模型就像基礎,Harness 則是上層建筑。具體來說,Harness Engineering 是指圍繞 AI 智能體設計系統、約束和反饋循環,使其在生產環境中能夠可靠運行的工程學科。

      在這其中,權限與安全護欄、記憶與狀態管理、工具與工作流編排,以及自我糾錯循環的機制缺一不可。AI 領域對于 Harness 的重視,意味著 AI 技術正在告別盲盒時代,邁向了工程學的范疇。

      而在產業落地這個層面上,國內的實踐走在了前面,還率先完成了第三方的實證。

      近日,在由 OpenAI 主導設立的權威基準測試 MLE-Bench 上,企業級算法自主優化智能體百度伐謀(Famou)擊敗了各路玩家登頂,并刷新了 SOTA 成績。





      這是繼去年 10 月首次登頂后,百度伐謀的第二次領跑。這次拿下第一的是 2.0 版,預計于今年 5 月 13 日的 Create 2026 百度 AI 開發者大會上正式發布。

      與那些考常識問答、寫代碼的常規評測不同,MLE-Bench 被業內公認為是檢驗智能體「動手能力」的硬核考場。它挑選了 75 個來自頂尖數據科學平臺 Kaggle 競賽的真實工程難題,重點考察 AI 在模型訓練、數據準備、實驗運行等機器學習全流程中的端到端實戰能力。

      簡單來說,MLE-Bench 不考「單選題」,它考的是工程項目開發的應用題,需要 AI 智能體能像一位經驗豐富的人類算法工程師一樣,完成從需求理解到解法輸出的全鏈路設計,找出全局最優解。

      能在 MLE-Bench 上登頂,意味著伐謀已經超越了做題家的范疇,在解決實際工程和算法優化問題上的能力達到了頂尖水平。

      而且這次的成績「來之不易」。

      登榜風波:有關 AI 評測底線的較量

      故事要先從一場榜單風波說起。

      去年 10 月,百度伐謀團隊首次向 OpenAI 主導的 MLE-Bench 提交了 Famou Agent 的成績,以 43.56 分拿下當時的 SOTA(最優水平)。在此之前,這個硬核的機器學習工程榜單提交者寥寥,伐謀的登頂瞬間讓榜單熱鬧了起來,陸續吸引了近 10 家頂尖團隊入場角逐。

      到 12 月末,百度伐謀推出了 2.0 版本,并以 59.56 分再次登頂。

      有意思的是在這次升級中,伐謀團隊做出了一個有些反直覺的決定:他們沒有使用當時最先進的基座模型,而是繼續使用上一代的模型作為基礎。他們希望單獨驗證智能體 Harness 自身的系統進步。

      今年 2 月,在大家都還在 60 分區間苦苦掙扎時,一家名為 Disarray 的創業公司突然提交了一份 77.78 分的答卷。

      但很快 AI 社區發現了異樣之處:Disarray 的智能體在某些任務(如 GPS 定位任務)上竟然跑出了「0.0 誤差」的成績,在另一些圖像任務中也拿到了低得離譜的分數。這種幾乎不可能的成績引爆了 GitHub 討論區。

      有研究者發現,Disarray 的智能體在運行過程中會利用 MLE-Bench 機制的漏洞接收來自「私有測試集」的二值反饋信號,智能體在還沒交卷的時候,就已經提前知道了考試答案的大致方向。同時,它甚至在某些任務中直接調用了外部網絡數據。



      爭議之外,伐謀團隊決定出手,他們換上了最新 SOTA 模型作為基礎模型進行提交,最終得分:64.44 分。雖然絕對分數沒有超過利用了漏洞的 Disarray,但這個成績沒有使用私有測試集的反饋信號,也沒有使用外部網絡數據。

      3 月 23 日,MLE-Bench 官方終于做出決定,新增一個專屬的清潔賽道(No Private LB),將所有具有數據泄漏嫌疑的方法(包括 Disarray)隔離,并打上警示標簽。

      排除了干擾項后,一直堅守實驗原則、拒絕走捷徑的百度伐謀 2.0 以無可爭議的分數重回主榜榜首。

      這場榜單名次的更迭,似乎也隱喻了 AI 工程化的核心命題:在有研究團隊不斷刷分的同時,也有探索者正在踐行 Harness 的工程化思路,一步步攻克真實世界任務的壁壘。

      伐謀 2.0 為什么能贏?

      百度能夠在全球頂尖智能體的角逐中拔得頭籌并非偶然,答案就藏在那個讓整個硅谷都在熱烈討論的新詞里:Harness Engineering(系統編排工程)。

      過去幾年,AI 行業的競爭焦點集中在基礎模型上。但人們發現,在處理真實世界復雜的工程問題時,再聰明的模型如果沒有合理的系統編排與約束,還是會在長鏈條任務中失去方向,陷入死循環,或者產出無法落地的錯誤代碼。

      Harness Engineering 因此逐漸受人重視,其目標非常明確:從手工構建 AI 轉向框架驅動的演化。

      基于大模型這個「發動機」,Harness 負責管理任務的拆解、記憶存儲、試錯反饋、工具調用以及安全邊界。已有不少 AI 專業人士認為,在未來的 AI 競賽中,誰能構建出最優秀的 Harness 框架,誰就能真正把大模型的智力轉化為生產力。



      這個前沿議題也正是百度伐謀一直以來努力的方向。

      伐謀是一個讓 AI 算法自主進化、尋找全局最優解的多智能體系統,旨在高效率地解決高難度的問題。它結合了大語言模型和進化搜索算法,能夠解決復雜的現實世界問題。去年 11 月的百度世界大會上,我們已經見證了百度伐謀的技術框架和實踐成果。



      李彥宏曾表示,「只要問題的解法是明確可驗證的,伐謀就可以模擬甚至超越頂尖的算法專家。」

      在伐謀 2.0 版本上,演化策略、長程記憶機制、底層基礎設施等層面又獲得了全面優化。

      首先,伐謀執行的是多智能體并行探索模式。在面對一個新任務時,系統首先會通過多智能體并發生成多個「初始算法解」,將它們分發到不同的「島嶼」形成初始種群。隨后進入自演化階段,在分布式集群上利用大規模并行的變異與交叉機制持續迭代,不斷向全局最優解逼近。它不需要工程師手工構建每一層能力,而是讓智能體在演化中自主尋優。

      其次,伐謀升級了長程記憶機制,能讓智能體像人類工程師一樣在長鏈條任務中保持思路清晰、邏輯一致。該機制解決了大模型「做著后面忘了前面」的痛點,讓智能體能在真實世界復雜的工程任務中記住此前的分析、決策和中間結果。

      最后,通過底層基礎設施優化,伐謀實現了算法演化迭代效率的顯著提升。依托百度智能云的全棧 AI 云優化,伐謀在計算資源調度、任務并行執行、容錯恢復等方面做到了極致。底層的夯實,讓整個龐大的系統能夠「跑得穩、跑得快、跑得可靠」。

      榜單是驗證,產業是答案

      MLE-Bench 榜單的成績只是技術驗證的一角,百度伐謀其實已經在真實物理世界里解決了很多產業難題,其中不乏一些我們想象不到的案例。

      在汽車研發中,風阻系數很大程度上決定了新能源車的續航水平,但氣動驗證是一個困難的任務。傳統方法依賴于仿真軟件求解復雜的偏微分方程,單次驗證可能需要耗時 10 個小時。設計師畫完草圖,只能像「開盲盒」一樣等待工程師的反饋。

      亞洲最大的獨立汽車設計公司阿爾特,將其 AI 核心平臺與百度伐謀進行了深度結合,通過伐謀的自我演化能力,訓練出了「御風」智能預測系統。



      原本需要 10 小時的分析驗證,現在僅需數分鐘就能輸出可視化的壓力云圖及風阻系數,預測誤差被控制在 5% 以內。這種降維打擊,直接將傳統的「設計 - 驗證 - 修改」串行循環,升級成「邊設計、邊驗證」的并行協同,整車研發周期直接縮短了 25%。

      數字銀行的核心護城河是風控,而風控的生命線在于「特征挖掘」。中信百信銀行將伐謀智能體引入了核心風控體系。在這里,伐謀作為一位不知疲倦的「策略演化大師」,利用高維數據感知能力,7×24 小時在海量數據中挖掘風險特征,在極短時間內達到了專業數據工程師的水平。

      實戰結果令人矚目:伐謀不僅將特征挖掘效率提升了 100%,還精準抓取到了人類極易忽略的高價值特征,使風控模型的風險區分度提升了 2.41%。這意味著銀行能在可控風險內更精準地篩選出優質客戶,拓寬普惠金融的邊界。

      更進一步,伐謀解決復雜問題的能力不僅落地在工業上,也在推動前沿科研范式的升級。

      北京工業大學將百度伐謀引入到了中國空間站微型空氣質量監測設備的研發中。面對核心部件「氣相色譜柱」的流場均勻性難題,伐謀通過自我演化打破了人類常規的設計極限,找出了更小構型、更緊密排列的最優解,極大提升了氣體分離效率。

      天津大學則將其應用于災害預測與預警模型選優(如滑坡位移預測、結構面巖爆)。過去依賴人工串行試驗、動輒以「周」為單位的選優周期,被伐謀直接壓縮到了 6 個小時。

      通過 AI 的幫助,人類專家終于得以從枯燥的手動試錯中解放出來,回歸科研的本質 —— 定義科學問題、產出新規律。而那些最困難、最耗時的算法演化與龐雜計算,正在全面交由智能體去完成。

      結語

      從百度伐謀的實踐我們或許可以看出,Harness Engineering 正在成為下一代 AI 工程化的分水嶺。

      通過大量實際任務的驗證,伐謀證明了一套完整的 AI 智能體架構,不再需要人類工程師去手工編寫每一層規則,而是可以放手讓其在自我演化中尋找最優解。

      當 AI 競賽從模型層卷向框架層,國內 AI 團隊在實踐領域的持續深耕正在定義工程化的范式。新一代的生產力,正在真實戰場上解決「最難的問題」。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準時出海

      最后時刻簽了,高市將全面梭哈?中日航班已停飛,解放軍準時出海

      孤單是寂寞的毒
      2026-04-24 16:45:41
      斯諾克世錦賽!四強賽對陣出爐,趙心童將戰墨菲,比賽時間確定

      斯諾克世錦賽!四強賽對陣出爐,趙心童將戰墨菲,比賽時間確定

      楊仔述
      2026-04-26 21:53:19
      不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

      不出 5 年,中國貶值最快的不是房子和現金,而是這 3 樣東西

      細說職場
      2026-04-26 21:04:20
      馬拉松迎來歷史性突破,肯尼亞選手薩維實現“破2”

      馬拉松迎來歷史性突破,肯尼亞選手薩維實現“破2”

      澎湃新聞
      2026-04-26 18:46:26
      白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

      白宮晚宴槍擊案全網最全細節:特工疑與槍手互開數槍,特朗普在臺上十分淡定

      爆角追蹤
      2026-04-26 10:29:13
      55歲雙上市公司前董事長涉美強奸,27歲女方身份及細節曝光

      55歲雙上市公司前董事長涉美強奸,27歲女方身份及細節曝光

      老貓觀點
      2026-04-26 07:16:17
      中超積分榜:川渝繼續領跑,申花第5,津門虎據脫離降級區4分

      中超積分榜:川渝繼續領跑,申花第5,津門虎據脫離降級區4分

      懂球帝
      2026-04-26 21:58:38
      上海地鐵沖突事件后續!兩女互毆被行拘 身份被扒,原因曝光太意外

      上海地鐵沖突事件后續!兩女互毆被行拘 身份被扒,原因曝光太意外

      小鋭有話說
      2026-04-26 23:39:45
      印尼的豪賭大潰敗,給全世界提了個醒:中國行我也行,純粹是幻覺

      印尼的豪賭大潰敗,給全世界提了個醒:中國行我也行,純粹是幻覺

      補懂事的孩紙
      2026-04-26 22:52:27
      白宮記者晚宴發生槍擊后!特朗普再提宴會廳建設

      白宮記者晚宴發生槍擊后!特朗普再提宴會廳建設

      看看新聞Knews
      2026-04-26 23:40:06
      結束了!杜蘭特退出G4!曝火箭已經內部動蕩

      結束了!杜蘭特退出G4!曝火箭已經內部動蕩

      籃球實戰寶典
      2026-04-27 05:37:34
      沒時間了,小哈梅開始放權,伊朗最多堅持60天,中方給出強烈預警

      沒時間了,小哈梅開始放權,伊朗最多堅持60天,中方給出強烈預警

      軍機Talk
      2026-04-26 17:10:59
      感動 丁俊暉出局后祝福趙心童:他比誰都強 看好他世錦賽破咒衛冕

      感動 丁俊暉出局后祝福趙心童:他比誰都強 看好他世錦賽破咒衛冕

      我愛英超
      2026-04-26 22:38:31
      世錦賽戰報:吳宜澤4-4,連爆大冷,3位80后大滿貫得主都被逼平了

      世錦賽戰報:吳宜澤4-4,連爆大冷,3位80后大滿貫得主都被逼平了

      求球不落諦
      2026-04-26 20:17:11
      天助川普,伊朗要遭殃了

      天助川普,伊朗要遭殃了

      西樓飲月
      2026-04-26 23:14:22
      被賣緬甸女大學生后續:園區同意放人,黑幕曝光,父親覺得不對勁

      被賣緬甸女大學生后續:園區同意放人,黑幕曝光,父親覺得不對勁

      云舟史策
      2026-04-26 17:10:28
      CBA官方:賀希寧首次當選常規賽MVP+入選一陣 成深圳隊史首人

      CBA官方:賀希寧首次當選常規賽MVP+入選一陣 成深圳隊史首人

      醉臥浮生
      2026-04-26 20:25:45
      WTA1000馬德里站:鄭欽文1-2不敵世界第2,止步32強

      WTA1000馬德里站:鄭欽文1-2不敵世界第2,止步32強

      側身凌空斬
      2026-04-27 04:31:04
      袁詠儀宣布不再買包,搬家發現愛馬仕奢侈品令兒子換衛衣逛宜家,張智霖意外慌張

      袁詠儀宣布不再買包,搬家發現愛馬仕奢侈品令兒子換衛衣逛宜家,張智霖意外慌張

      科學發掘
      2026-04-26 19:59:24
      常規賽龍、季后賽蟲!騎士89-93再輸猛龍!誰是輸球的罪魁禍首?

      常規賽龍、季后賽蟲!騎士89-93再輸猛龍!誰是輸球的罪魁禍首?

      毒舌NBA
      2026-04-27 05:31:31
      2026-04-27 06:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12855文章數 142636關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      健康
      家居
      數碼
      教育
      手機

      干細胞如何讓燒燙傷皮膚"再生"?

      家居要聞

      自然肌理 溫潤美學

      數碼要聞

      三星Tab S12系列進入固件測試階段 或配10500mAh大電池

      教育要聞

      官宣揭牌!北二外成都附中迎來新校區,地址在這里

      手機要聞

      vivo Y600 Pro配備 6.83 英寸 1.5K 護眼屏,新機明天見!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美精品久久久| 性色欲情网站iwww| 大桥未久亚洲无av码在线| 国产亚洲日韩av在线播放不卡| 一区二区免费| 欧洲熟妇精品视频| 国产免费又黄又爽又色毛| 亚洲美腿丝袜福利一区| 国产精品久久久久久爽爽爽床戏| 宜宾市| 国产欧美日韩va另类在线播放| 人妻无码中出| 国产成人一区二区三区免费 | 中文字幕人妻熟女人妻洋洋| 最新亚洲中文av在线不卡| 无码人妻视频一区二区三区| 日韩av免费在线观看| 青青青爽视频在线观看 | 少妇人妻真实偷人精品视频| 91成人在线播放| 在线视频精品中文无码| 秋霞一区| xxx综合网| 蜜臂久久99精品久久久久宅男| 激情五区| 久久国产精品老人性| 成人欧美一区二区三区| 亚洲AV无码成人网站久久精品| 天堂69亚洲精品中文字幕| 亚洲高清毛片一区二区| 欧美黑人777| 免费看无码毛视频成片| 一区二区久久不射av| 亚洲成av人片在线播放无码| 亚洲AV中文| 无码纯肉视频在线观看| 色二区| www.99r| 亚洲精品自拍| 久久婷婷国产综合精品| 亚洲成年av天堂动漫网站|