<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      UCSD 推出 AIBuildAI 智能體,斬獲OpenAI MLE-Bench榜單第一

      0
      分享至



      近日,加州大學(xué)圣地亞哥分校的研究團(tuán)隊開發(fā)了 AIBuildAI 智能體,可以全自動構(gòu)建 AI 模型(包括模型設(shè)計,代碼實現(xiàn),模型訓(xùn)練,調(diào)參,性能評估,迭代優(yōu)化)。團(tuán)隊成員包括博士生 Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及該校副教授 Pengtao Xie。



      視頻地址:https://mp.weixin.qq.com/s/8sb5CpBLb3PEQ7IGY6A5ug?click_id=35

      開發(fā)一個高性能 AI 模型非常耗時費(fèi)力,工程師需要反復(fù)設(shè)計模型、寫代碼實現(xiàn)模型、構(gòu)建訓(xùn)練流水線、執(zhí)行超參數(shù)搜索,并根據(jù)實驗結(jié)果對模型進(jìn)行迭代優(yōu)化。這一過程對專業(yè)知識的依賴程度極高,人力成本也居高不下,非常耗費(fèi)時間。為了解決這一問題,UCSD 的研究團(tuán)隊開發(fā)了 AIBuildAI 智能體,充當(dāng)虛擬的 AI 工程師或 AI 科學(xué)家,全自動構(gòu)建 AI 模型。用戶無需編程,只需要用自然語言對任務(wù)進(jìn)行描述,AIBuildAI 自動設(shè)計模型,寫代碼實現(xiàn)模型,訓(xùn)練模型,調(diào)節(jié)超參數(shù),評估模型性能,并根據(jù)實驗結(jié)果對模型進(jìn)行迭代優(yōu)化。

      AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測試的 75 個任務(wù)上以 63.1% 的獲獎率位居榜首(截至 2026 年 3 月 6 日),其表現(xiàn)可媲美經(jīng)驗豐富的 AI 工程師,實現(xiàn)了從任務(wù)描述到可部署模型的端到端自動化。







      • 論文標(biāo)題:AIBuildAI:An AI agent that automatically builds AI models
      • 項目地址:https://github.com/aibuildai/AI-Build-AI
      • 論文鏈接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
      • OpenAI MLE-Bench 測評結(jié)果:https://github.com/openai/mle-bench/pull/126

      AIBuildAI 的設(shè)計靈感來源于真實的 AI 研究團(tuán)隊的工作流程。在典型的 AI 項目中,技術(shù)負(fù)責(zé)人統(tǒng)籌多條并行探索路線,研究員提出建模策略,工程師實現(xiàn)訓(xùn)練流水線,負(fù)責(zé)人定期評審結(jié)果、分配資源。AIBuildAI 將這一工作流抽象為一個多智能體搜索過程:將整個開發(fā)周期分解為多個專職智能體協(xié)作執(zhí)行,并通過集中化的管理器進(jìn)行統(tǒng)一調(diào)度。



      技術(shù)核心

      管理智能體(Manager Agent)

      扮演項目運(yùn)行負(fù)責(zé)人的角色,全程不直接寫代碼或執(zhí)行訓(xùn)練任務(wù),而是通過讀取磁盤上的實驗記錄來做出下一步?jīng)Q策。他在兩種模式之間切換:協(xié)調(diào)模式下決定下一步應(yīng)該調(diào)用哪一個子智能體;篩選模式下依據(jù)訓(xùn)練信號保留有潛力的候選方案并終止無效方案來節(jié)約時間以及計算成本,并在進(jìn)展停滯時觸發(fā)修訂或者終止。

      研究員智能體(Designer Agent)

      負(fù)責(zé)想方案和改方案兩項核心任務(wù)。在設(shè)計模式下,他直接探索數(shù)據(jù)集特征,提出多個差異化、可行性強(qiáng)的建模計劃;在修訂模式下,他仔細(xì)診斷失敗原因(過擬合、欠擬合、收斂問題或者數(shù)據(jù)異常),并提出具體的改進(jìn)方案供編碼智能體重新實現(xiàn)。

      編碼智能體(Coder Agent)

      將設(shè)計方案轉(zhuǎn)化為可運(yùn)行的訓(xùn)練與推理流水線。編碼智能體的目標(biāo)是確保代碼正確完整,而非追求最終性能。他會在寫完代碼后執(zhí)行一次短時驗證運(yùn)行以確保流水線可以端到端運(yùn)行,隨后將完整訓(xùn)練交由調(diào)優(yōu)器處理。

      調(diào)優(yōu)器智能體(Tuner Agent)

      接管訓(xùn)練過程,在已有代碼基礎(chǔ)上專注于性能提升。它采用先快速校準(zhǔn)、再決定是否投入的策略:先跑一段簡短的熱身訓(xùn)練觀察學(xué)習(xí)曲線,再決定是延長當(dāng)前方案還是進(jìn)行超參數(shù)調(diào)整。整個過程在固定計算預(yù)算內(nèi)完成。

      系統(tǒng)設(shè)計

      AIBuildAI 在系統(tǒng)層面還具備三項關(guān)鍵特征:

      • 并行效率:多條解決方案軌跡在獨(dú)立工作空間中并發(fā)運(yùn)行,避免互相干擾,允許系統(tǒng)同時探索多個方法并將資源集中于表現(xiàn)好的候選方案。
      • 可復(fù)現(xiàn)性:所有智能體通過存儲于磁盤中產(chǎn)出物(方案文檔、配置文件、日志、檢查點(diǎn))進(jìn)行協(xié)調(diào),而非依賴內(nèi)存中的臨時信息,確保每一步操作均可事后審查與復(fù)現(xiàn)。
      • 安全性:智能體僅被允許寫入自身軌跡目錄,數(shù)據(jù)集以只讀方式掛載,每次調(diào)用均生成可審計的操作日志。

      實驗結(jié)果



      AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測試上進(jìn)行了評估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench 包含了來自 Kaggle 競賽的真實任務(wù),涵蓋圖像分類,目標(biāo)檢測 / 分割、自然語言理解與生成、時序信號建模以及結(jié)構(gòu)化表格預(yù)測等多個類別,共 75 個任務(wù),要求系統(tǒng)完成從原始數(shù)據(jù)到可提交模型的全流程開發(fā)。

      截止 2026 年 3 月 6 號的榜單,AIBuildAI 以 63.1% 的綜合獲獎率位居 MLE-Bench 總榜第一。上圖展示了 AIBuildAI(橙條)的綜合性能在所有的對比方法中實現(xiàn)了性能最佳。



      上圖展示了 AIBuildAI 在語言理解與生成任務(wù)上的詳細(xì)結(jié)果。上半部分以 Billion Word Imputation 為例,完整呈現(xiàn)了 AIBuildAI 各智能體的運(yùn)行軌跡:Manager 依次調(diào)度 Setup、Designer(提出 6 個候選方案)、Coder(實現(xiàn)流水線)和 Tuner(迭代調(diào)參),最終 Aggregator 以 RoBERTa-large 為基礎(chǔ)生成提交文件,取得 5.5060 的最優(yōu)分?jǐn)?shù)。下半部分對比了 AIBuildAI 與 AIRA-dojo、MLEvolve 在 10 個具體語言任務(wù)上的性能表現(xiàn)。AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個任務(wù)上均取得最優(yōu)成績,充分驗證了 AIBuildAI 在多樣化語言任務(wù)上的泛化能力。

      總結(jié)

      AIBuildAI 通過將 AI 開發(fā)流程分配到包括設(shè)計、編碼、調(diào)優(yōu)與協(xié)調(diào)等任務(wù)的專職智能體,并以基于產(chǎn)出物的狀態(tài)管理將各個智能體緊密協(xié)同,實現(xiàn)了端到端自動化 AI 工程。不同于以往將代碼生成作為核心范式的單體系統(tǒng),AIBuildAI 顯示建模了訓(xùn)練動態(tài)監(jiān)控、早停機(jī)制與超參數(shù)調(diào)整等關(guān)鍵環(huán)節(jié),更貼近真實工程師團(tuán)隊的工作方式。AIBuildAI 在 MLE-Bench 的 75 個任務(wù)上,以 63.1% 的獲獎率位居第一,證明了結(jié)構(gòu)化多智能體協(xié)作在復(fù)雜工程工作自動化上的可行性,也為邁向媲美人類專業(yè)工程師的自動 AI 系統(tǒng)提供了清晰的技術(shù)路線。

      作者簡介:

      謝澎濤,UCSD 副教授,研究受人類學(xué)習(xí)啟發(fā)的機(jī)器學(xué)習(xí)及其在 LLM、基礎(chǔ)模型與生物醫(yī)學(xué)的應(yīng)用。張睿一,UCSD 博士生,關(guān)注 LLM 效率、安全與測試時計算擴(kuò)展。秦佩嘉,UCSD 博士生,聚焦獎勵模型與多智能體系統(tǒng)。曹啟,UCSD 博士生,主攻 LLM 推理。張力,UCSD 博士生,研究方向為機(jī)器視覺與視覺大模型。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      美拯救大兵“Bravo”更多驚險細(xì)節(jié)曝光:靠尋呼機(jī)式定位器求救,回答私密問題驗身

      美拯救大兵“Bravo”更多驚險細(xì)節(jié)曝光:靠尋呼機(jī)式定位器求救,回答私密問題驗身

      紅星新聞
      2026-04-07 13:13:17
      業(yè)績暴增!300821,“20cm”漲停

      業(yè)績暴增!300821,“20cm”漲停

      數(shù)據(jù)寶
      2026-04-07 10:43:16
      603950,宣布重大資產(chǎn)重組!明天復(fù)牌!

      603950,宣布重大資產(chǎn)重組!明天復(fù)牌!

      證券時報e公司
      2026-04-07 19:30:31
      快訊!特朗普“怒批”日本了!

      快訊!特朗普“怒批”日本了!

      達(dá)文西看世界
      2026-04-07 17:17:02
      第一集就上頭,Netflix這部美劇拍得夠精彩

      第一集就上頭,Netflix這部美劇拍得夠精彩

      i書與房
      2026-04-07 16:37:49
      張雪母親是一名作家,發(fā)文講述母子故事:抵押房子貸款55萬幫兒子創(chuàng)業(yè),張雪騎車撞人她賠了3萬多

      張雪母親是一名作家,發(fā)文講述母子故事:抵押房子貸款55萬幫兒子創(chuàng)業(yè),張雪騎車撞人她賠了3萬多

      極目新聞
      2026-04-07 15:59:36
      中央官宣,基本養(yǎng)老金調(diào)整有望,去年2%,今年能與去年持平嗎?

      中央官宣,基本養(yǎng)老金調(diào)整有望,去年2%,今年能與去年持平嗎?

      孤城落葉
      2026-04-06 21:42:03
      親日辱華、知三當(dāng)三?這一次,57歲的陳紅被兒子丈夫“害”慘了

      親日辱華、知三當(dāng)三?這一次,57歲的陳紅被兒子丈夫“害”慘了

      青橘罐頭
      2026-04-07 15:00:20
      伊朗首都響起密集爆炸聲

      伊朗首都響起密集爆炸聲

      新華社
      2026-04-07 15:55:05
      被抓后家中查出20噸黃金,秘密移民國外?趙本山私生活謠言太離譜

      被抓后家中查出20噸黃金,秘密移民國外?趙本山私生活謠言太離譜

      往史過眼云煙
      2026-04-06 22:16:19
      周杰倫劃水爭議升級!在日本高亢唱滿兩小時,國內(nèi)敷衍兄弟幫唱

      周杰倫劃水爭議升級!在日本高亢唱滿兩小時,國內(nèi)敷衍兄弟幫唱

      萌神木木
      2026-04-07 13:32:18
      410次開房記錄曝光!從臨時工“睡”到副處長,她只用了不到3年

      410次開房記錄曝光!從臨時工“睡”到副處長,她只用了不到3年

      愛寫的櫻桃
      2026-04-06 08:05:03
      太浪漫了!小伙苦尋18次偶遇的短發(fā)女孩,成都東站多個大屏被炸鍋

      太浪漫了!小伙苦尋18次偶遇的短發(fā)女孩,成都東站多個大屏被炸鍋

      火山詩話
      2026-04-07 05:20:23
      兵敗如山倒?多家日企接連撤離中國,中日制造或已迎來了大反轉(zhuǎn)

      兵敗如山倒?多家日企接連撤離中國,中日制造或已迎來了大反轉(zhuǎn)

      史智文道
      2026-04-07 15:04:35
      廣州市中心正在悄悄 “搬家”?這 2 個區(qū)域正在強(qiáng)勢崛起!

      廣州市中心正在悄悄 “搬家”?這 2 個區(qū)域正在強(qiáng)勢崛起!

      記錄生活日常阿蜴
      2026-04-07 17:03:25
      江蘇南通一大蔥種植地被謠傳可免費(fèi)拔遭眾人哄搶,種植戶表示損失超20萬元,被挖走近40畝,警方介入

      江蘇南通一大蔥種植地被謠傳可免費(fèi)拔遭眾人哄搶,種植戶表示損失超20萬元,被挖走近40畝,警方介入

      瀟湘晨報
      2026-04-07 17:12:51
      它是“樹上人參”,春天遇見使勁吃,錯過要等1年,比薺菜營養(yǎng)

      它是“樹上人參”,春天遇見使勁吃,錯過要等1年,比薺菜營養(yǎng)

      阿龍美食記
      2026-04-06 13:56:32
      49年他婉拒了新中國外長職務(wù):若不拒絕,恐怕開國元帥名單要改寫

      49年他婉拒了新中國外長職務(wù):若不拒絕,恐怕開國元帥名單要改寫

      浩渺青史
      2026-03-25 13:59:19
      白酒再次被關(guān)注!醫(yī)生發(fā)現(xiàn):腦梗病人喝白酒,不用多久或有4變化

      白酒再次被關(guān)注!醫(yī)生發(fā)現(xiàn):腦梗病人喝白酒,不用多久或有4變化

      蜉蝣說
      2026-04-07 17:45:02
      金華很多人都在挖!今年特別便宜!幾乎每個人都在吃……

      金華很多人都在挖!今年特別便宜!幾乎每個人都在吃……

      浙中在線
      2026-04-07 20:29:37
      2026-04-07 20:56:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12701文章數(shù) 142616關(guān)注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美軍拯救飛行員差一點(diǎn)失敗 從40英里外用攝像頭對準(zhǔn)他

      頭條要聞

      美軍拯救飛行員差一點(diǎn)失敗 從40英里外用攝像頭對準(zhǔn)他

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產(chǎn)

      財經(jīng)要聞

      10萬億財政轉(zhuǎn)移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      旅游
      公開課
      軍事航空

      房產(chǎn)要聞

      重磅!三亞擬出安居房新政!

      教育要聞

      教育部:學(xué)位論文抽檢,改革!

      旅游要聞

      上游觀察|兩天春假,卻讓孩子擁抱了整個春天

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍營救飛行員出動155架飛機(jī)

      無障礙瀏覽 進(jìn)入關(guān)懷版