UCSD 推出 AIBuildAI 智能體，斬獲OpenAI MLE-Bench榜單第一

2026-03-30 13:03:41　來源: 機(jī)器之心Pro

河北舉報

分享至

近日，加州大學(xué)圣地亞哥分校的研究團(tuán)隊開發(fā)了 AIBuildAI 智能體，可以全自動構(gòu)建 AI 模型（包括模型設(shè)計，代碼實現(xiàn)，模型訓(xùn)練，調(diào)參，性能評估，迭代優(yōu)化）。團(tuán)隊成員包括博士生 Ruiyi Zhang，Peijia Qin，Qi Cao，Li Zhang，以及該校副教授 Pengtao Xie。

視頻地址：https://mp.weixin.qq.com/s/8sb5CpBLb3PEQ7IGY6A5ug?click_id=35

開發(fā)一個高性能 AI 模型非常耗時費(fèi)力，工程師需要反復(fù)設(shè)計模型、寫代碼實現(xiàn)模型、構(gòu)建訓(xùn)練流水線、執(zhí)行超參數(shù)搜索，并根據(jù)實驗結(jié)果對模型進(jìn)行迭代優(yōu)化。這一過程對專業(yè)知識的依賴程度極高，人力成本也居高不下，非常耗費(fèi)時間。為了解決這一問題，UCSD 的研究團(tuán)隊開發(fā)了 AIBuildAI 智能體，充當(dāng)虛擬的 AI 工程師或 AI 科學(xué)家，全自動構(gòu)建 AI 模型。用戶無需編程，只需要用自然語言對任務(wù)進(jìn)行描述，AIBuildAI 自動設(shè)計模型，寫代碼實現(xiàn)模型，訓(xùn)練模型，調(diào)節(jié)超參數(shù)，評估模型性能，并根據(jù)實驗結(jié)果對模型進(jìn)行迭代優(yōu)化。

AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測試的 75 個任務(wù)上以 63.1% 的獲獎率位居榜首（截至 2026 年 3 月 6 日），其表現(xiàn)可媲美經(jīng)驗豐富的 AI 工程師，實現(xiàn)了從任務(wù)描述到可部署模型的端到端自動化。

論文標(biāo)題：AIBuildAI:An AI agent that automatically builds AI models
項目地址：https://github.com/aibuildai/AI-Build-AI
論文鏈接：https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
OpenAI MLE-Bench 測評結(jié)果：https://github.com/openai/mle-bench/pull/126

AIBuildAI 的設(shè)計靈感來源于真實的 AI 研究團(tuán)隊的工作流程。在典型的 AI 項目中，技術(shù)負(fù)責(zé)人統(tǒng)籌多條并行探索路線，研究員提出建模策略，工程師實現(xiàn)訓(xùn)練流水線，負(fù)責(zé)人定期評審結(jié)果、分配資源。AIBuildAI 將這一工作流抽象為一個多智能體搜索過程：將整個開發(fā)周期分解為多個專職智能體協(xié)作執(zhí)行，并通過集中化的管理器進(jìn)行統(tǒng)一調(diào)度。

技術(shù)核心

管理智能體（Manager Agent）

扮演項目運(yùn)行負(fù)責(zé)人的角色，全程不直接寫代碼或執(zhí)行訓(xùn)練任務(wù)，而是通過讀取磁盤上的實驗記錄來做出下一步?jīng)Q策。他在兩種模式之間切換：協(xié)調(diào)模式下決定下一步應(yīng)該調(diào)用哪一個子智能體；篩選模式下依據(jù)訓(xùn)練信號保留有潛力的候選方案并終止無效方案來節(jié)約時間以及計算成本，并在進(jìn)展停滯時觸發(fā)修訂或者終止。

研究員智能體（Designer Agent）

負(fù)責(zé)想方案和改方案兩項核心任務(wù)。在設(shè)計模式下，他直接探索數(shù)據(jù)集特征，提出多個差異化、可行性強(qiáng)的建模計劃；在修訂模式下，他仔細(xì)診斷失敗原因（過擬合、欠擬合、收斂問題或者數(shù)據(jù)異常），并提出具體的改進(jìn)方案供編碼智能體重新實現(xiàn)。

編碼智能體（Coder Agent）

將設(shè)計方案轉(zhuǎn)化為可運(yùn)行的訓(xùn)練與推理流水線。編碼智能體的目標(biāo)是確保代碼正確完整，而非追求最終性能。他會在寫完代碼后執(zhí)行一次短時驗證運(yùn)行以確保流水線可以端到端運(yùn)行，隨后將完整訓(xùn)練交由調(diào)優(yōu)器處理。

調(diào)優(yōu)器智能體（Tuner Agent）

接管訓(xùn)練過程，在已有代碼基礎(chǔ)上專注于性能提升。它采用先快速校準(zhǔn)、再決定是否投入的策略：先跑一段簡短的熱身訓(xùn)練觀察學(xué)習(xí)曲線，再決定是延長當(dāng)前方案還是進(jìn)行超參數(shù)調(diào)整。整個過程在固定計算預(yù)算內(nèi)完成。

系統(tǒng)設(shè)計

AIBuildAI 在系統(tǒng)層面還具備三項關(guān)鍵特征：

并行效率：多條解決方案軌跡在獨(dú)立工作空間中并發(fā)運(yùn)行，避免互相干擾，允許系統(tǒng)同時探索多個方法并將資源集中于表現(xiàn)好的候選方案。
可復(fù)現(xiàn)性：所有智能體通過存儲于磁盤中產(chǎn)出物（方案文檔、配置文件、日志、檢查點(diǎn)）進(jìn)行協(xié)調(diào)，而非依賴內(nèi)存中的臨時信息，確保每一步操作均可事后審查與復(fù)現(xiàn)。
安全性：智能體僅被允許寫入自身軌跡目錄，數(shù)據(jù)集以只讀方式掛載，每次調(diào)用均生成可審計的操作日志。

實驗結(jié)果

AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測試上進(jìn)行了評估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench 包含了來自 Kaggle 競賽的真實任務(wù)，涵蓋圖像分類，目標(biāo)檢測 / 分割、自然語言理解與生成、時序信號建模以及結(jié)構(gòu)化表格預(yù)測等多個類別，共 75 個任務(wù)，要求系統(tǒng)完成從原始數(shù)據(jù)到可提交模型的全流程開發(fā)。

截止 2026 年 3 月 6 號的榜單，AIBuildAI 以 63.1% 的綜合獲獎率位居 MLE-Bench 總榜第一。上圖展示了 AIBuildAI（橙條）的綜合性能在所有的對比方法中實現(xiàn)了性能最佳。

上圖展示了 AIBuildAI 在語言理解與生成任務(wù)上的詳細(xì)結(jié)果。上半部分以 Billion Word Imputation 為例，完整呈現(xiàn)了 AIBuildAI 各智能體的運(yùn)行軌跡：Manager 依次調(diào)度 Setup、Designer（提出 6 個候選方案）、Coder（實現(xiàn)流水線）和 Tuner（迭代調(diào)參），最終 Aggregator 以 RoBERTa-large 為基礎(chǔ)生成提交文件，取得 5.5060 的最優(yōu)分?jǐn)?shù)。下半部分對比了 AIBuildAI 與 AIRA-dojo、MLEvolve 在 10 個具體語言任務(wù)上的性能表現(xiàn)。AIBuildAI（紫色）在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個任務(wù)上均取得最優(yōu)成績，充分驗證了 AIBuildAI 在多樣化語言任務(wù)上的泛化能力。

總結(jié)

AIBuildAI 通過將 AI 開發(fā)流程分配到包括設(shè)計、編碼、調(diào)優(yōu)與協(xié)調(diào)等任務(wù)的專職智能體，并以基于產(chǎn)出物的狀態(tài)管理將各個智能體緊密協(xié)同，實現(xiàn)了端到端自動化 AI 工程。不同于以往將代碼生成作為核心范式的單體系統(tǒng)，AIBuildAI 顯示建模了訓(xùn)練動態(tài)監(jiān)控、早停機(jī)制與超參數(shù)調(diào)整等關(guān)鍵環(huán)節(jié)，更貼近真實工程師團(tuán)隊的工作方式。AIBuildAI 在 MLE-Bench 的 75 個任務(wù)上，以 63.1% 的獲獎率位居第一，證明了結(jié)構(gòu)化多智能體協(xié)作在復(fù)雜工程工作自動化上的可行性，也為邁向媲美人類專業(yè)工程師的自動 AI 系統(tǒng)提供了清晰的技術(shù)路線。

作者簡介：

謝澎濤，UCSD 副教授，研究受人類學(xué)習(xí)啟發(fā)的機(jī)器學(xué)習(xí)及其在 LLM、基礎(chǔ)模型與生物醫(yī)學(xué)的應(yīng)用。張睿一，UCSD 博士生，關(guān)注 LLM 效率、安全與測試時計算擴(kuò)展。秦佩嘉，UCSD 博士生，聚焦獎勵模型與多智能體系統(tǒng)。曹啟，UCSD 博士生，主攻 LLM 推理。張力，UCSD 博士生，研究方向為機(jī)器視覺與視覺大模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.