![]()
近日,加州大學(xué)圣地亞哥分校的研究團(tuán)隊開發(fā)了 AIBuildAI 智能體,可以全自動構(gòu)建 AI 模型(包括模型設(shè)計,代碼實現(xiàn),模型訓(xùn)練,調(diào)參,性能評估,迭代優(yōu)化)。團(tuán)隊成員包括博士生 Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及該校副教授 Pengtao Xie。
![]()
視頻地址:https://mp.weixin.qq.com/s/8sb5CpBLb3PEQ7IGY6A5ug?click_id=35
開發(fā)一個高性能 AI 模型非常耗時費(fèi)力,工程師需要反復(fù)設(shè)計模型、寫代碼實現(xiàn)模型、構(gòu)建訓(xùn)練流水線、執(zhí)行超參數(shù)搜索,并根據(jù)實驗結(jié)果對模型進(jìn)行迭代優(yōu)化。這一過程對專業(yè)知識的依賴程度極高,人力成本也居高不下,非常耗費(fèi)時間。為了解決這一問題,UCSD 的研究團(tuán)隊開發(fā)了 AIBuildAI 智能體,充當(dāng)虛擬的 AI 工程師或 AI 科學(xué)家,全自動構(gòu)建 AI 模型。用戶無需編程,只需要用自然語言對任務(wù)進(jìn)行描述,AIBuildAI 自動設(shè)計模型,寫代碼實現(xiàn)模型,訓(xùn)練模型,調(diào)節(jié)超參數(shù),評估模型性能,并根據(jù)實驗結(jié)果對模型進(jìn)行迭代優(yōu)化。
AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測試的 75 個任務(wù)上以 63.1% 的獲獎率位居榜首(截至 2026 年 3 月 6 日),其表現(xiàn)可媲美經(jīng)驗豐富的 AI 工程師,實現(xiàn)了從任務(wù)描述到可部署模型的端到端自動化。
![]()
![]()
![]()
- 論文標(biāo)題:AIBuildAI:An AI agent that automatically builds AI models
- 項目地址:https://github.com/aibuildai/AI-Build-AI
- 論文鏈接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
- OpenAI MLE-Bench 測評結(jié)果:https://github.com/openai/mle-bench/pull/126
AIBuildAI 的設(shè)計靈感來源于真實的 AI 研究團(tuán)隊的工作流程。在典型的 AI 項目中,技術(shù)負(fù)責(zé)人統(tǒng)籌多條并行探索路線,研究員提出建模策略,工程師實現(xiàn)訓(xùn)練流水線,負(fù)責(zé)人定期評審結(jié)果、分配資源。AIBuildAI 將這一工作流抽象為一個多智能體搜索過程:將整個開發(fā)周期分解為多個專職智能體協(xié)作執(zhí)行,并通過集中化的管理器進(jìn)行統(tǒng)一調(diào)度。
![]()
技術(shù)核心
管理智能體(Manager Agent)
扮演項目運(yùn)行負(fù)責(zé)人的角色,全程不直接寫代碼或執(zhí)行訓(xùn)練任務(wù),而是通過讀取磁盤上的實驗記錄來做出下一步?jīng)Q策。他在兩種模式之間切換:協(xié)調(diào)模式下決定下一步應(yīng)該調(diào)用哪一個子智能體;篩選模式下依據(jù)訓(xùn)練信號保留有潛力的候選方案并終止無效方案來節(jié)約時間以及計算成本,并在進(jìn)展停滯時觸發(fā)修訂或者終止。
研究員智能體(Designer Agent)
負(fù)責(zé)想方案和改方案兩項核心任務(wù)。在設(shè)計模式下,他直接探索數(shù)據(jù)集特征,提出多個差異化、可行性強(qiáng)的建模計劃;在修訂模式下,他仔細(xì)診斷失敗原因(過擬合、欠擬合、收斂問題或者數(shù)據(jù)異常),并提出具體的改進(jìn)方案供編碼智能體重新實現(xiàn)。
編碼智能體(Coder Agent)
將設(shè)計方案轉(zhuǎn)化為可運(yùn)行的訓(xùn)練與推理流水線。編碼智能體的目標(biāo)是確保代碼正確完整,而非追求最終性能。他會在寫完代碼后執(zhí)行一次短時驗證運(yùn)行以確保流水線可以端到端運(yùn)行,隨后將完整訓(xùn)練交由調(diào)優(yōu)器處理。
調(diào)優(yōu)器智能體(Tuner Agent)
接管訓(xùn)練過程,在已有代碼基礎(chǔ)上專注于性能提升。它采用先快速校準(zhǔn)、再決定是否投入的策略:先跑一段簡短的熱身訓(xùn)練觀察學(xué)習(xí)曲線,再決定是延長當(dāng)前方案還是進(jìn)行超參數(shù)調(diào)整。整個過程在固定計算預(yù)算內(nèi)完成。
系統(tǒng)設(shè)計
AIBuildAI 在系統(tǒng)層面還具備三項關(guān)鍵特征:
- 并行效率:多條解決方案軌跡在獨(dú)立工作空間中并發(fā)運(yùn)行,避免互相干擾,允許系統(tǒng)同時探索多個方法并將資源集中于表現(xiàn)好的候選方案。
- 可復(fù)現(xiàn)性:所有智能體通過存儲于磁盤中產(chǎn)出物(方案文檔、配置文件、日志、檢查點(diǎn))進(jìn)行協(xié)調(diào),而非依賴內(nèi)存中的臨時信息,確保每一步操作均可事后審查與復(fù)現(xiàn)。
- 安全性:智能體僅被允許寫入自身軌跡目錄,數(shù)據(jù)集以只讀方式掛載,每次調(diào)用均生成可審計的操作日志。
實驗結(jié)果
![]()
AIBuildAI 在 OpenAI MLE-Bench 基準(zhǔn)測試上進(jìn)行了評估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench 包含了來自 Kaggle 競賽的真實任務(wù),涵蓋圖像分類,目標(biāo)檢測 / 分割、自然語言理解與生成、時序信號建模以及結(jié)構(gòu)化表格預(yù)測等多個類別,共 75 個任務(wù),要求系統(tǒng)完成從原始數(shù)據(jù)到可提交模型的全流程開發(fā)。
截止 2026 年 3 月 6 號的榜單,AIBuildAI 以 63.1% 的綜合獲獎率位居 MLE-Bench 總榜第一。上圖展示了 AIBuildAI(橙條)的綜合性能在所有的對比方法中實現(xiàn)了性能最佳。
![]()
上圖展示了 AIBuildAI 在語言理解與生成任務(wù)上的詳細(xì)結(jié)果。上半部分以 Billion Word Imputation 為例,完整呈現(xiàn)了 AIBuildAI 各智能體的運(yùn)行軌跡:Manager 依次調(diào)度 Setup、Designer(提出 6 個候選方案)、Coder(實現(xiàn)流水線)和 Tuner(迭代調(diào)參),最終 Aggregator 以 RoBERTa-large 為基礎(chǔ)生成提交文件,取得 5.5060 的最優(yōu)分?jǐn)?shù)。下半部分對比了 AIBuildAI 與 AIRA-dojo、MLEvolve 在 10 個具體語言任務(wù)上的性能表現(xiàn)。AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多個任務(wù)上均取得最優(yōu)成績,充分驗證了 AIBuildAI 在多樣化語言任務(wù)上的泛化能力。
總結(jié)
AIBuildAI 通過將 AI 開發(fā)流程分配到包括設(shè)計、編碼、調(diào)優(yōu)與協(xié)調(diào)等任務(wù)的專職智能體,并以基于產(chǎn)出物的狀態(tài)管理將各個智能體緊密協(xié)同,實現(xiàn)了端到端自動化 AI 工程。不同于以往將代碼生成作為核心范式的單體系統(tǒng),AIBuildAI 顯示建模了訓(xùn)練動態(tài)監(jiān)控、早停機(jī)制與超參數(shù)調(diào)整等關(guān)鍵環(huán)節(jié),更貼近真實工程師團(tuán)隊的工作方式。AIBuildAI 在 MLE-Bench 的 75 個任務(wù)上,以 63.1% 的獲獎率位居第一,證明了結(jié)構(gòu)化多智能體協(xié)作在復(fù)雜工程工作自動化上的可行性,也為邁向媲美人類專業(yè)工程師的自動 AI 系統(tǒng)提供了清晰的技術(shù)路線。
作者簡介:
謝澎濤,UCSD 副教授,研究受人類學(xué)習(xí)啟發(fā)的機(jī)器學(xué)習(xí)及其在 LLM、基礎(chǔ)模型與生物醫(yī)學(xué)的應(yīng)用。張睿一,UCSD 博士生,關(guān)注 LLM 效率、安全與測試時計算擴(kuò)展。秦佩嘉,UCSD 博士生,聚焦獎勵模型與多智能體系統(tǒng)。曹啟,UCSD 博士生,主攻 LLM 推理。張力,UCSD 博士生,研究方向為機(jī)器視覺與視覺大模型。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.