![]()
來源:DeepTech深科技
運營/排版:何晨龍
大語言模型可以從互聯網上海量的文本中學習,但當這些模型需要進化成能夠自主行動的智能體(Agent)時,數據問題變得完全不同。Agent 需要的不是簡單的文本序列,而是包含“觀察-行動-反饋”完整循環的交互軌跡(trajectory)數據。
相關研究顯示,這類數據的收集正成為 Agent 開發的最大瓶頸:人工標注成本高昂,合成數據質量難以保證,而記錄現有 Agent 的軌跡又受限于其能力上限。
雖然已有一些自我進化(self-evolution)方法試圖讓模型自己生成訓練數據,但這些方法普遍面臨兩個困境:模型只能生成不超出自身知識范圍的任務,以及僅支持單輪交互而無法處理復雜的多步推理。
面對這個困境,近期,由北卡羅來納大學教堂山分校(UNC)助理教授姚驊修領導的聯合團隊提出了 Agent0 框架,試圖通過引入外部工具和多輪交互來打破這些局限。
![]()
圖丨相關論文(來源:arXiv)
Agent0 的核心是一個雙智能體協同進化系統。系統包含兩個從同一基礎模型初始化的 Agent:課程智能體(Curriculum Agent)負責生成問題,執行智能體(Executor Agent)則嘗試解決這些問題。
但課程智能體不是隨意出題,而是通過強化學習(Reinforcement Learning,RL)優化,專門生成那些恰好處于執行智能體能力邊界的任務。
這個邊界如何界定?研究團隊用了一個巧妙的方法:讓執行智能體對同一問題生成多個答案,如果答案不一致,說明這個問題正好在它能力的邊緣。
他們將這種不確定性量化為一個獎勵函數,當執行智能體的答案分布接近 50% 一致時,也就是最糾結的時候,獎勵最高。這種設計確保了生成的任務既不會太簡單讓模型學不到東西,也不會難到完全無法入手。
![]()
圖丨Agent0 自主共演化框架。(來源:arXiv)
但這樣還不夠。如果只靠模型自己的知識生成和解決問題,很快就會陷入停滯,模型不可能憑空創造出超出自己理解范圍的任務。研究團隊的方法是引入外部工具,具體來說是一個 Python 代碼解釋器。
這個工具可以執行代碼、進行復雜計算、驗證數學結果。不僅執行智能體可以使用這個工具,課程智能體也配備了同樣的能力。
這就形成了一個獨特的協同進化機制。執行智能體有了代碼解釋器后,可以解決需要復雜計算的問題,能力邊界向外擴展。這時課程智能體發現,原來能難倒執行智能體的問題現在變簡單了,不確定性獎勵下降。
為了維持獎勵水平,課程智能體被迫生成更復雜的、需要更多工具調用的問題。研究團隊在獎勵函數中特意加入了工具使用頻率的獎勵項,進一步推動這個螺旋上升的過程。
![]()
圖丨Agent0 的協同進化循環(來源:arXiv)
實驗數據驗證了這個機制的有效性。在三輪迭代中,課程智能體生成的任務里平均工具調用次數從 1.65 次增加到 2.60 次,任務難度也確實在上升,用第一輪的執行智能體去測試后續生成的任務,通過率從 64% 持續下降到 51%。
研究團隊手工檢查了生成的問題樣本:第一輪的問題相對直接,比如“正方形內至少需要多少個點才能保證有兩個點距離不超過 0.25 單位”;到了第三輪,問題演化為“一個滿足特定遞推關系的正整數序列,求第 2024 項除以 1,000 的余數”,這需要設計算法、編寫代碼、處理大數運算。
執行智能體的訓練面臨另一個挑戰:沒有人工標注,怎么知道答案對不對?系統采用的是多數投票機制,讓執行智能體對每個問題生成 10 個答案,把得票最多的答案當作“正確答案”。
但研究團隊意識到這種偽標簽(pseudo-label)的可靠性參差不齊。對于執行智能體回答高度一致的簡單任務,多數投票結果可信;對于回答分散的困難任務,偽標簽可能就是錯的。
他們為此開發了 ADPO(Ambiguity-Dynamic Policy Optimization,歧義動態策略優化)算法。這個算法的核心思路是“看菜下碟”,根據任務的歧義程度動態調整訓練策略。對于高歧義任務,降低訓練信號的權重,避免模型在可能錯誤的標簽上過度學習。
同時還放寬策略更新的約束,給模型更大的探索空間。標準的強化學習算法為了穩定性會嚴格限制每步更新的幅度,但分析顯示這種限制主要壓制的是那些概率低但可能正確的答案路徑,對困難任務反而不利。
執行智能體的訓練還包含一個關鍵設計:多輪交互。不同于傳統的單次輸入-輸出,執行代理會進行多步推理:先生成自然語言推理,識別需要計算的部分,生成 Python 代碼,執行代碼獲得結果,將結果融入推理過程,必要時進行多輪代碼調用,最終給出答案。這模擬了人類解決復雜問題時“嘗試-反饋-修正”的過程。
當然,不是課程智能體生成的所有任務都適合拿來訓練。系統會根據自洽性分數篩選,只保留那些執行智能體自洽性在 0.3 到 0.8 之間的任務——太簡單(接近 1)學不到東西,太難(接近 0)偽標簽不可靠。
在 Qwen3-8B 基礎模型上的測試結果相當可觀。經過三輪迭代,數學推理能力從 49.2% 提升到 58.2%,漲幅約為 18%。在 MATH(高中競賽數學)、GSM8K(小學應用題)、2024 和 2025 年美國數學邀請賽等多個基準上,模型表現也都有穩定提升。
![]()
圖丨數學推理基準的綜合結果(來源:arXiv)
更重要的是這種方法所表現出的泛化能力。雖然訓練聚焦在數學問題上,但模型在通用推理任務上的表現也提升了約 24%。SuperGPQA(研究生水平的跨學科問題)從 28.3% 提升到 33.0%,MMLU-Pro(多任務語言理解)從 51.8% 提升到 63.4%,BBEH(Big-Bench 困難子集)從 8.6% 提升到 13.7%。這說明通過工具輔助培養的多步推理能力確實可以遷移到其他領域。
對比其他無需外部數據的方法,Agent0 比 R-Zero 方法提升了 6.4%,相比同樣使用代碼執行器的 Absolute Zero 提升了 10.6%,甚至比依賴 OpenAI API 的 Socratic-Zero 還高出 3.7%。
消融實驗進一步證明去掉任何一個核心組件都會導致性能下降:如果移除課程智能體的訓練,性能將大幅下跌 9.3%;若不給予工具使用獎勵,則下降 7.2%。
不過,團隊表示這一方法更適合有明確驗證標準的任務,比如數學、編程、邏輯推理。對于創意寫作、風格設計這類主觀性強的任務,多數投票機制就不太管用了。
而且雖然省去了人工標注,但同時訓練兩個 Agent、每個任務生成 10 個候選答案,計算開銷也不小。框架目前依賴能提供客觀反饋的工具,對純語言推理或需要人類主觀判斷的任務適用性有限。
但 Agent0 展示的方向值得關注。隨著 Agent 應用越來越廣,軌跡數據需求會持續增長,完全依賴人工標注顯然不可持續。Agent0 證明了 AI 系統可以在沒有人類直接監督的情況下,通過精心設計的自我博弈和工具輔助實現能力的螺旋式上升。
目前,研究團隊已經將相關代碼開源。
參考資料:
相關論文:https://arxiv.org/pdf/2511.16043
項目地址:https://github.com/aiming-lab/Agent0
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.