<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      華人團隊提出智能體自我進化框架,無需人類標注,大幅提升通用推理能力

      0
      分享至


      來源:DeepTech深科技

      運營/排版:何晨龍

      大語言模型可以從互聯網上海量的文本中學習,但當這些模型需要進化成能夠自主行動的智能體(Agent)時,數據問題變得完全不同。Agent 需要的不是簡單的文本序列,而是包含“觀察-行動-反饋”完整循環的交互軌跡(trajectory)數據。

      相關研究顯示,這類數據的收集正成為 Agent 開發的最大瓶頸:人工標注成本高昂,合成數據質量難以保證,而記錄現有 Agent 的軌跡又受限于其能力上限。

      雖然已有一些自我進化(self-evolution)方法試圖讓模型自己生成訓練數據,但這些方法普遍面臨兩個困境:模型只能生成不超出自身知識范圍的任務,以及僅支持單輪交互而無法處理復雜的多步推理。

      面對這個困境,近期,由北卡羅來納大學教堂山分校(UNC)助理教授姚驊修領導的聯合團隊提出了 Agent0 框架,試圖通過引入外部工具和多輪交互來打破這些局限。


      圖丨相關論文(來源:arXiv)

      Agent0 的核心是一個雙智能體協同進化系統。系統包含兩個從同一基礎模型初始化的 Agent:課程智能體(Curriculum Agent)負責生成問題,執行智能體(Executor Agent)則嘗試解決這些問題。

      但課程智能體不是隨意出題,而是通過強化學習(Reinforcement Learning,RL)優化,專門生成那些恰好處于執行智能體能力邊界的任務。

      這個邊界如何界定?研究團隊用了一個巧妙的方法:讓執行智能體對同一問題生成多個答案,如果答案不一致,說明這個問題正好在它能力的邊緣。

      他們將這種不確定性量化為一個獎勵函數,當執行智能體的答案分布接近 50% 一致時,也就是最糾結的時候,獎勵最高。這種設計確保了生成的任務既不會太簡單讓模型學不到東西,也不會難到完全無法入手。


      圖丨Agent0 自主共演化框架。(來源:arXiv)

      但這樣還不夠。如果只靠模型自己的知識生成和解決問題,很快就會陷入停滯,模型不可能憑空創造出超出自己理解范圍的任務。研究團隊的方法是引入外部工具,具體來說是一個 Python 代碼解釋器。

      這個工具可以執行代碼、進行復雜計算、驗證數學結果。不僅執行智能體可以使用這個工具,課程智能體也配備了同樣的能力。

      這就形成了一個獨特的協同進化機制。執行智能體有了代碼解釋器后,可以解決需要復雜計算的問題,能力邊界向外擴展。這時課程智能體發現,原來能難倒執行智能體的問題現在變簡單了,不確定性獎勵下降。

      為了維持獎勵水平,課程智能體被迫生成更復雜的、需要更多工具調用的問題。研究團隊在獎勵函數中特意加入了工具使用頻率的獎勵項,進一步推動這個螺旋上升的過程。


      圖丨Agent0 的協同進化循環(來源:arXiv)

      實驗數據驗證了這個機制的有效性。在三輪迭代中,課程智能體生成的任務里平均工具調用次數從 1.65 次增加到 2.60 次,任務難度也確實在上升,用第一輪的執行智能體去測試后續生成的任務,通過率從 64% 持續下降到 51%。

      研究團隊手工檢查了生成的問題樣本:第一輪的問題相對直接,比如“正方形內至少需要多少個點才能保證有兩個點距離不超過 0.25 單位”;到了第三輪,問題演化為“一個滿足特定遞推關系的正整數序列,求第 2024 項除以 1,000 的余數”,這需要設計算法、編寫代碼、處理大數運算。

      執行智能體的訓練面臨另一個挑戰:沒有人工標注,怎么知道答案對不對?系統采用的是多數投票機制,讓執行智能體對每個問題生成 10 個答案,把得票最多的答案當作“正確答案”。

      但研究團隊意識到這種偽標簽(pseudo-label)的可靠性參差不齊。對于執行智能體回答高度一致的簡單任務,多數投票結果可信;對于回答分散的困難任務,偽標簽可能就是錯的。

      他們為此開發了 ADPO(Ambiguity-Dynamic Policy Optimization,歧義動態策略優化)算法。這個算法的核心思路是“看菜下碟”,根據任務的歧義程度動態調整訓練策略。對于高歧義任務,降低訓練信號的權重,避免模型在可能錯誤的標簽上過度學習。

      同時還放寬策略更新的約束,給模型更大的探索空間。標準的強化學習算法為了穩定性會嚴格限制每步更新的幅度,但分析顯示這種限制主要壓制的是那些概率低但可能正確的答案路徑,對困難任務反而不利。

      執行智能體的訓練還包含一個關鍵設計:多輪交互。不同于傳統的單次輸入-輸出,執行代理會進行多步推理:先生成自然語言推理,識別需要計算的部分,生成 Python 代碼,執行代碼獲得結果,將結果融入推理過程,必要時進行多輪代碼調用,最終給出答案。這模擬了人類解決復雜問題時“嘗試-反饋-修正”的過程。

      當然,不是課程智能體生成的所有任務都適合拿來訓練。系統會根據自洽性分數篩選,只保留那些執行智能體自洽性在 0.3 到 0.8 之間的任務——太簡單(接近 1)學不到東西,太難(接近 0)偽標簽不可靠。

      在 Qwen3-8B 基礎模型上的測試結果相當可觀。經過三輪迭代,數學推理能力從 49.2% 提升到 58.2%,漲幅約為 18%。在 MATH(高中競賽數學)、GSM8K(小學應用題)、2024 和 2025 年美國數學邀請賽等多個基準上,模型表現也都有穩定提升。


      圖丨數學推理基準的綜合結果(來源:arXiv)

      更重要的是這種方法所表現出的泛化能力。雖然訓練聚焦在數學問題上,但模型在通用推理任務上的表現也提升了約 24%。SuperGPQA(研究生水平的跨學科問題)從 28.3% 提升到 33.0%,MMLU-Pro(多任務語言理解)從 51.8% 提升到 63.4%,BBEH(Big-Bench 困難子集)從 8.6% 提升到 13.7%。這說明通過工具輔助培養的多步推理能力確實可以遷移到其他領域。

      對比其他無需外部數據的方法,Agent0 比 R-Zero 方法提升了 6.4%,相比同樣使用代碼執行器的 Absolute Zero 提升了 10.6%,甚至比依賴 OpenAI API 的 Socratic-Zero 還高出 3.7%。

      消融實驗進一步證明去掉任何一個核心組件都會導致性能下降:如果移除課程智能體的訓練,性能將大幅下跌 9.3%;若不給予工具使用獎勵,則下降 7.2%。

      不過,團隊表示這一方法更適合有明確驗證標準的任務,比如數學、編程、邏輯推理。對于創意寫作、風格設計這類主觀性強的任務,多數投票機制就不太管用了。

      而且雖然省去了人工標注,但同時訓練兩個 Agent、每個任務生成 10 個候選答案,計算開銷也不小。框架目前依賴能提供客觀反饋的工具,對純語言推理或需要人類主觀判斷的任務適用性有限。

      但 Agent0 展示的方向值得關注。隨著 Agent 應用越來越廣,軌跡數據需求會持續增長,完全依賴人工標注顯然不可持續。Agent0 證明了 AI 系統可以在沒有人類直接監督的情況下,通過精心設計的自我博弈和工具輔助實現能力的螺旋式上升。

      目前,研究團隊已經將相關代碼開源。

      參考資料:

      相關論文:https://arxiv.org/pdf/2511.16043

      項目地址:https://github.com/aiming-lab/Agent0

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      阿維塔宣稱南極-50℃極寒測試,被網友打假:南極現在是夏季

      阿維塔宣稱南極-50℃極寒測試,被網友打假:南極現在是夏季

      玩車專家1
      2025-12-25 17:24:33
      瘋了?朱孝天舉報五月天勾結黃牛洗錢、假唱?還曝F4合體背后隱情

      瘋了?朱孝天舉報五月天勾結黃牛洗錢、假唱?還曝F4合體背后隱情

      烏娛子醬
      2025-12-25 14:32:18
      268:0全票通過!烏克蘭下任總統已敲定?一旦當選要連美國一起打

      268:0全票通過!烏克蘭下任總統已敲定?一旦當選要連美國一起打

      瞳哥視界
      2025-12-25 20:47:45
      F-16擊落全部34枚導彈,“匕首”沒擊中目標!確認犧牲英雄身份

      F-16擊落全部34枚導彈,“匕首”沒擊中目標!確認犧牲英雄身份

      鷹眼Defence
      2025-12-24 16:17:27
      剛上任就突然訪華!北京迎來一位“稀客”!中方高規格接待

      剛上任就突然訪華!北京迎來一位“稀客”!中方高規格接待

      瞳哥視界
      2025-12-25 20:48:48
      臺灣青年實拍!島內隨處可見“臺灣省”車牌

      臺灣青年實拍!島內隨處可見“臺灣省”車牌

      看看新聞Knews
      2025-12-25 15:17:01
      因長得太漂亮,7次拒絕導演要求遭打壓,如今43歲才等到掌聲

      因長得太漂亮,7次拒絕導演要求遭打壓,如今43歲才等到掌聲

      黎兜兜
      2025-12-25 21:57:32
      姜昆美國過圣誕僅1天,惡心的一幕出現,郭德綱的話含金量還在升

      姜昆美國過圣誕僅1天,惡心的一幕出現,郭德綱的話含金量還在升

      陳意小可愛
      2025-12-26 01:45:17
      姜昆在加州豪宅唱紅歌過圣誕,被嘲國內賺錢國外花,郭德綱說對了

      姜昆在加州豪宅唱紅歌過圣誕,被嘲國內賺錢國外花,郭德綱說對了

      振華觀史
      2025-12-25 19:56:03
      元旦將至,不要說“元旦快樂”,送你25句元旦祝福語,好聽易懂

      元旦將至,不要說“元旦快樂”,送你25句元旦祝福語,好聽易懂

      阿龍美食記
      2025-12-25 06:07:12
      泰防長怒批某國“偽中立”:只逼泰國停火,卻偏袒柬埔寨

      泰防長怒批某國“偽中立”:只逼泰國停火,卻偏袒柬埔寨

      胡嚴亂語
      2025-12-25 15:15:35
      汪文斌人民日報撰文:中柬鐵桿友誼值得倍加珍惜

      汪文斌人民日報撰文:中柬鐵桿友誼值得倍加珍惜

      看看新聞Knews
      2025-12-25 20:12:06
      蔡英文發文悼北捷案傷亡民眾,鄭麗文諷:高聲量讓賴清德芒刺在背

      蔡英文發文悼北捷案傷亡民眾,鄭麗文諷:高聲量讓賴清德芒刺在背

      海峽導報社
      2025-12-25 15:24:04
      知名演員已出家?本人回應

      知名演員已出家?本人回應

      都市快報橙柿互動
      2025-12-24 21:26:32
      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      花花娛界
      2025-12-25 20:36:30
      人民幣大漲,背后的頂級陽謀!

      人民幣大漲,背后的頂級陽謀!

      柏年說政經
      2025-12-25 11:57:19
      多位央企董事長集中被撤委員資格,釋放哪些從嚴信號?

      多位央企董事長集中被撤委員資格,釋放哪些從嚴信號?

      運營商段子手
      2025-12-26 00:14:14
      河南一男生網購“10-9”枚鹵蛋,到手僅1個,客服:中間是減號;網友:寫“9-10”的話你還倒欠一個

      河南一男生網購“10-9”枚鹵蛋,到手僅1個,客服:中間是減號;網友:寫“9-10”的話你還倒欠一個

      極目新聞
      2025-12-25 21:09:52
      廣州一家五口駕車誤入施工通道,全部墜江遇難

      廣州一家五口駕車誤入施工通道,全部墜江遇難

      大風新聞
      2025-12-25 16:32:02
      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      36年前陳寶國主演的盜墓恐怖片!尺度大到少兒不宜

      釋凡電影
      2025-08-14 09:33:19
      2025-12-26 04:11:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4420文章數 37357關注度
      往期回顧 全部

      科技要聞

      小米17Ultra發布,徠卡2億像素 ,6999元起

      頭條要聞

      俄軍中將在汽車炸彈爆炸中身亡 俄軍報復

      頭條要聞

      俄軍中將在汽車炸彈爆炸中身亡 俄軍報復

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當球踢!

      財經要聞

      新規來了,年化超24%的小貸被即刻叫停

      汽車要聞

      速來!智界在上海西岸準備了年末潮流盛典

      態度原創

      藝術
      時尚
      房產
      數碼
      教育

      藝術要聞

      你絕對沒見過的美麗風景,快來看看!

      冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質感又高級

      房產要聞

      太猛了!單月新增企業4.1萬家,又一波巨頭涌向海南!

      數碼要聞

      年終復盤不用愁,鴻蒙電腦讓高效貫穿每一刻

      教育要聞

      突發!外語類保送政策巨變,南外還有優勢嗎?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黑河市| 星座| 欧美老妇牲交videos| 多毛老熟女| 国产线播放免费人成视频播放| 中文字幕在线亚洲精品| 超碰在线观看91| 久久高清超碰AV热热久久| 国产精品人妻一区二区三区| 日本免费一区二区三区在线播放| 无码精品人妻| 国产美女裸身网站免费观看视频| 五月av综合av国产av| 丰满多毛的大隂户视频| 中文人妻无码| 欧美人与zoxxxx另类| 亚洲精品www久久久久久| 91资源在线| 国产精品伦人视频免费看| 狠狠色成人| 国产精品又黄又爽又色无遮挡| 亚洲色欲色欲www| 岱山县| 自拍视频啪| 伊人福利导航| 国产精品无码天天爽视频| 男人下部进女人下部视频| 平凉市| 国产综合精品一区二区三区| 少妇私密会所按摩到高潮呻吟| 久久久国产一区二区三区四区小说| 永德县| 99re在线| 久久久无码精品国产一区| 国自产拍偷拍精品啪啪模特| 日本丰满老熟妇乱子伦| 四虎影视一区二区精品| AV亚洲?电影AV?AV天堂| 精品毛片日| JIZZ亚洲| 9久久精品|