<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      華人團(tuán)隊(duì)提出智能體自我進(jìn)化框架,大幅提升通用推理能力

      0
      分享至

      大語(yǔ)言模型可以從互聯(lián)網(wǎng)上海量的文本中學(xué)習(xí),但當(dāng)這些模型需要進(jìn)化成能夠自主行動(dòng)的智能體(Agent)時(shí),數(shù)據(jù)問(wèn)題變得完全不同。Agent 需要的不是簡(jiǎn)單的文本序列,而是包含“觀察-行動(dòng)-反饋”完整循環(huán)的交互軌跡(trajectory)數(shù)據(jù)。

      相關(guān)研究顯示,這類(lèi)數(shù)據(jù)的收集正成為 Agent 開(kāi)發(fā)的最大瓶頸:人工標(biāo)注成本高昂,合成數(shù)據(jù)質(zhì)量難以保證,而記錄現(xiàn)有 Agent 的軌跡又受限于其能力上限。

      雖然已有一些自我進(jìn)化(self-evolution)方法試圖讓模型自己生成訓(xùn)練數(shù)據(jù),但這些方法普遍面臨兩個(gè)困境:模型只能生成不超出自身知識(shí)范圍的任務(wù),以及僅支持單輪交互而無(wú)法處理復(fù)雜的多步推理。

      面對(duì)這個(gè)困境,近期,由北卡羅來(lái)納大學(xué)教堂山分校(UNC)助理教授姚驊修領(lǐng)導(dǎo)的聯(lián)合團(tuán)隊(duì)提出了 Agent0 框架,試圖通過(guò)引入外部工具和多輪交互來(lái)打破這些局限。


      圖丨相關(guān)論文(來(lái)源:arXiv)

      Agent0 的核心是一個(gè)雙智能體協(xié)同進(jìn)化系統(tǒng)。系統(tǒng)包含兩個(gè)從同一基礎(chǔ)模型初始化的 Agent:課程智能體(Curriculum Agent)負(fù)責(zé)生成問(wèn)題,執(zhí)行智能體(Executor Agent)則嘗試解決這些問(wèn)題。

      但課程智能體不是隨意出題,而是通過(guò)強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)優(yōu)化,專(zhuān)門(mén)生成那些恰好處于執(zhí)行智能體能力邊界的任務(wù)。

      這個(gè)邊界如何界定?研究團(tuán)隊(duì)用了一個(gè)巧妙的方法:讓執(zhí)行智能體對(duì)同一問(wèn)題生成多個(gè)答案,如果答案不一致,說(shuō)明這個(gè)問(wèn)題正好在它能力的邊緣。

      他們將這種不確定性量化為一個(gè)獎(jiǎng)勵(lì)函數(shù),當(dāng)執(zhí)行智能體的答案分布接近 50% 一致時(shí),也就是最糾結(jié)的時(shí)候,獎(jiǎng)勵(lì)最高。這種設(shè)計(jì)確保了生成的任務(wù)既不會(huì)太簡(jiǎn)單讓模型學(xué)不到東西,也不會(huì)難到完全無(wú)法入手。


      圖丨Agent0 自主共演化框架。(來(lái)源:arXiv)

      但這樣還不夠。如果只靠模型自己的知識(shí)生成和解決問(wèn)題,很快就會(huì)陷入停滯,模型不可能憑空創(chuàng)造出超出自己理解范圍的任務(wù)。研究團(tuán)隊(duì)的方法是引入外部工具,具體來(lái)說(shuō)是一個(gè) Python 代碼解釋器。

      這個(gè)工具可以執(zhí)行代碼、進(jìn)行復(fù)雜計(jì)算、驗(yàn)證數(shù)學(xué)結(jié)果。不僅執(zhí)行智能體可以使用這個(gè)工具,課程智能體也配備了同樣的能力。

      這就形成了一個(gè)獨(dú)特的協(xié)同進(jìn)化機(jī)制。執(zhí)行智能體有了代碼解釋器后,可以解決需要復(fù)雜計(jì)算的問(wèn)題,能力邊界向外擴(kuò)展。這時(shí)課程智能體發(fā)現(xiàn),原來(lái)能難倒執(zhí)行智能體的問(wèn)題現(xiàn)在變簡(jiǎn)單了,不確定性獎(jiǎng)勵(lì)下降。

      為了維持獎(jiǎng)勵(lì)水平,課程智能體被迫生成更復(fù)雜的、需要更多工具調(diào)用的問(wèn)題。研究團(tuán)隊(duì)在獎(jiǎng)勵(lì)函數(shù)中特意加入了工具使用頻率的獎(jiǎng)勵(lì)項(xiàng),進(jìn)一步推動(dòng)這個(gè)螺旋上升的過(guò)程。


      圖丨Agent0 的協(xié)同進(jìn)化循環(huán)(來(lái)源:arXiv)

      實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了這個(gè)機(jī)制的有效性。在三輪迭代中,課程智能體生成的任務(wù)里平均工具調(diào)用次數(shù)從 1.65 次增加到 2.60 次,任務(wù)難度也確實(shí)在上升,用第一輪的執(zhí)行智能體去測(cè)試后續(xù)生成的任務(wù),通過(guò)率從 64% 持續(xù)下降到 51%。

      研究團(tuán)隊(duì)手工檢查了生成的問(wèn)題樣本:第一輪的問(wèn)題相對(duì)直接,比如“正方形內(nèi)至少需要多少個(gè)點(diǎn)才能保證有兩個(gè)點(diǎn)距離不超過(guò) 0.25 單位”;到了第三輪,問(wèn)題演化為“一個(gè)滿足特定遞推關(guān)系的正整數(shù)序列,求第 2024 項(xiàng)除以 1,000 的余數(shù)”,這需要設(shè)計(jì)算法、編寫(xiě)代碼、處理大數(shù)運(yùn)算。

      執(zhí)行智能體的訓(xùn)練面臨另一個(gè)挑戰(zhàn):沒(méi)有人工標(biāo)注,怎么知道答案對(duì)不對(duì)?系統(tǒng)采用的是多數(shù)投票機(jī)制,讓執(zhí)行智能體對(duì)每個(gè)問(wèn)題生成 10 個(gè)答案,把得票最多的答案當(dāng)作“正確答案”。

      但研究團(tuán)隊(duì)意識(shí)到這種偽標(biāo)簽(pseudo-label)的可靠性參差不齊。對(duì)于執(zhí)行智能體回答高度一致的簡(jiǎn)單任務(wù),多數(shù)投票結(jié)果可信;對(duì)于回答分散的困難任務(wù),偽標(biāo)簽可能就是錯(cuò)的。

      他們?yōu)榇碎_(kāi)發(fā)了 ADPO(Ambiguity-Dynamic Policy Optimization,歧義動(dòng)態(tài)策略?xún)?yōu)化)算法。這個(gè)算法的核心思路是“看菜下碟”,根據(jù)任務(wù)的歧義程度動(dòng)態(tài)調(diào)整訓(xùn)練策略。對(duì)于高歧義任務(wù),降低訓(xùn)練信號(hào)的權(quán)重,避免模型在可能錯(cuò)誤的標(biāo)簽上過(guò)度學(xué)習(xí)。

      同時(shí)還放寬策略更新的約束,給模型更大的探索空間。標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)算法為了穩(wěn)定性會(huì)嚴(yán)格限制每步更新的幅度,但分析顯示這種限制主要壓制的是那些概率低但可能正確的答案路徑,對(duì)困難任務(wù)反而不利。

      執(zhí)行智能體的訓(xùn)練還包含一個(gè)關(guān)鍵設(shè)計(jì):多輪交互。不同于傳統(tǒng)的單次輸入-輸出,執(zhí)行代理會(huì)進(jìn)行多步推理:先生成自然語(yǔ)言推理,識(shí)別需要計(jì)算的部分,生成 Python 代碼,執(zhí)行代碼獲得結(jié)果,將結(jié)果融入推理過(guò)程,必要時(shí)進(jìn)行多輪代碼調(diào)用,最終給出答案。這模擬了人類(lèi)解決復(fù)雜問(wèn)題時(shí)“嘗試-反饋-修正”的過(guò)程。

      當(dāng)然,不是課程智能體生成的所有任務(wù)都適合拿來(lái)訓(xùn)練。系統(tǒng)會(huì)根據(jù)自洽性分?jǐn)?shù)篩選,只保留那些執(zhí)行智能體自洽性在 0.3 到 0.8 之間的任務(wù)——太簡(jiǎn)單(接近 1)學(xué)不到東西,太難(接近 0)偽標(biāo)簽不可靠。

      在 Qwen3-8B 基礎(chǔ)模型上的測(cè)試結(jié)果相當(dāng)可觀。經(jīng)過(guò)三輪迭代,數(shù)學(xué)推理能力從 49.2% 提升到 58.2%,漲幅約為 18%。在 MATH(高中競(jìng)賽數(shù)學(xué))、GSM8K(小學(xué)應(yīng)用題)、2024 和 2025 年美國(guó)數(shù)學(xué)邀請(qǐng)賽等多個(gè)基準(zhǔn)上,模型表現(xiàn)也都有穩(wěn)定提升。


      圖丨數(shù)學(xué)推理基準(zhǔn)的綜合結(jié)果(來(lái)源:arXiv)

      更重要的是這種方法所表現(xiàn)出的泛化能力。雖然訓(xùn)練聚焦在數(shù)學(xué)問(wèn)題上,但模型在通用推理任務(wù)上的表現(xiàn)也提升了約 24%。SuperGPQA(研究生水平的跨學(xué)科問(wèn)題)從 28.3% 提升到 33.0%,MMLU-Pro(多任務(wù)語(yǔ)言理解)從 51.8% 提升到 63.4%,BBEH(Big-Bench 困難子集)從 8.6% 提升到 13.7%。這說(shuō)明通過(guò)工具輔助培養(yǎng)的多步推理能力確實(shí)可以遷移到其他領(lǐng)域。

      對(duì)比其他無(wú)需外部數(shù)據(jù)的方法,Agent0 比 R-Zero 方法提升了 6.4%,相比同樣使用代碼執(zhí)行器的 Absolute Zero 提升了 10.6%,甚至比依賴(lài) OpenAI API 的 Socratic-Zero 還高出 3.7%。

      消融實(shí)驗(yàn)進(jìn)一步證明去掉任何一個(gè)核心組件都會(huì)導(dǎo)致性能下降:如果移除課程智能體的訓(xùn)練,性能將大幅下跌 9.3%;若不給予工具使用獎(jiǎng)勵(lì),則下降 7.2%。

      不過(guò),團(tuán)隊(duì)表示這一方法更適合有明確驗(yàn)證標(biāo)準(zhǔn)的任務(wù),比如數(shù)學(xué)、編程、邏輯推理。對(duì)于創(chuàng)意寫(xiě)作、風(fēng)格設(shè)計(jì)這類(lèi)主觀性強(qiáng)的任務(wù),多數(shù)投票機(jī)制就不太管用了。

      而且雖然省去了人工標(biāo)注,但同時(shí)訓(xùn)練兩個(gè) Agent、每個(gè)任務(wù)生成 10 個(gè)候選答案,計(jì)算開(kāi)銷(xiāo)也不小。框架目前依賴(lài)能提供客觀反饋的工具,對(duì)純語(yǔ)言推理或需要人類(lèi)主觀判斷的任務(wù)適用性有限。

      但 Agent0 展示的方向值得關(guān)注。隨著 Agent 應(yīng)用越來(lái)越廣,軌跡數(shù)據(jù)需求會(huì)持續(xù)增長(zhǎng),完全依賴(lài)人工標(biāo)注顯然不可持續(xù)。Agent0 證明了 AI 系統(tǒng)可以在沒(méi)有人類(lèi)直接監(jiān)督的情況下,通過(guò)精心設(shè)計(jì)的自我博弈和工具輔助實(shí)現(xiàn)能力的螺旋式上升。

      目前,研究團(tuán)隊(duì)已經(jīng)將相關(guān)代碼開(kāi)源。

      參考資料:

      相關(guān)論文:https://arxiv.org/pdf/2511.16043

      項(xiàng)目地址:https://github.com/aiming-lab/Agent0

      運(yùn)營(yíng)/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      張本智和接受日媒采訪,竟引用高市早苗的話,網(wǎng)友:太猖狂了

      張本智和接受日媒采訪,竟引用高市早苗的話,網(wǎng)友:太猖狂了

      鐵錘簡(jiǎn)科
      2025-12-18 17:33:58
      高市早苗連續(xù)2天喊話中國(guó),承認(rèn)自己該反思,希望與中方高層對(duì)話

      高市早苗連續(xù)2天喊話中國(guó),承認(rèn)自己該反思,希望與中方高層對(duì)話

      博覽歷史
      2025-12-18 17:19:10
      苦楝被認(rèn)為可解決全球難題,引入歐美后火了,我國(guó)卻為何很少種?

      苦楝被認(rèn)為可解決全球難題,引入歐美后火了,我國(guó)卻為何很少種?

      貍貓之一的動(dòng)物圈
      2025-12-17 10:30:37
      新任干部炫耀公務(wù)員身份 將秘密級(jí)文件首頁(yè)拍照發(fā)朋友圈 被給予黨紀(jì)政務(wù)處分

      新任干部炫耀公務(wù)員身份 將秘密級(jí)文件首頁(yè)拍照發(fā)朋友圈 被給予黨紀(jì)政務(wù)處分

      閃電新聞
      2025-11-05 11:12:01
      洪森又火了,這次不是因?yàn)榕逋ㄌ梗且驗(yàn)樗淖腺e——陳志!

      洪森又火了,這次不是因?yàn)榕逋ㄌ梗且驗(yàn)樗淖腺e——陳志!

      忠于法紀(jì)
      2025-10-18 08:53:26
      再有錢(qián)又怎樣?印度首富小兒子300斤生娃難,兩代人全靠高科技生

      再有錢(qián)又怎樣?印度首富小兒子300斤生娃難,兩代人全靠高科技生

      毒舌小紅帽
      2025-12-16 19:06:34
      自沉駁船封堵港口!俄黑海艦隊(duì)困守新羅西斯克港

      自沉駁船封堵港口!俄黑海艦隊(duì)困守新羅西斯克港

      老馬拉車(chē)莫少裝
      2025-12-18 16:43:10
      國(guó)安隊(duì)新掌門(mén)人還沒(méi)官宣!法比奧就在社媒發(fā)聲,直接做出重要決定

      國(guó)安隊(duì)新掌門(mén)人還沒(méi)官宣!法比奧就在社媒發(fā)聲,直接做出重要決定

      張麗說(shuō)足球
      2025-12-18 17:21:03
      快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

      快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

      FM93浙江交通之聲
      2025-10-28 00:01:43
      24歲美女被騙到緬北,經(jīng)歷兩個(gè)月“雙開(kāi)門(mén)”折磨,被救已不成人形

      24歲美女被騙到緬北,經(jīng)歷兩個(gè)月“雙開(kāi)門(mén)”折磨,被救已不成人形

      阿妹講故事
      2025-03-12 22:39:50
      章澤天也沒(méi)想到,51歲老公劉強(qiáng)東再破天花板,讓整個(gè)歐洲刮目相看

      章澤天也沒(méi)想到,51歲老公劉強(qiáng)東再破天花板,讓整個(gè)歐洲刮目相看

      古木之草記
      2025-12-17 17:43:09
      南通一知名飯店被指“宰客”!網(wǎng)友:備菜也要成本!

      南通一知名飯店被指“宰客”!網(wǎng)友:備菜也要成本!

      好通網(wǎng)
      2025-12-18 11:11:07
      洪森危險(xiǎn)了,不在佩通坦報(bào)復(fù),而是馬仔陳志的150億比特幣被抄!

      洪森危險(xiǎn)了,不在佩通坦報(bào)復(fù),而是馬仔陳志的150億比特幣被抄!

      南宮一二
      2025-10-26 07:52:25
      1980年光緒墓開(kāi)棺老照片:尸體臉朝下左腿斷裂,毛發(fā)檢測(cè)竟藏砒霜

      1980年光緒墓開(kāi)棺老照片:尸體臉朝下左腿斷裂,毛發(fā)檢測(cè)竟藏砒霜

      抽象派大師
      2025-11-26 06:22:16
      柯文哲涉貪案遭求刑28年6個(gè)月?法官宣布全案3月26日宣判

      柯文哲涉貪案遭求刑28年6個(gè)月?法官宣布全案3月26日宣判

      海峽導(dǎo)報(bào)社
      2025-12-18 18:16:04
      央視不播!今晚7:35,CBA焦點(diǎn)大戰(zhàn),郭昊文惡斗家鄉(xiāng)球隊(duì),再?zèng)_40+

      央視不播!今晚7:35,CBA焦點(diǎn)大戰(zhàn),郭昊文惡斗家鄉(xiāng)球隊(duì),再?zèng)_40+

      萌蘭聊個(gè)球
      2025-12-18 07:44:09
      苦等5年,蒙古熟鴨子還是飛了,中俄誰(shuí)也不讓步,坐視大項(xiàng)目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰(shuí)也不讓步,坐視大項(xiàng)目泡湯

      科普100克克
      2025-12-07 18:20:34
      演員向梅:晚年退休后生活凄涼,真相被曝光,才知道背后的傷痛

      演員向梅:晚年退休后生活凄涼,真相被曝光,才知道背后的傷痛

      小熊侃史
      2025-12-18 10:59:04
      安徽一市新任一名副市長(zhǎng)

      安徽一市新任一名副市長(zhǎng)

      網(wǎng)易安徽
      2025-12-18 09:39:01
      漢景帝共有14子,除了皇太子劉徹,剩下的13子在他死后都怎樣了?

      漢景帝共有14子,除了皇太子劉徹,剩下的13子在他死后都怎樣了?

      掠影后有感
      2025-12-17 08:00:16
      2025-12-18 18:52:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評(píng)論獨(dú)家合作
      16011文章數(shù) 514408關(guān)注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創(chuàng)業(yè)大賽

      頭條要聞

      南京博物院稱(chēng)受贈(zèng)5幅畫(huà)被鑒定為"假" 捐贈(zèng)者后人回應(yīng)

      頭條要聞

      南京博物院稱(chēng)受贈(zèng)5幅畫(huà)被鑒定為"假" 捐贈(zèng)者后人回應(yīng)

      體育要聞

      巴黎首奪世界級(jí)冠軍 加冕6冠王比肩巴薩拜仁

      娛樂(lè)要聞

      絲芭放大招了!實(shí)名舉報(bào)鞠婧祎經(jīng)濟(jì)犯罪

      財(cái)經(jīng)要聞

      尹艷林:呼吁加快2.5億新市民落戶(hù)進(jìn)程

      汽車(chē)要聞

      在零下30℃的考場(chǎng)里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

      態(tài)度原創(chuàng)

      本地
      旅游
      健康
      房產(chǎn)
      軍事航空

      本地新聞

      云游安徽|決戰(zhàn)烽火照古今,千秋一脈看宿州

      旅游要聞

      深圳羅湖口岸驚現(xiàn)哈爾濱?這冰雪的浪漫誰(shuí)懂啊

      這些新療法,讓化療不再那么痛苦

      房產(chǎn)要聞

      太強(qiáng)了!封關(guān)時(shí)刻,兩天砸下50億!央企綠發(fā),重倉(cāng)三亞!

      軍事要聞

      福建艦入列后首過(guò)臺(tái)海 臺(tái)方談為何"甲板上沒(méi)有艦載機(jī)"

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 人妻97资源站| 色77777| 鲁丝一区鲁丝二区鲁丝三区| 久久精品水蜜桃av综合天堂| 日日噜噜噜夜夜爽爽狠狠视频 | 拍拍拍| 精品人伦一区二区三区| 中日韩在线视频| 91在线视频| 狠狠肏| 一本无码中文字幕| 成人无码AV片| 九九热在线视频| 亚洲精品久久久久久无码色欲四季 | 伊人久久大香线蕉AV网| 久久久久久久久久久国产| 天天躁日日躁狠狠躁av麻豆男男| 九九精品视频免费观看| 中文字幕亚洲在线| 日韩伦人妻无码| 法国白嫩大屁股xxxx| 少妇被粗大的猛烈进出视频| 成人精诚精品| 一本大道卡一卡二卡三乱码全集资源| 91久久国产性奴调教| 中文字幕乱码人妻无码久久免费| 久久露脸国语精品国产91| 亚洲精品不卡av在线播放| 成人av免费| 99中文视频| 亚洲精品aa| 亚洲AV无码久久精品色欲| 久久精品国产只有精品96| 亚洲一区二区无码影院| 无码av免费毛片一区二区| 国产一卡一卡| 亚洲精品国产精品乱码桃花| 99国产视频在线观看| 朝阳县| 国产91四大| 91丝袜在线|