網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Agent0實現(xiàn)AI自我博弈進化，開創(chuàng)智能新范式

2025-12-01 01:07:53　來源: 老斉科普君

四川舉報

分享至

當(dāng)AI開始“自我出題”：Agent0揭示智能體進化新范式

現(xiàn)在的大語言模型想變成能自己進化的智能體，卡在一個大難題上數(shù)據(jù)。

以前AI學(xué)東西，要么靠人標(biāo)注數(shù)據(jù)，成本高得嚇人；要么用機器合成數(shù)據(jù)，質(zhì)量又不行。

Agent0框架就是來解決這個問題的，它讓AI能自己生成任務(wù)、自己訓(xùn)練，不用再等人類喂數(shù)據(jù)。

Agent0最核心的點子是搞了兩個智能體互相配合，一個當(dāng)“老師”，一個當(dāng)“學(xué)生”，這個“老師”叫課程智能體，專門琢磨怎么出難題，它不是瞎出題，而是通過強化學(xué)習(xí)，專挑那些剛好在“學(xué)生”能力邊界上的題。

說白了，就是學(xué)生做起來有點費勁，但又不是完全不會的那種，課程智能體判斷題好不好，有個特別的標(biāo)準(zhǔn)。

要是學(xué)生做這道題的答案，一半對一半錯，它就覺得這題出得好，給的獎勵最高。

你想啊，太簡單的題學(xué)生全對，學(xué)不到東西；太難的題全錯，也沒用，這種“剛好夠得著”的題，才能逼著學(xué)生進步。

“學(xué)生”叫執(zhí)行智能體，負責(zé)解題，它解題可不是拍腦袋，要走四步：先用自然語言想思路，再寫代碼驗證，然后整合結(jié)果，不對就反復(fù)改。

遇到復(fù)雜計算，它還會喊“工具人”Python解釋器來幫忙，比如算正方形里點的距離，或者遞推數(shù)列的余數(shù)，這些需要精確計算的題，代碼一跑就出結(jié)果。

這倆智能體一起練了幾輪后，變化挺明顯，一開始學(xué)生解題時，平均調(diào)用1.65次工具；練到后來，要調(diào)用2.6次。

工具用得越多，說明題越難，學(xué)生的能力也確實跟著上來了，這種“老師出題-學(xué)生解題-老師再調(diào)整”的循環(huán)，有點像人類教學(xué)里的“因材施教”，只不過這里是AI自己教自己。

光有老師和學(xué)生還不夠，怎么保證訓(xùn)練效果？Agent0搞了個叫ADPO的動態(tài)算法。

以前訓(xùn)練AI，常用多數(shù)投票定答案，但遇到模糊的題，多數(shù)投票很容易錯。

ADPO不這么干，它會根據(jù)題目的模糊程度，動態(tài)調(diào)整訓(xùn)練的權(quán)重。

說白了，就是對那些答案不明確的題，ADPO不硬給結(jié)論，而是放寬更新約束，把那些看起來概率低但可能正確的思路也保留下來。

你想啊，創(chuàng)新的解法一開始往往不被看好，要是直接按多數(shù)票砍掉，可能就錯過突破了。

這種“留有余地”的訓(xùn)練方式，讓AI能在模糊中慢慢找到對的方向，訓(xùn)練的時候，Agent0還會篩選任務(wù)。

太簡單的，學(xué)生一看就會，pass；太難的，怎么都做不對，也pass，只留下那些學(xué)生做對的概率在30%到80%之間的題。

用這種“跳一跳夠得著”的題訓(xùn)練，效率特別高，有數(shù)據(jù)顯示，用這個方法練Qwen3-8B模型，數(shù)學(xué)推理能力從原來的不到五成提升到了近六成。

對比傳統(tǒng)的PPO算法，ADPO更靈活，PPO為了穩(wěn)定，對訓(xùn)練過程約束很嚴(yán)，遇到難題容易“保守治療”，不敢嘗試新方法。

ADPO就敢放手讓AI試錯，在錯誤中學(xué)習(xí)，這種“動態(tài)調(diào)整+容錯”的思路，可能就是Agent0能在無監(jiān)督情況下進步的關(guān)鍵。

現(xiàn)在Agent0已經(jīng)開源了，代碼放在GitHub上，誰都能去看，它目前在數(shù)學(xué)推理上表現(xiàn)不錯，從小學(xué)應(yīng)用題到美國數(shù)學(xué)邀請賽的題都能應(yīng)付。

但也有局限，比如離了工具就玩不轉(zhuǎn)，純語言類的任務(wù)，像寫小說、編故事，效果一般；而且雙智能體訓(xùn)練，計算成本也不低。

未來要是能把圖像、語音這些工具也整合進來，Agent0的能力可能會再上一個臺階。

說不定以后自動駕駛的決策系統(tǒng)，或者幫科學(xué)家發(fā)現(xiàn)新物質(zhì)的AI，都會用上這種“自己教自己”的模式。

不過話說回來，AI自己進化，價值觀怎么對齊也是個問題，這事兒還得慢慢琢磨。

Agent0最讓人覺得有意思的，是它跳出了“人工喂數(shù)據(jù)”的老路子，讓AI通過自我博弈實現(xiàn)進化。

這種“自己出題、自己解題、自己優(yōu)化”的模式，可能真的是智能體進化的新范式。

以后AI會不會越來越“聰明”，就看這種新范式能不能走通了。

這種新范式若能持續(xù)優(yōu)化，AI或許能在沒有明確規(guī)則和大量標(biāo)注數(shù)據(jù)的環(huán)境下，憑借自我探索和博弈不斷積累經(jīng)驗，進而提升自身的智能水平。

就像人類在面對未知領(lǐng)域時，通過不斷嘗試和總結(jié)來獲取知識一樣，AI也有望在這種模式下實現(xiàn)質(zhì)的飛躍，在更多復(fù)雜且多變的場景中展現(xiàn)出強大的適應(yīng)能力和解決問題的能力。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

120多萬的卡宴只要60多萬？很多網(wǎng)友激動了！打飛的到海南買進口車，可行嗎？

都市快報橙柿互動 2025-12-19 18:00:00
17140 跟貼 17140
新聞多一度｜南京博物院藏品現(xiàn)身拍賣市場？最新回應(yīng)來了

新京報 2025-12-19 20:45:08
6336 跟貼 6336

龐家捐出去的寶藏書畫，是怎么得來的？

紅星新聞 2025-12-19 22:33:14
943 跟貼 943

公園回應(yīng)永歷帝趴泥中雕塑引爭議

現(xiàn)代快報 2025-12-15 17:39:59
3721 跟貼 3721
南博在犯一個很危險的錯

第一財經(jīng)資訊 2025-12-19 21:13:02
2162 跟貼 2162

信用卡賬單異常，查賬才知每年收2600元年費，已收8年；律師說法：怎樣的告知才算明確告知

大風(fēng)新聞 2025-12-19 22:42:04
207 跟貼 207

海南封關(guān)首日三亞大東海擠滿俄羅斯游客，海灘廣播以中俄雙語循環(huán)播放

極目新聞 2025-12-18 10:13:32
1338 跟貼 1338
到底是什么肉？消費者：必勝客實物牛排與菜單差距大，口感奇怪；暗訪發(fā)現(xiàn)

上觀新聞 2025-12-19 14:17:05
659 跟貼 659

“中國保險經(jīng)紀(jì)第一人”、江泰保險經(jīng)紀(jì)董事長沈開濤疑似失聯(lián)，此前公司有多人被帶走協(xié)查

紅星新聞 2025-12-19 20:27:12
80 跟貼 80
濟南繞城高速小許家至港溝段改擴建項目全線通車運營

齊魯壹點 2025-12-20 15:16:16
4 跟貼 4
廣州一商戶懸掛動態(tài)火焰LED屏，致5輛消防車現(xiàn)場“救援”，街道辦已要求商戶整改

都市快報橙柿互動 2025-12-20 13:44:59
11 跟貼 11
萌娃在院子里玩被大鵝突襲，媽媽聞聲光速閃現(xiàn)驅(qū)趕護娃

北青網(wǎng)-北京青年報 2025-12-20 12:50:29
17 跟貼 17
2026年全國碩士研究生招生考試今日開考

新京報 2025-12-20 09:28:02
33 跟貼 33
《紐約時報》記者：在中國農(nóng)村我看到震撼一幕

澎湃新聞 2025-12-20 07:05:33
0 跟貼 0
“女子被撞身亡，家屬質(zhì)疑交警不跨區(qū)施救”，大連警方通報

觀察者網(wǎng) 2025-12-20 15:33:45
0 跟貼 0
一句話惹火上身，本想替最快女護士說公道話，不料自己被扒底朝天

梨花黛娛 2025-12-20 15:35:36
0 跟貼 0
上海迪士尼突發(fā)一幕，演出被迫中斷！網(wǎng)友：她還在笑，心太大了

環(huán)球網(wǎng)資訊 2025-12-20 09:29:14
0 跟貼 0
上尉邵瑞，追記一等功！

極目新聞 2025-12-20 14:38:22
0 跟貼 0
大連市公安局：高度重視，立即成立工作組，對事件開展全面調(diào)查，如發(fā)現(xiàn)違法違紀(jì)行為，將嚴(yán)肅處理

新京報政事兒 2025-12-20 14:48:15
0 跟貼 0
寒冬跳水綁車救人的男子，找到了！

環(huán)球網(wǎng)資訊 2025-12-20 15:31:29
0 跟貼 0

全球首條！人形機器人批量上崗寧德時代電池產(chǎn)線單日工作量較人工提升3倍

老斉科普君

世界如此奇妙，一起來認識世界吧

791文章數(shù) 22關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

家居

手機

親子

公開課

今年冬天流行的“露襪”穿法，時髦又減齡！

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

Agent0實現(xiàn)AI自我博弈進化，開創(chuàng)智能新范式

許四清：具身智能的"ChatGPT時刻"還未到來

91歲老人欲把亡妻房子過戶給50歲女友：這是我的權(quán)利

91歲老人欲把亡妻房子過戶給50歲女友：這是我的權(quán)利

我開了20年大巴，現(xiàn)在是一名西甲主帥

戚薇女兒大變樣，10歲就進入“尷尬期”

求解“地方財政困難”

態(tài)度原創(chuàng)

今年冬天流行的“露襪”穿法，時髦又減齡！

高端私宅 理想隱居圣地

40+臺iPhone 17 Pro Max全程4K記錄，圍觀紅牛車手水上飛車

5歲孩子剛放學(xué)回家，媽媽就給他出難題，看看他能搞定嗎？

高端私宅理想隱居圣地