當(dāng)AI開始“自我出題”:Agent0揭示智能體進化新范式
現(xiàn)在的大語言模型想變成能自己進化的智能體,卡在一個大難題上數(shù)據(jù)。
以前AI學(xué)東西,要么靠人標(biāo)注數(shù)據(jù),成本高得嚇人;要么用機器合成數(shù)據(jù),質(zhì)量又不行。
Agent0框架就是來解決這個問題的,它讓AI能自己生成任務(wù)、自己訓(xùn)練,不用再等人類喂數(shù)據(jù)。
![]()
Agent0最核心的點子是搞了兩個智能體互相配合,一個當(dāng)“老師”,一個當(dāng)“學(xué)生”,這個“老師”叫課程智能體,專門琢磨怎么出難題,它不是瞎出題,而是通過強化學(xué)習(xí),專挑那些剛好在“學(xué)生”能力邊界上的題。
說白了,就是學(xué)生做起來有點費勁,但又不是完全不會的那種,課程智能體判斷題好不好,有個特別的標(biāo)準(zhǔn)。
要是學(xué)生做這道題的答案,一半對一半錯,它就覺得這題出得好,給的獎勵最高。
你想啊,太簡單的題學(xué)生全對,學(xué)不到東西;太難的題全錯,也沒用,這種“剛好夠得著”的題,才能逼著學(xué)生進步。
![]()
“學(xué)生”叫執(zhí)行智能體,負責(zé)解題,它解題可不是拍腦袋,要走四步:先用自然語言想思路,再寫代碼驗證,然后整合結(jié)果,不對就反復(fù)改。
遇到復(fù)雜計算,它還會喊“工具人”Python解釋器來幫忙,比如算正方形里點的距離,或者遞推數(shù)列的余數(shù),這些需要精確計算的題,代碼一跑就出結(jié)果。
這倆智能體一起練了幾輪后,變化挺明顯,一開始學(xué)生解題時,平均調(diào)用1.65次工具;練到后來,要調(diào)用2.6次。
工具用得越多,說明題越難,學(xué)生的能力也確實跟著上來了,這種“老師出題-學(xué)生解題-老師再調(diào)整”的循環(huán),有點像人類教學(xué)里的“因材施教”,只不過這里是AI自己教自己。
![]()
光有老師和學(xué)生還不夠,怎么保證訓(xùn)練效果?Agent0搞了個叫ADPO的動態(tài)算法。
以前訓(xùn)練AI,常用多數(shù)投票定答案,但遇到模糊的題,多數(shù)投票很容易錯。
ADPO不這么干,它會根據(jù)題目的模糊程度,動態(tài)調(diào)整訓(xùn)練的權(quán)重。
說白了,就是對那些答案不明確的題,ADPO不硬給結(jié)論,而是放寬更新約束,把那些看起來概率低但可能正確的思路也保留下來。
![]()
你想啊,創(chuàng)新的解法一開始往往不被看好,要是直接按多數(shù)票砍掉,可能就錯過突破了。
這種“留有余地”的訓(xùn)練方式,讓AI能在模糊中慢慢找到對的方向,訓(xùn)練的時候,Agent0還會篩選任務(wù)。
太簡單的,學(xué)生一看就會,pass;太難的,怎么都做不對,也pass,只留下那些學(xué)生做對的概率在30%到80%之間的題。
用這種“跳一跳夠得著”的題訓(xùn)練,效率特別高,有數(shù)據(jù)顯示,用這個方法練Qwen3-8B模型,數(shù)學(xué)推理能力從原來的不到五成提升到了近六成。
![]()
對比傳統(tǒng)的PPO算法,ADPO更靈活,PPO為了穩(wěn)定,對訓(xùn)練過程約束很嚴(yán),遇到難題容易“保守治療”,不敢嘗試新方法。
ADPO就敢放手讓AI試錯,在錯誤中學(xué)習(xí),這種“動態(tài)調(diào)整+容錯”的思路,可能就是Agent0能在無監(jiān)督情況下進步的關(guān)鍵。
現(xiàn)在Agent0已經(jīng)開源了,代碼放在GitHub上,誰都能去看,它目前在數(shù)學(xué)推理上表現(xiàn)不錯,從小學(xué)應(yīng)用題到美國數(shù)學(xué)邀請賽的題都能應(yīng)付。
但也有局限,比如離了工具就玩不轉(zhuǎn),純語言類的任務(wù),像寫小說、編故事,效果一般;而且雙智能體訓(xùn)練,計算成本也不低。
![]()
未來要是能把圖像、語音這些工具也整合進來,Agent0的能力可能會再上一個臺階。
說不定以后自動駕駛的決策系統(tǒng),或者幫科學(xué)家發(fā)現(xiàn)新物質(zhì)的AI,都會用上這種“自己教自己”的模式。
不過話說回來,AI自己進化,價值觀怎么對齊也是個問題,這事兒還得慢慢琢磨。
Agent0最讓人覺得有意思的,是它跳出了“人工喂數(shù)據(jù)”的老路子,讓AI通過自我博弈實現(xiàn)進化。
![]()
這種“自己出題、自己解題、自己優(yōu)化”的模式,可能真的是智能體進化的新范式。
以后AI會不會越來越“聰明”,就看這種新范式能不能走通了。
這種新范式若能持續(xù)優(yōu)化,AI或許能在沒有明確規(guī)則和大量標(biāo)注數(shù)據(jù)的環(huán)境下,憑借自我探索和博弈不斷積累經(jīng)驗,進而提升自身的智能水平。
就像人類在面對未知領(lǐng)域時,通過不斷嘗試和總結(jié)來獲取知識一樣,AI也有望在這種模式下實現(xiàn)質(zhì)的飛躍,在更多復(fù)雜且多變的場景中展現(xiàn)出強大的適應(yīng)能力和解決問題的能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.