<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      多輪Agent訓(xùn)練拐點!清華首創(chuàng)可執(zhí)行數(shù)據(jù)閉環(huán),開源超越GPT-5

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導(dǎo)讀】清華團隊提出EigenData系統(tǒng),通過可執(zhí)行數(shù)據(jù)閉環(huán)優(yōu)化多輪Agent訓(xùn)練,在真實場景中使開源模型表現(xiàn)達到與閉源系統(tǒng)相當(dāng)水平。關(guān)鍵在于訓(xùn)練數(shù)據(jù)的穩(wěn)定性和可驗證性,確保模型在交互中能持續(xù)學(xué)習(xí)有效策略,而非依賴不可靠的獎勵信號。

      過去一年,Agent的「能力競賽」幾乎走到了一個拐點:單輪工具調(diào)用、短鏈路推理的提升還在繼續(xù),但一旦進入真實多輪交互,系統(tǒng)開始暴露出完全不同的脆弱性。

      工程團隊越來越頻繁地遇到同一問題:模型在離線評估中表現(xiàn)正常,但一旦進入真實多輪交互,訓(xùn)練信號就開始頻繁失真。

      一次異常的用戶行為、一次工具軌跡跑偏,都會把整段rollout的reward直接歸零,最終把強化學(xué)習(xí)推向錯誤方向。

      越來越多的信號表明Agent訓(xùn)練中:

      多輪Tool-Using Agent的上限,越來越取決于訓(xùn)練信號是否可歸因、可驗證,而不只是模型規(guī)模。

      在τ2-bench等真實Tool-Using Agent基準(zhǔn)中,研究者觀察到,多輪Agent在進入強化學(xué)習(xí)階段后,成功率并不總是隨訓(xùn)練推進而單調(diào)提升,反而常伴隨明顯波動,這些波動并非來自模型能力不足,而更多源于長鏈路交互中用戶行為不穩(wěn)定與獎勵誤歸因的持續(xù)放大。

      一項最新研究從系統(tǒng)層面重構(gòu)了多輪Agent的訓(xùn)練流程:圍繞可執(zhí)行數(shù)據(jù)生成、用戶模型穩(wěn)定化verifier-based獎勵提出了一套新的訓(xùn)練范式,并在τ2-bench的三個真實工具域上完成驗證。


      論文鏈接:https://arxiv.org/abs/2601.22607

      在不引入更大模型規(guī)模的前提下,開源Qwen3系列模型在關(guān)鍵場景中實現(xiàn)了顯著提升:

      Airline中73.0%pass1,與Gemini 3.0 Pro基本持平,明顯高于GPT-5(62.5%)

      Telecom中98.3%pass1,達到當(dāng)前公開的最佳結(jié)果,超過Gemini 3.0 Pro、Claude Sonnet與GPT-5

      這些結(jié)果表明,借助系統(tǒng)級訓(xùn)練范式的優(yōu)化,開源模型在真實工具交互任務(wù)上的可靠性已經(jīng)被推至與主流閉源系統(tǒng)同一梯隊。


      多輪Agent難訓(xùn)

      并不是「不會用工具」

      如果只停留在單輪工具調(diào)用層面,Agent的問題看起來并不復(fù)雜。

      給定輸入、選擇工具、執(zhí)行一次、返回結(jié)果,reward也可以直接對應(yīng)到這一步是否成功。

      但一旦把視角拉到真實的多輪交互中,情況就完全變了。

      對話被拉長為長鏈路的trajectory,工具調(diào)用不再是孤立事件,而是與用戶反饋交錯出現(xiàn);用戶狀態(tài)也不再是靜態(tài)前提,而是在交互過程中不斷暴露、甚至發(fā)生漂移。

      此時,Agent 面對的已經(jīng)不是「會不會用工具」,而是能否在一個持續(xù)變化的系統(tǒng)中保持決策一致性。

      而在現(xiàn)實訓(xùn)練環(huán)境中,模型往往表現(xiàn)出明顯的不穩(wěn)定性,模型容易學(xué)偏,甚至出現(xiàn)效果隨訓(xùn)練波動、難以收斂的問題。

      研究結(jié)果指明主要原因集中在兩點:

      1. 缺乏真正「可用」的訓(xùn)練數(shù)據(jù)

      真正可用于多輪Agent訓(xùn)練的數(shù)據(jù),必須同時覆蓋:

      多輪對話+ 多步工具執(zhí)行 + 用戶側(cè)信息逐步透露/改變偏好。

      問題在于,這樣的數(shù)據(jù)在現(xiàn)實中幾乎不可能通過人工標(biāo)注規(guī)模化獲得。而自動合成的數(shù)據(jù),看似緩解了數(shù)據(jù)稀缺的問題,卻引入了新的隱患。

      在大量樣本中,工具調(diào)用軌跡在文本層面「看起來合理」,但只要真正執(zhí)行一遍,就會觸發(fā)不可完成狀態(tài),trajectory 在中途失敗。

      最終,Agent 學(xué)到的并不是穩(wěn)定、可復(fù)現(xiàn)的工具使用能力,而是一種停留在表層的策略模式(surface-level policy),即它看起來像在做事,卻無法在真實系統(tǒng)中跑通。

      2. 用戶模擬的不穩(wěn)定性會直接污染RL信號

      在interactive RL設(shè)置中,用戶模擬器是驅(qū)動對話不可或缺的一環(huán)。但我們發(fā)現(xiàn),開源模型充當(dāng)用戶時經(jīng)常無法穩(wěn)定遵循指令,甚至?xí)S意調(diào)用工具,導(dǎo)致 rollout 提前失敗。

      在多輪Tool-Using Agent的訓(xùn)練中,reward不再只取決于某一次工具調(diào)用是否成功,而是由整段交互trajectory的最終狀態(tài)統(tǒng)一決定。這意味著,只要鏈路中任何一個環(huán)節(jié)出現(xiàn)偏差:一次用戶行為異常、一次工具誤調(diào)用、一次狀態(tài)提前終止,整段rollout的reward都可能被直接歸零。

      從結(jié)果上看,Agent「失敗」了;但從系統(tǒng)內(nèi)部看,失敗并不一定來自agent policy本身,也可能來自于用戶模型本身的不穩(wěn)定性。


      在真實訓(xùn)練過程中,user model往往并不能始終穩(wěn)定地遵循任務(wù)設(shè)定。它可能偏離指令、誤調(diào)用工具,甚至在關(guān)鍵步驟提前結(jié)束對話。

      這些行為本身并非agent決策的結(jié)果,卻會直接決定最終reward。

      于是,情況就變成Agent在局部決策上是正確的,但由于用戶行為偏移,最終環(huán)境狀態(tài)失敗,reward被統(tǒng)一判為0

      從強化學(xué)習(xí)的視角看,這構(gòu)成了嚴(yán)重的credit assignment failure。reward無法區(qū)分失敗究竟源于 agent policy,還是來自user policy的異常行為。在這種條件下,強化學(xué)習(xí)并不會「修正」問題,而是會不斷將噪聲反向傳播到agent上,最終推動策略朝著錯誤方向收斂。

      從這個角度看,多輪Agent的訓(xùn)練瓶頸,并不完全是算法問題,而是一個系統(tǒng)結(jié)構(gòu)問題。

      基于這一判斷,論文并沒有繼續(xù)在強化學(xué)習(xí)算法層面疊加復(fù)雜性,而是選擇從更底層的訓(xùn)練流程入手,重新拆解agent與user的角色分工。

      EigenData不「生成更多數(shù)據(jù)」

      讓數(shù)據(jù)自己進化

      在多輪Tool-Using Agent的訓(xùn)練中,數(shù)據(jù)問題往往被簡化為一個數(shù)量問題:數(shù)據(jù)夠不夠多、覆蓋夠不夠廣。

      但在真實long-horizon交互場景下,這個假設(shè)并不成立。

      大量 synthetic data 在文本層面看起來合理,邏輯自洽、對話完整,但一旦真正執(zhí)行工具調(diào)用,就會暴露出根本性問題:工具參數(shù)不合法、狀態(tài)無法到達、任務(wù)在中途進入不可完成區(qū)域。

      這意味著,模型并不是在「失敗中學(xué)習(xí)」,而是在用不可執(zhí)行的軌跡訓(xùn)練自己。因此原文中EigenData的設(shè)計重點關(guān)注了如何構(gòu)建一個可閉環(huán)演化的數(shù)據(jù)生成過程,即:

      生成數(shù)據(jù) → 發(fā)現(xiàn)失敗 → 自動修正prompt與workflow → 再生成

      EigenData并不是傳統(tǒng)意義上的synthetic data pipeline,而是一個能夠根據(jù)失敗反饋持續(xù)迭代的多智能體系統(tǒng),結(jié)合自檢與自修復(fù)機制,逐步構(gòu)建出高質(zhì)量的數(shù)據(jù)集合。

      在EigenData的工作流程中,每條訓(xùn)練樣本都被要求必須滿足一個硬性條件:其對應(yīng)的工具調(diào)用軌跡可以被完整執(zhí)行,并由verifier在代碼層面驗證最終環(huán)境狀態(tài)。

      如果執(zhí)行失敗,失敗信息會被回流,用于自動修正 prompt、workflow 以及生成策略本身。

      這使得數(shù)據(jù)分布并不是一次性生成的結(jié)果,而是會隨著失敗反饋持續(xù)向「可執(zhí)行區(qū)域」收斂。通過自動生成多輪對話并執(zhí)行真實工具調(diào)用,每一條數(shù)據(jù)實例都會配套一個「可執(zhí)行驗證器」,使得 Agent 行為是否成功可以通過代碼直接判斷,因此能夠保證數(shù)據(jù)質(zhì)量「越跑越好」。

      從系統(tǒng)角度看,通過這一動作,EigenData不斷縮小了模型可以學(xué)習(xí)到的行為空間,使其對齊真實系統(tǒng)的可行解集。這一步保證了模型在RL介入之前,每個reward都可以真正對應(yīng)到一個已經(jīng)被系統(tǒng)驗證后的結(jié)果,使訓(xùn)練信號本身是可執(zhí)行、可驗證、可復(fù)現(xiàn)的。

      先訓(xùn)用戶模型,再訓(xùn)Agent

      即便訓(xùn)練數(shù)據(jù)本身是可執(zhí)行的,多輪 Agent 的訓(xùn)練仍然可能失敗。

      原因在于,在interactive agent場景中,用戶模型本身就是系統(tǒng)的一部分

      如果user policy存在漂移或不穩(wěn)定性,即便 agent 的局部決策是正確的,整段 trajectory 仍可能因為用戶行為異常而失敗,最終 reward 被統(tǒng)一歸零。

      基于這一認(rèn)識,研究者們將訓(xùn)練流程拆分為兩步:

      1. 首先,使用EigenData生成的可執(zhí)行對話數(shù)據(jù),對user model進行SFT微調(diào),使其行為穩(wěn)定、可控,并與任務(wù)設(shè)定對齊;

      2. 在用戶側(cè)不再成為主要噪聲源之后,才引入強化學(xué)習(xí)優(yōu)化agent policy。

      這一拆分并不是額外的工程復(fù)雜度,而是一個系統(tǒng)級前置條件。它從根本上減少了 reward 的混雜來源,使強化學(xué)習(xí)不再頻繁懲罰「正確但被用戶行為破壞的決策」,訓(xùn)練曲線也因此變得穩(wěn)定、可預(yù)測。

      用「可執(zhí)行結(jié)果」替代主觀獎勵

      在強化學(xué)習(xí)階段,該方法不再依賴模糊的reward model,而是用任務(wù)自帶的驗證函數(shù)(verifier)直接檢查最終環(huán)境狀態(tài),實現(xiàn)「對 / 錯」的可執(zhí)行、可審計獎勵信號。

      在此基礎(chǔ)上,引入GRPO的group-relative advantage:針對同一任務(wù)采樣多條trajectory,進行組內(nèi)相對優(yōu)勢學(xué)習(xí),以降低long-horizon交互導(dǎo)致的高方差與不穩(wěn)定性。

      同時使用dynamic filtering剔除「全對/全錯」的低信息樣本,將訓(xùn)練預(yù)算集中于具有區(qū)分度的任務(wù)子集。

      在這些設(shè)計的共同作用下,RL信號更干凈、更穩(wěn)定,訓(xùn)練過程也更不易出現(xiàn)策略漂移。


      實驗結(jié)果

      開源模型訓(xùn)練至接近封閉模型水準(zhǔn)

      為了驗證這一套系統(tǒng)級訓(xùn)練范式在真實交互場景中的有效性,研究者在τ2-bench的三個真實工具任務(wù)(Airline / Retail / Telecom)上進行了系統(tǒng)評估。評估采用pass1指標(biāo),即要求Agent在一次完整多輪交互中成功完成任務(wù),這一指標(biāo)能夠更直接反映 Agent 在 long-horizon 場景下的穩(wěn)定性與可靠性。

      結(jié)果顯示,性能提升并非偶然,而是在多個場景中穩(wěn)定出現(xiàn)

      • 在規(guī)則最復(fù)雜的Telecom場景中,Qwen3-235B-A22B-2507經(jīng)SFT + RL訓(xùn)練后,pass1提升至98.3%,進入當(dāng)前公開結(jié)果的最強梯隊;

      • Airline場景中,同一模型達到73.0% pass1,整體表現(xiàn)已與主流閉源系統(tǒng)對齊。

      • 更關(guān)鍵的是,在三域混合訓(xùn)練設(shè)置下,一個模型同時學(xué)習(xí)多個工具環(huán)境,最終仍能保持81.3% 的平均 pass1,表明該方法學(xué)到的并非單一場景下的「投機策略」,而是更具通用性的 tool-using 能力。


      進一步的消融實驗揭示了這些提升的來源。

      一旦移除validation / verifier或數(shù)據(jù)自進化機制,SFT 階段的性能便出現(xiàn)明顯下降,說明數(shù)據(jù)的可執(zhí)行性與多樣性是能力形成的基礎(chǔ);而如果在未對用戶模型進行穩(wěn)定化預(yù)訓(xùn)練的情況下直接引入強化學(xué)習(xí),整體性能反而會退化。這一結(jié)果表明,只有在用戶行為被有效控制的前提下,強化學(xué)習(xí)才能持續(xù)帶來正向增益。


      可執(zhí)行訓(xùn)練信號并不是一個「錦上添花」的技巧,而是一條明確的系統(tǒng)分界線。

      當(dāng) Tool-Using Agent 進入真實多輪交互,問題不再只是「強化學(xué)習(xí)還能不能收斂」,而是訓(xùn)練信號本身是否具備工程意義:它是否可執(zhí)行、可歸因、可驗證,是否真正對應(yīng)到一個可復(fù)現(xiàn)的系統(tǒng)結(jié)果。這正是EigenData介入的位置。

      通過將數(shù)據(jù)生成、工具執(zhí)行與verifier校驗統(tǒng)一進一個閉環(huán)系統(tǒng),EigenData不只是為RL提供了「更干凈的reward」,而是重新定義了什么樣的訓(xùn)練信號才值得被強化學(xué)習(xí)放大。在這一前提下,GRPO、dynamic filtering等優(yōu)化策略才第一次擁有清晰、穩(wěn)定的作用對象。

      論文給出的判斷標(biāo)準(zhǔn)其實非常直接:如果一個多輪Agent的訓(xùn)練流程無法明確回答「reward 到底在獎勵誰、失敗究竟由誰導(dǎo)致、同一任務(wù)下哪條軌跡更好」,那它在工程上仍停留在「看起來能跑」的 workflow,而不是「可以持續(xù)優(yōu)化」的system。

      從這個角度看,訓(xùn)練中出現(xiàn)的performance oscillation、reward 被異常用戶行為清零、RL 反而帶來退化,并不是實現(xiàn)細(xì)節(jié)上的瑕疵,而是訓(xùn)練信號尚未被系統(tǒng)性構(gòu)造的必然結(jié)果。

      這項工作的核心貢獻,并不在于提出一種新的RL技巧,而在于通過EigenData將多輪Agent的post-training推向一個新的工程范式:

      當(dāng)訓(xùn)練信號先被構(gòu)造成可執(zhí)行、可歸因、可驗證的系統(tǒng)對象時,強化學(xué)習(xí)才真正成為一種可控的系統(tǒng)優(yōu)化;在此之前,再多的 rollout 和更大的模型,也只是在噪聲之上疊加計算。

      參考資料:

      https://arxiv.org/abs/2601.22607

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      總票房突破70億!暫列全球第一

      總票房突破70億!暫列全球第一

      可樂談情感
      2026-02-22 02:01:21
      不上市的字節(jié),正在改寫中國互聯(lián)網(wǎng)的戰(zhàn)爭規(guī)則

      不上市的字節(jié),正在改寫中國互聯(lián)網(wǎng)的戰(zhàn)爭規(guī)則

      新浪財經(jīng)
      2026-02-15 23:17:51
      別追黃金牛市了!金價破6500美元是比08年次貸危機更狠的危機來了

      別追黃金牛市了!金價破6500美元是比08年次貸危機更狠的危機來了

      別人都叫我阿腈
      2026-02-21 13:31:10
      人到中年,最佳抗衰老的8種運動,每周2次,越練越年輕!

      人到中年,最佳抗衰老的8種運動,每周2次,越練越年輕!

      馬拉松跑步健身
      2026-02-22 06:30:04
      被央視怒批、洋相百出、腹中空空,這幾位“絕望的文盲”憑啥能火

      被央視怒批、洋相百出、腹中空空,這幾位“絕望的文盲”憑啥能火

      娛說瑜悅
      2025-12-13 12:24:22
      冬奧會|22日看點:最后一個沖金點!中國軍團能否創(chuàng)境外最佳戰(zhàn)績?

      冬奧會|22日看點:最后一個沖金點!中國軍團能否創(chuàng)境外最佳戰(zhàn)績?

      新華社
      2026-02-22 04:45:05
      央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風(fēng)景

      央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風(fēng)景

      壹月情感
      2025-12-02 16:42:19
      營養(yǎng)醫(yī)學(xué)專家夏萌:我為什么倡導(dǎo)低碳水飲食

      營養(yǎng)醫(yī)學(xué)專家夏萌:我為什么倡導(dǎo)低碳水飲食

      上觀新聞
      2026-02-20 08:29:10
      斯諾克神奇紀(jì)錄延續(xù)?巫師或難堪大任,趙心童奪冠將達成4項成就

      斯諾克神奇紀(jì)錄延續(xù)?巫師或難堪大任,趙心童奪冠將達成4項成就

      劉姚堯的文字城堡
      2026-02-22 08:19:35
      董宇輝弟弟不是來湊熱鬧的,他是“與輝同行”真正壓艙石式的人物,直播臺前笑鬧是親

      董宇輝弟弟不是來湊熱鬧的,他是“與輝同行”真正壓艙石式的人物,直播臺前笑鬧是親

      陳意小可愛
      2026-02-22 06:57:41
      美總統(tǒng)特朗普稱將向格陵蘭島派遣“醫(yī)院船”

      美總統(tǒng)特朗普稱將向格陵蘭島派遣“醫(yī)院船”

      界面新聞
      2026-02-22 08:42:25
      1993年六位上將,還有三位健在,都快100歲了

      1993年六位上將,還有三位健在,都快100歲了

      文史茶館2020
      2026-02-15 16:43:24
      全球低利率時代遭遇重大挑戰(zhàn)

      全球低利率時代遭遇重大挑戰(zhàn)

      睿知睿見
      2026-02-21 07:57:47
      女子麗江35萬買玉鐲,三年后帶丈夫重游,老板見鐲子癱軟在地

      女子麗江35萬買玉鐲,三年后帶丈夫重游,老板見鐲子癱軟在地

      匹夫來搞笑
      2026-02-21 16:52:33
      著名專家預(yù)言:試管嬰兒壽命僅40年,那首例試管嬰兒如今怎樣了?

      著名專家預(yù)言:試管嬰兒壽命僅40年,那首例試管嬰兒如今怎樣了?

      云舟史策
      2026-02-20 19:17:08
      張?zhí)m赴臺長住真相,不是只為未出生的孫子,也因心疼玥兒和霖霖

      張?zhí)m赴臺長住真相,不是只為未出生的孫子,也因心疼玥兒和霖霖

      舊事別提
      2026-02-21 22:51:23
      王雷一家四口普吉島過年,李小萌圓潤顯福相,兒子虎頭虎腦超吸粉

      王雷一家四口普吉島過年,李小萌圓潤顯福相,兒子虎頭虎腦超吸粉

      掌秋看世界
      2026-02-22 08:27:20
      這組照片是張學(xué)良軟禁時真實生活,奢華至極,完全不像囚徒生活!

      這組照片是張學(xué)良軟禁時真實生活,奢華至極,完全不像囚徒生活!

      芊芊子吟
      2026-02-19 12:00:06
      深入揭秘沈騰林允育子真相,粉絲脫粉、三年緋聞,沈騰是否冤枉?

      深入揭秘沈騰林允育子真相,粉絲脫粉、三年緋聞,沈騰是否冤枉?

      嘴角上翹的弧度
      2026-01-29 02:26:42
      福建初中生扶老人遭索賠22萬后續(xù):開庭前原告撤訴,真相藏不住了

      福建初中生扶老人遭索賠22萬后續(xù):開庭前原告撤訴,真相藏不住了

      筆墨V
      2026-02-22 02:08:09
      2026-02-22 09:43:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      14567文章數(shù) 66631關(guān)注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      河北"巧克力釣魚大爺"因病去世享年75歲 家屬發(fā)聲

      頭條要聞

      河北"巧克力釣魚大爺"因病去世享年75歲 家屬發(fā)聲

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應(yīng)

      財經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      藝術(shù)
      數(shù)碼
      健康
      旅游
      公開課

      藝術(shù)要聞

      這本書法,80%的人無法讀懂!網(wǎng)友直言:看到第二字就傻眼!

      數(shù)碼要聞

      2026中國電影票房暫列全球第一;小米17系列進軍全球市場

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      旅游要聞

      五臺山景區(qū)明火已被撲滅 未造成人員傷亡

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版