<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      訓練獎勵太稀疏?港中文聯合美團給Agent加上「過程分」

      0
      分享至



      在很多大模型和 Agent 的訓練里,最常見的一種做法就是只看結果:最后答案對了就給獎勵,錯了就當 0 分。

      在單輪問答里,這樣「只看結果」還勉強能用;可一旦換成 Agent 這種要多輪對話、搜索、刷網頁、寫代碼、讀文件的長鏈任務,就變成用一個 bit 去概括一整條復雜軌跡。

      結果就是:差一點就做成功的過程,和從第一步就跑偏的過程,在獎勵眼里沒區別;訓練看不出哪種失敗更有價值,手寫規則或人工細粒度打分又很難覆蓋開放環境、多模態這些復雜情況。

      港中文和美團在這篇工作里,盯上的就是這個核心矛盾:

      Agent 需要長程、細粒度的反饋,但我們手里大多只有終局對錯這樣的粗粒度獎勵。



      • 論文標題:Exploring Reasoning Reward Model for Agents
      • 論文鏈接:https://arxiv.org/pdf/2601.22154
      • 項目地址:https://github.com/kxfan2002/Reagent

      為了解決這個矛盾,作者先造了一個「懂推理、看得懂工具調用」的評審器,給 Agent 的整條軌跡打「過程分」和「評語」,再把這份反饋喂回訓練。

      這也是 Reagent 框架的核心出發點:讓 Agent 不再只看結果,而是也要為自己的思考和工具調用過程負責。

      給 Agent 的思路打個分

      這篇工作最重要的一步,就是不再只看 Agent 最后有沒有把題做對,而是開始認真給整個思考過程打分。

      研究團隊先搭了一套專門面向智能體的「思考評分類」數據:里面收集了各種真實的 Agent 軌跡,有推理順暢但執行失誤的,有一路亂猜卻剛好蒙對的,也有工具用得亂七八糟的。每一條軌跡,都被標注成一份「閱卷意見」,既指出思路哪里站得住腳、哪里明顯跑偏,也給出一個 0~1 之間的整體分數。

      基于這套數據,他們訓練了一個專門的「思考評分模型」——Agent-RRM。它不會只看最后一行答案,而是把整個過程從頭看到尾,然后輸出三樣東西:一段內部分析、一小段給 Agent 看的批評意見,再加上一個綜合分數。

      舉個簡單的例子:

      • 兩條軌跡最后都答對了,但一條邏輯跳躍嚴重、工具亂用,只是誤打誤撞到達正確答案,那 Agent-RRM 可能只給個 0.3;
      • 另一條從一開始就分析清楚、什么時候該搜、什么時候該點進網頁、怎么利用信息都說得明明白白,這種思路就可能拿到 0.9。

      就像老師改卷,不是只看「A/B/C/D」選了啥,還會看你中間的演算過程,給「過程分」。這一招的目標很明確:

      教會 Agent「怎么想」「怎么用工具」,而不是教它「怎么猜對答案」。

      統一文本批評和獎勵信號:Reagent 框架

      有了會打「思維分」的 Agent-RRM,還要想清楚怎么把這些反饋喂回給 Agent。這就是 Reagent 框架要解決的事情:把「文字點評」和「分數獎勵」統一起來,用在智能體訓練里。



      作者設計了三種用法,可以理解成三檔「加持程度」:

      ① 只加點評,不改模型(Reagent-C)

      最輕的一種:不動 Agent 參數,只在推理時多一步「聽老師講評」。

      大致流程就是:Agent 先做一遍題,Agent-RRM 看完給一小段 critique,指出關鍵問題,然后讓 Agent 在這段點評的基礎上重做一遍。這相當于給任何現成的大模型,外掛一個「老師幫你看一眼再交卷」的過程。

      ② 給獎勵加一條「過程分」(Reagent-R)

      再往上走一步,就是把 Agent-RRM 打出來的分數,當成額外獎勵加進來。

      以前的訓練只看「做對 / 做錯」那一分,現在變成「結果對錯 + 過程好壞」兩條線一起算:哪怕最后沒完全做對,只要思路清晰、工具用得合理,也不會被當作垃圾樣本一票否決。這對長鏈、多工具的任務特別重要,可以緩解那種「一不小心就全是 0 分」的獎勵稀疏問題。

      ③ 把「第一次想」和「批評后再想」一起訓(Reagent-U)

      最強的一檔,是這篇文章重點強調的 Reagent-U。它一口氣把兩種反饋都用上:

      • 一方面,讓 Agent 學會第一次就少犯低級錯誤;
      • 另一方面,也教它「聽完批評以后,怎樣更聰明地改答案」。

      訓練時,同一個問題會有「首答」和「聽完點評后的再答」兩條軌跡,它們都拿到「結果獎勵 + 過程分數」,一起放進同一個訓練循環里優化。這樣做的好處是:模型不會只在某一種模式上刷分,而是整體上把「想清楚」「用好工具」「能根據反饋修正自己」這幾件事,一起學進去。

      實際部署時,Reagent-U 又不用再依賴外部的 Agent-RRM 提點評,直接就能像普通 Agent 一樣用 —— 那些「老師改卷時說過的話」,已經被揉進模型參數里了。

      這套設計帶來了什么提升?

      在實驗里,作者主要看了三件事:文字點評本身有沒有用、過程分數能不能幫 RL 學得更好、統一之后是不是有效提升。





      先看最輕量的那種:只加一段文本點評、不改模型參數。結果表明,在不少數學和搜索任務上,「聽完一段 Agent-RRM 的批評再答一次」,確實能穩定把正確率拉上去。

      再把過程分數加進訓練里之后,Agent 不是只會去迎合最后那一個對錯信號,而是更愿意走那些「雖然這次沒完全做成,但整體思路是對的」的方向。

      最后,當文本批評和獎勵分數在 Reagent-U 里統一起來時,提升就更直觀了:

      在 GAIA 這個通用 Agent 基準的文本子集上,基于 8B 模型的 Reagent-U,可以把平均成績拉到43.7%,基本追上甚至部分超過了一些更大參數量的開源 Agent。在 WebWalkerQA、HLE、xbench 等其他復雜任務上,也普遍比「只看終局獎勵」的版本更穩,更不容易被「瞎蒙對」或者「瞎忙活」帶偏。

      作者還測試了模型在 GAIA 全集上的表現,面對多模態的通用 agent 任務,Reagent-U 也依然能打。



      港中文聯合美團這套 Reagent 框架,把「老師給過程打分」這件事,真正搬進了 Agent 訓練里。結果證明,只要能看懂、能評價思考過程,8B 級別的 Agent 也有機會在很多復雜任務上打出和大模型一樣好看的成績單。

      更多細節請參考論文原文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      加沙劇本在黎巴嫩上演?以軍宣布“銀犁行動”:拆光邊境所有房屋

      加沙劇本在黎巴嫩上演?以軍宣布“銀犁行動”:拆光邊境所有房屋

      菁菁子衿
      2026-04-14 14:05:24
      高人預測:5年后,持有燃油車的家庭,將面對3個現實問題!

      高人預測:5年后,持有燃油車的家庭,將面對3個現實問題!

      福建睿平
      2026-04-14 11:39:33
      很多人降血脂,只會少吃油,真正該多吃的是這 5 類食物

      很多人降血脂,只會少吃油,真正該多吃的是這 5 類食物

      營養師谷傳玲
      2026-04-13 20:37:11
      出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

      出獄后的雷政富滄桑感襲面而來,前后對比引人唏噓

      霹靂炮
      2026-03-14 22:49:47
      單程決死突擊!伊朗飛行員壯烈犧牲,炸翻美司令部,換掉3架美機

      單程決死突擊!伊朗飛行員壯烈犧牲,炸翻美司令部,換掉3架美機

      你是我的小甜甜
      2026-04-13 19:32:43
      屬馬的人,你這輩子最大的“福報”,就是你生的那個崽!

      屬馬的人,你這輩子最大的“福報”,就是你生的那個崽!

      匹夫來搞笑
      2026-04-14 02:10:43
      41歲男子威脅女鄰居發生關系,事后女子為自證清白,讓他再來一次

      41歲男子威脅女鄰居發生關系,事后女子為自證清白,讓他再來一次

      丫頭舫
      2026-04-10 21:54:02
      李金羽換人太迷了!不撤邦本早上田玉達能3-1!戰申花殺富濟貧?

      李金羽換人太迷了!不撤邦本早上田玉達能3-1!戰申花殺富濟貧?

      刀鋒體育
      2026-04-14 10:35:06
      特朗普最新發聲:我周二會見中國大使,不希望看到中方給伊朗武器

      特朗普最新發聲:我周二會見中國大使,不希望看到中方給伊朗武器

      影像溫度
      2026-04-14 12:49:34
      買整本只為抽個1000元紅包,結果刮出100萬

      買整本只為抽個1000元紅包,結果刮出100萬

      體育硬核說
      2026-04-13 18:02:39
      一個農民去上海看病紀實:住院九天半,花費53000元,超心疼!

      一個農民去上海看病紀實:住院九天半,花費53000元,超心疼!

      奶茶麥子
      2026-04-14 12:20:09
      陳曉和肖戰誰更帥?其實單看肖戰,真的很帥,陽光干凈,特別亮眼

      陳曉和肖戰誰更帥?其實單看肖戰,真的很帥,陽光干凈,特別亮眼

      小光侃娛樂
      2026-03-10 12:40:08
      羅志祥在家中猝死?虞書欣爸爸被抓了?張凌赫田曦薇二搭?許光漢周子瑜戀情?流量花拒絕影后同臺?

      羅志祥在家中猝死?虞書欣爸爸被抓了?張凌赫田曦薇二搭?許光漢周子瑜戀情?流量花拒絕影后同臺?

      十錘星人
      2026-04-14 23:12:39
      為什么一般人指揮不了大兵團作戰?除了這五位,還真沒誰了

      為什么一般人指揮不了大兵團作戰?除了這五位,還真沒誰了

      祁州校尉
      2026-04-14 11:00:18
      震撼!諾獎得主&谷歌AI掌門人深度訪談:AI一天走完人類千年的路!300萬科學家已用AI做研究

      震撼!諾獎得主&谷歌AI掌門人深度訪談:AI一天走完人類千年的路!300萬科學家已用AI做研究

      新浪財經
      2026-04-13 13:31:24
      爆冷!神劇情:3度領先被扳平,點球大戰倒下,小因扎吉恥辱出局

      爆冷!神劇情:3度領先被扳平,點球大戰倒下,小因扎吉恥辱出局

      足球狗說
      2026-04-14 05:41:49
      張雪峰,倒在上市前夜

      張雪峰,倒在上市前夜

      帥真商業
      2026-03-25 11:31:43
      王平河系列:思路決定出路(5/9)

      王平河系列:思路決定出路(5/9)

      金昔說故事
      2026-04-14 23:44:28
      劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

      劉亦菲.竟也有這么洶涌的照片,太奔放了微信朋友圈

      動物奇奇怪怪
      2026-04-12 18:51:27
      重慶192路公交師傅火了|觀音橋空中連廊首開段基本建成

      重慶192路公交師傅火了|觀音橋空中連廊首開段基本建成

      上游新聞
      2026-04-14 19:08:31
      2026-04-15 01:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12762文章數 142628關注度
      往期回顧 全部

      科技要聞

      離職同事"煉化"成AI?這屆公司不需要活人了

      頭條要聞

      54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

      頭條要聞

      54歲班主任帶15歲女孩到賓館開房猥褻:將她壓到床上

      體育要聞

      帶出中超最大黑馬!他讓球迷們“排隊道歉”

      娛樂要聞

      網曝鐘麗緹代孕要了個男孩 備孕近10年

      財經要聞

      許家印認罪,他和恒大還有多少欠債?

      汽車要聞

      售12.99萬起/續航2000km 風云T9L上市

      態度原創

      藝術
      手機
      數碼
      公開課
      軍事航空

      藝術要聞

      她的水彩畫竟讓億萬男人傾倒,你絕對想不到!

      手機要聞

      三星Galaxy系列手機/平板在美國市場漲價,最高漲幅達80美元

      數碼要聞

      三款小平板扎堆發布!紅魔、紅米、OPPO,誰會是大家的菜?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗要求五個中東國家賠償戰爭損失

      無障礙瀏覽 進入關懷版