<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      從「知題」到「知人」:UserRL讓智能體學(xué)會「以人為本」

      0
      分享至



      “知人者智,自知者明。”——《道德經(jīng)》

      古人早已洞見:真正的人類智慧,不僅僅在于公式推演、掌握技藝,更是能理解他人、洞察人心。今天的大語言模型已能在代碼、數(shù)學(xué)與工具使用上出色地完成任務(wù),然而距離成為真正的用戶伙伴,它們依舊缺少那份 “知人” 的能力。這主要源于現(xiàn)實交互遠(yuǎn)比解題更加復(fù)雜:

      • 現(xiàn)實交互中,用戶目標(biāo)常常未在最初完全成形(underspecification)、而是在多輪對話中逐步顯露(incrementality)、并且以含蓄 / 間接的方式表達(dá)(indirectness)。
      • 在這種不確定、動態(tài)、多目標(biāo)的語境里,模型不止要會解決用戶需求,更要主動澄清(clarification)、持續(xù)適配(adaptation)、善用工具(tool-use)并做出明智的權(quán)衡(decision-making)。

      這正是智能體面臨的下一個時代課題:從 “會解題” 邁向 “懂用戶”。而要真正回答這一課題,我們需要全新的動態(tài)評測框架與訓(xùn)練機(jī)制:不僅能測量模型在交互中的表現(xiàn),還能驅(qū)動其學(xué)會在用戶不確定與多目標(biāo)的世界里,問之有道,斷之有衡,答之有據(jù)。為此,來自 UIUC 與 Salesforce 的研究團(tuán)隊提出了一套系統(tǒng)化方案:

      • UserBench—— 首次將 “用戶特性” 制度化,構(gòu)建交互評測環(huán)境,用于專門檢驗大模型是否真正 “懂人”;
      • UserRL—— 在 UserBench 及其他標(biāo)準(zhǔn)化 Gym 環(huán)境之上,搭建統(tǒng)一的用戶交互強化學(xué)習(xí)框架,并系統(tǒng)探索以用戶為驅(qū)動的獎勵建模。

      二者相輔相成,把 “以用戶為中心” 從理念落地為可復(fù)現(xiàn)的流程、接口與評測指標(biāo)



      • UserBench 論文鏈接:https://arxiv.org/pdf/2507.22034
      • UserBench 代碼倉庫:https://github.com/SalesforceAIResearch/UserBench



      • UserRL 論文鏈接:https://arxiv.org/pdf/2509.19736
      • UserRL 代碼倉庫:https://github.com/SalesforceAIResearch/UserRL

      UserBench

      先把 “用戶價值” 量化,才能倒逼智能體進(jìn)化

      核心思想

      UserBench 的核心出發(fā)點是:真正的智能體價值不在于完成任務(wù)本身,而在于是否能夠理解用戶、服務(wù)用戶。不同于傳統(tǒng)評測大多進(jìn)行的 “做題比賽”,其通過刻畫三類 “用戶特征”,并將它們嵌入到可復(fù)現(xiàn)的環(huán)境與標(biāo)準(zhǔn)化接口之中,從而把 “用戶價值” 從抽象理念轉(zhuǎn)化為量化的研究對象。

      1. 設(shè)計原則

      長期以來,智能體的評測大多集中在工具調(diào)用與任務(wù)完成,但卻鮮少觸及一個更根本的問題:模型是否真正對齊了用戶的潛在與動態(tài)意圖

      UserBench 的設(shè)計正是為了解決這一缺口。它把 “用戶真實交互三大特征” 作為評測核心:

      • 模糊性(underspecification):用戶目標(biāo)往往并未完整表達(dá);
      • 漸進(jìn)性(incrementality):意圖需要在對話中逐步顯露;
      • 間接性(indirectness):用戶偏好常常通過隱含線索體現(xiàn)。

      在這樣的環(huán)境里,模型不再是 “照題答題”,而是必須主動追問、澄清約束,并在復(fù)雜條件下做出連貫而明智的決策。



      UserBench 設(shè)計與交互流程示意圖

      2. 環(huán)境與數(shù)據(jù)構(gòu)造

      UserBench 的標(biāo)志性設(shè)計是旅行規(guī)劃任務(wù),覆蓋五個子場景。每個維度都設(shè)置了數(shù)十條隱式偏好表述,如 “行程很緊” 暗含 “直飛 / 少中轉(zhuǎn)”,要求模型在與環(huán)境中的模擬用戶進(jìn)行交互時,需要理解用戶每一句話背后的語義邏輯。同時,環(huán)境中內(nèi)置了穩(wěn)定數(shù)據(jù)庫后段,并且搜索返回采用了混合式選項進(jìn)一步增加了模型認(rèn)知難度:

      • 正確項:完全滿足全部偏好;
      • 錯誤項:違背至少一條偏好;
      • 噪聲項:與需求不符或信息缺失。

      這使得模型必須學(xué)會過濾噪聲、權(quán)衡約束,而非直接機(jī)械化地比對。UserBench 同時也進(jìn)行了數(shù)據(jù)難度分層,根據(jù)用戶偏好的復(fù)雜程度涵蓋了 Easy/Medium/Hard 三檔,這種設(shè)計讓其既保有真實性(場景、語言與需求均來自真實語料指導(dǎo)下的 LLM 用戶模擬),又具備實驗可控性。

      3. 以工具為界面:標(biāo)準(zhǔn)化交互接口

      以往針對模型,用戶以及環(huán)境的三方交互接口復(fù)雜。而在文章中,這種復(fù)雜交互被抽象為了三類原語操作

      • Action:與用戶對話(澄清、追問、確認(rèn)偏好);
      • Search:檢索數(shù)據(jù)庫(返回混合候選集,模擬真實世界的不完美檢索);
      • Answer:提交推薦(直接完成用戶需求)。

      這三類操作高度濃縮了 “理解 — 檢索 — 決策” 的鏈路,使不同任務(wù)可以在同一坐標(biāo)系下被評估與比較。在 UserRL 訓(xùn)練框架中,這個標(biāo)準(zhǔn)化接口被保留并得以進(jìn)一步拓展,使模型訓(xùn)練也變得可以自由定制化和拓展。



      UserBench 上不同模型主要評測結(jié)果以及分析指標(biāo)

      4. 評價指標(biāo)與關(guān)鍵發(fā)現(xiàn)

      UserBench 的評分體系兼顧結(jié)果與過程:

      • 核心指標(biāo):歸一化得分。對于每一項旅行需求,在數(shù)據(jù)庫中選到最優(yōu)解記 1.0;選到正確但次優(yōu)解記 0.8;其余記 0。在一個問題中用戶需求可能會涵蓋多個場景(例如交通和酒店住宿),需要被測試模型深入挖掘,理解偏好,再進(jìn)行判斷和抉擇。
      • 除此之外,文章還提出了若干過程指標(biāo)以進(jìn)行綜合分析:
      • Valid Search / Action Attempt:搜索與用戶對話操作的有效率;
      • Preference Elicited:偏好在用戶交互是否被主動 / 被動引出。

      主要結(jié)論:模型并非輸在 “不會算”,而是常常沒能問對問題、沒能挖出關(guān)鍵信息。換言之,真正的挑戰(zhàn)不是推理鏈,而是智能體與人的交互中進(jìn)行有效的 “用戶價值” 提煉與捕捉

      關(guān)鍵發(fā)現(xiàn)

      • 單選比多選難很多:對于每一項旅行需求,如果把模型可回答的次數(shù)限制為一次,平均分?jǐn)?shù)下滑約 40%,暴露了 “只能給一次答案” 時的抉擇困難
      • 用戶偏好揭示率普遍偏低:主流模型僅~20% 的答案完全貼合全部用戶意圖,即便是強模型,通過主動互動挖掘到的偏好不到 30%,顯示了當(dāng)下模型 “主動問對問題” 能力仍然欠缺。
      • 會用工具 ≠ 真懂用戶:模型普遍有效搜索 > 80%,但有效對話顯著更低,說明 “循證澄清” 的難度更高。
      • 難點在 “單一維度的偏好多而復(fù)雜”:當(dāng)總偏好數(shù)固定時,把偏好更平均地分散到多個旅行需求中更容易,而集中在少數(shù)需求上會顯著拉低分?jǐn)?shù),這揭示了本質(zhì)挑戰(zhàn)來自局部約束的組合復(fù)雜度
      • 更多對話輪數(shù)≠更好表現(xiàn):盲目拉長交互輪數(shù)并不能帶來收益;同時,命中答案的 “時效性”(更早給出有效答案)與整體模型對話質(zhì)量也并不總是正相關(guān):小模型 “早早猜中” 整體也不如大模型的 “穩(wěn)扎穩(wěn)打”。



      盲目增加交互輪數(shù)并不能增強交互質(zhì)量

      UserRL

      把 “能測試” 擴(kuò)展為 “會訓(xùn)練”

      核心思想

      UserRL 的出發(fā)點相比更加直接:在 UserBench 抽象出的三個原語接口之上,構(gòu)建一個統(tǒng)一的 gym 環(huán)境,把 User-in-th-Loop 的多輪交互轉(zhuǎn)化為一個可訓(xùn)練的強化學(xué)習(xí)問題。這意味著,智能體不再只是完成一次問答,而是要在一個有明確定義的交互環(huán)境中,通過多輪對話和工具調(diào)用來優(yōu)化回報。



      UserRL 中進(jìn)行訓(xùn)練的八個用戶中心場景設(shè)計

      1. 八大 Gym Environments:能力光譜的全覆蓋

      UserRL 對接了八類環(huán)境,覆蓋從個性化推薦到復(fù)雜推理的多維能力:

      • TravelGym:側(cè)重個性化偏好挖掘與多目標(biāo)權(quán)衡;
      • TauGym:強調(diào)工具編排與用戶任務(wù)實現(xiàn);
      • PersuadeGym:模擬論證與說服場景,關(guān)注對抗式對話能力;
      • TurtleGym:創(chuàng)造性推理環(huán)境(“海龜湯” 游戲);
      • TelepathyGym:意圖猜測與假設(shè)檢驗;
      • FunctionGym:數(shù)理模式識別與規(guī)律發(fā)現(xiàn);
      • IntentionGym:針對真實場景的意圖澄清;
      • SearchGym:外部知識檢索與基于檢索的問答。

      所有環(huán)境都統(tǒng)一在Action / Search / Answer的接口下,但考察指標(biāo)有所差異。這種統(tǒng)一接口 + 多元任務(wù)的設(shè)計,使得 UserRL 既能橫向比較不同方法,又能縱向推動能力遷移。



      UserRL 完整訓(xùn)練框架示意圖

      2. 用戶模擬與多輪 Rollout

      在每個環(huán)境中,用戶同樣由 LLM 進(jìn)行模擬,并且可以更換不同用戶模擬模型,以實現(xiàn)交互的多樣性。UserRL 框架的核心特點包括:

      • 確定性任務(wù)狀態(tài) + 可驗證獎勵函數(shù)
      • 自然語言互動,保留了動態(tài)模擬用戶對話的開放性;
      • 多輪 rollout,讓模型在交中做出策略性的交互選擇。

      3. 獎勵建模:讓過程價值變成可學(xué)信號

      在 UserRL 中,我們重點探索了雙層獎勵設(shè)計:回合層(Turn-level)以及軌跡層(Trajectory-level)。在回合層中,我們重新映射 Gym 環(huán)境在每一輪中反饋的獎勵信號,探索了多種方法以區(qū)分不同層的重要性:

      • Naive:直接用環(huán)境獎勵,但往往非常稀疏,在實際環(huán)境中并不適合訓(xùn)練。
      • Equalized:為所有回合賦予同樣的獎勵,確保所有鋪墊性動作不被忽視。
      • Reward-to-Go (R2G):把未來的預(yù)期獎勵收益折扣回流,以體現(xiàn)當(dāng)前輪次對于未來獎勵的價值。



      • Exponential Mapping (EM):對原始獎勵做非線性映射,讓某些小進(jìn)展也能帶來正反饋獎勵信號。



      在軌跡層中,我們將每一輪的獎勵反饋整合成與用戶多輪交互的總體得分,以便于后續(xù)適配 GRPO 等下游各種 RL 算法,其中我們主要探索了兩種整合方式:

      • Sum:直接累積每回合的獎勵,以衡量整體任務(wù)完成度。
      • R2G:對早期進(jìn)展賦予更高價值,更強調(diào)任務(wù)完成效率。



      在實際訓(xùn)練中這兩層獎勵可以靈活組合以適配不同交互任務(wù)。



      UserRL 訓(xùn)練主要試驗結(jié)果

      4. 評價指標(biāo)與關(guān)鍵發(fā)現(xiàn)

      文章主要采用了GRPO算法進(jìn)行優(yōu)化:在同一 query 下采樣多條軌跡,組內(nèi)歸一化優(yōu)勢,再結(jié)合回合與軌跡獎勵進(jìn)行聯(lián)合優(yōu)化。同時,在 RL 訓(xùn)練之前,模型預(yù)先進(jìn)行了 SFT 小規(guī)模優(yōu)化,實驗發(fā)現(xiàn) SFT 冷啟動能夠有效幫助后續(xù) RL 訓(xùn)練。

      UserRL 用其中的五個 Gym 的訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,另外三個 Gym 則作為 OOD 環(huán)境進(jìn)行測試。所有主實驗均采用 Qwen3-32B 作為用戶模擬。不同任務(wù)的測試指標(biāo)不盡相同,但是都是以準(zhǔn)確度作為衡量基礎(chǔ)。

      主要結(jié)論:模型的提升并非來自更復(fù)雜的算力堆疊,而是得益于對過程價值的刻畫與利用。換言之,真正的突破點不在于 “終局答案對不對”,而在于能否在多輪交互中持續(xù)累積小進(jìn)展、盡早對齊用戶意圖,并把這種過程性價值轉(zhuǎn)化為學(xué)習(xí)信號

      關(guān)鍵總結(jié)果

      • 回合均等 + 軌跡 Reward-to-Go 在 4B/8B 模型上最穩(wěn)健、平均最好;反觀回合均等 + 軌跡 Sum最弱,說明軌跡級計分比回合級細(xì)分更具有決定性價值。
      • 經(jīng)過 UserRL 訓(xùn)練的 Qwen3 在 TravelGym、PersuadeGym、IntentionGym 等交互型任務(wù)上超過強閉源模型;跨 8 個 gym 的平均也領(lǐng)先閉源對照,體現(xiàn)出 “針對用戶交互的 RL 訓(xùn)練” 能實打?qū)嵦嵘芰Α?/li>
      • SFT 冷啟動是必要條件:先做 SFT 再 RL,能顯著避免早期坍塌,部分任務(wù)收益超 100%。
      • 用戶模擬器選擇很關(guān)鍵:用 GPT-4o 做模擬用戶訓(xùn)練的模型下游更強;但 Qwen3-32B 作為開源模擬器具備性價比高且可遷移的優(yōu)勢。





      SFT 冷啟動(左側(cè)對照)與 GPT-4o 作為模擬用戶(右側(cè)對照)均能帶來更好的 RL 效果

      結(jié)語:從 “完成任務(wù)” 到 “成就用戶”

      UserBench 提供了一面 “明鏡”,讓我們得以量化模型是否真正理解用戶;UserRL 則把這面鏡子變成 “磨刀石”,推動模型在交互中不斷迭代,學(xué)會在模糊與多目標(biāo)之間提煉價值。

      《論語》有云:“君子和而不同。” 未來的通用智能體,也應(yīng)當(dāng)在理解用戶多元價值的同時,學(xué)會和而不同:既能尊重偏好,又能提供建設(shè)性選擇;既能滿足需求,又能引導(dǎo)更優(yōu)解。這,才是通向真正通用智能的必要一課。

      所有環(huán)境、數(shù)據(jù)以及訓(xùn)練框架已開源,歡迎研究人員探索。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      報復(fù)一個人最狠的方法,不是翻臉,不是打壓,而是佛家三句話

      報復(fù)一個人最狠的方法,不是翻臉,不是打壓,而是佛家三句話

      瓜哥的動物日記
      2026-02-14 00:59:40
      納達(dá)爾時隔26年重返滑雪場,德約科維奇沉迷冬奧無法自拔

      納達(dá)爾時隔26年重返滑雪場,德約科維奇沉迷冬奧無法自拔

      網(wǎng)球之家
      2026-02-22 22:47:57
      媽祖開始懲罰這位姓許的有錢人了

      媽祖開始懲罰這位姓許的有錢人了

      麥杰遜
      2026-02-21 18:12:33
      伊朗用血淚換來的教訓(xùn):一旦中美開戰(zhàn),中國必須首先鎖定這一點

      伊朗用血淚換來的教訓(xùn):一旦中美開戰(zhàn),中國必須首先鎖定這一點

      冷峻視角下的世界
      2026-02-20 07:45:35
      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      悅心知足
      2026-02-21 23:03:46
      一場2-2,上演補時絕平,德甲第2掉鏈子,被拜仁甩開,爭冠難了

      一場2-2,上演補時絕平,德甲第2掉鏈子,被拜仁甩開,爭冠難了

      足球狗說
      2026-02-22 03:37:25
      恕我直言:趙心童與希金斯決賽必勝無疑!無非就是這三點原因!

      恕我直言:趙心童與希金斯決賽必勝無疑!無非就是這三點原因!

      田先生籃球
      2026-02-22 10:31:14
      30多歲大叔揭示撩撥年輕姑娘的秘密,網(wǎng)友驚呼:真是老狐貍!

      30多歲大叔揭示撩撥年輕姑娘的秘密,網(wǎng)友驚呼:真是老狐貍!

      特約前排觀眾
      2026-02-18 00:15:03
      女人都喜歡被命令、喜歡被帶領(lǐng),但就是不喜歡被尊重、被給選擇

      女人都喜歡被命令、喜歡被帶領(lǐng),但就是不喜歡被尊重、被給選擇

      加油丁小文
      2026-02-22 07:00:04
      寧愿銷毀也不賣給中國!現(xiàn)在卻又求著中國買,專家:白送都不要!

      寧愿銷毀也不賣給中國!現(xiàn)在卻又求著中國買,專家:白送都不要!

      紀(jì)中百大事
      2026-02-22 19:14:55
      租賓利送山寨酒,邯鄲小伙見丈母娘炫富翻車,全網(wǎng)笑噴!

      租賓利送山寨酒,邯鄲小伙見丈母娘炫富翻車,全網(wǎng)笑噴!

      娛樂圈見解說
      2026-02-21 22:53:48
      做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

      做完手術(shù)人就廢了,這5種手術(shù)不需要做,別讓無知害了自己

      醫(yī)學(xué)科普匯
      2026-01-29 06:25:03
      時隔4年終于回歸!iPhone 18 Pro將推出深紅配色

      時隔4年終于回歸!iPhone 18 Pro將推出深紅配色

      快科技
      2026-02-22 23:52:05
      小時候被爸媽喂過最敷衍的食物是什么?看完真佩服家長的頂級忽悠

      小時候被爸媽喂過最敷衍的食物是什么?看完真佩服家長的頂級忽悠

      夜深愛雜談
      2026-02-22 23:09:34
      四字小生給弟弟鋪路?楊洋粉抵制短劇女演員?孟子義遇抵制?何泓姍遭打臉?姨太問答

      四字小生給弟弟鋪路?楊洋粉抵制短劇女演員?孟子義遇抵制?何泓姍遭打臉?姨太問答

      毒舌扒姨太
      2026-02-22 22:29:49
      續(xù)航1200km!比亞迪官宣:新車正式亮相

      續(xù)航1200km!比亞迪官宣:新車正式亮相

      高科技愛好者
      2026-02-22 23:09:03
      艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

      艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

      今朝牛馬
      2025-12-31 19:31:04
      各地建立1200多個中小學(xué)思政課實踐教學(xué)基地

      各地建立1200多個中小學(xué)思政課實踐教學(xué)基地

      中工網(wǎng)
      2026-02-20 08:12:09
      春晚“十二月花神”驚艷全網(wǎng)!大合照排位,王楚然美貌殺出重圍!

      春晚“十二月花神”驚艷全網(wǎng)!大合照排位,王楚然美貌殺出重圍!

      誰將笑到最后
      2026-02-17 03:29:06
      退錢了!北京市民注意!

      退錢了!北京市民注意!

      美麗大北京
      2026-02-22 18:40:38
      2026-02-23 02:12:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12326文章數(shù) 142569關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過10000顆衛(wèi)星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細(xì)節(jié)披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細(xì)節(jié)披露

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對自己非常自豪

      娛樂要聞

      谷愛凌:真正的強大 敢接納生命的節(jié)奏

      財經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車要聞

      續(xù)航1810km!smart精靈#6 EHD超級電混2026年上市

      態(tài)度原創(chuàng)

      藝術(shù)
      游戲
      教育
      旅游
      軍事航空

      藝術(shù)要聞

      誰能想到,“餃子包”火了!還是韭菜雞蛋味兒,超吸睛!

      《GTA6》的第二天發(fā)售?《寶可夢》新作爆料來了!

      教育要聞

      兩所大學(xué),合并!

      旅游要聞

      百余組花燈齊亮!青島這處海邊盛會,年味直接拉滿

      軍事要聞

      約旦基地美軍戰(zhàn)機(jī)驟增 包括F-35隱形戰(zhàn)斗機(jī)

      無障礙瀏覽 進(jìn)入關(guān)懷版