<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從「知題」到「知人」:UserRL讓智能體學會「以人為本」

      0
      分享至



      “知人者智,自知者明。”——《道德經》

      古人早已洞見:真正的人類智慧,不僅僅在于公式推演、掌握技藝,更是能理解他人、洞察人心。今天的大語言模型已能在代碼、數學與工具使用上出色地完成任務,然而距離成為真正的用戶伙伴,它們依舊缺少那份 “知人” 的能力。這主要源于現實交互遠比解題更加復雜:

      • 現實交互中,用戶目標常常未在最初完全成形(underspecification)、而是在多輪對話中逐步顯露(incrementality)、并且以含蓄 / 間接的方式表達(indirectness)。
      • 在這種不確定、動態、多目標的語境里,模型不止要會解決用戶需求,更要主動澄清(clarification)、持續適配(adaptation)、善用工具(tool-use)并做出明智的權衡(decision-making)。

      這正是智能體面臨的下一個時代課題:從 “會解題” 邁向 “懂用戶”。而要真正回答這一課題,我們需要全新的動態評測框架與訓練機制:不僅能測量模型在交互中的表現,還能驅動其學會在用戶不確定與多目標的世界里,問之有道,斷之有衡,答之有據。為此,來自 UIUC 與 Salesforce 的研究團隊提出了一套系統化方案:

      • UserBench—— 首次將 “用戶特性” 制度化,構建交互評測環境,用于專門檢驗大模型是否真正 “懂人”;
      • UserRL—— 在 UserBench 及其他標準化 Gym 環境之上,搭建統一的用戶交互強化學習框架,并系統探索以用戶為驅動的獎勵建模。

      二者相輔相成,把 “以用戶為中心” 從理念落地為可復現的流程、接口與評測指標



      • UserBench 論文鏈接:https://arxiv.org/pdf/2507.22034
      • UserBench 代碼倉庫:https://github.com/SalesforceAIResearch/UserBench



      • UserRL 論文鏈接:https://arxiv.org/pdf/2509.19736
      • UserRL 代碼倉庫:https://github.com/SalesforceAIResearch/UserRL

      UserBench

      先把 “用戶價值” 量化,才能倒逼智能體進化

      核心思想

      UserBench 的核心出發點是:真正的智能體價值不在于完成任務本身,而在于是否能夠理解用戶、服務用戶。不同于傳統評測大多進行的 “做題比賽”,其通過刻畫三類 “用戶特征”,并將它們嵌入到可復現的環境與標準化接口之中,從而把 “用戶價值” 從抽象理念轉化為量化的研究對象。

      1. 設計原則

      長期以來,智能體的評測大多集中在工具調用與任務完成,但卻鮮少觸及一個更根本的問題:模型是否真正對齊了用戶的潛在與動態意圖

      UserBench 的設計正是為了解決這一缺口。它把 “用戶真實交互三大特征” 作為評測核心:

      • 模糊性(underspecification):用戶目標往往并未完整表達;
      • 漸進性(incrementality):意圖需要在對話中逐步顯露;
      • 間接性(indirectness):用戶偏好常常通過隱含線索體現。

      在這樣的環境里,模型不再是 “照題答題”,而是必須主動追問、澄清約束,并在復雜條件下做出連貫而明智的決策。



      UserBench 設計與交互流程示意圖

      2. 環境與數據構造

      UserBench 的標志性設計是旅行規劃任務,覆蓋五個子場景。每個維度都設置了數十條隱式偏好表述,如 “行程很緊” 暗含 “直飛 / 少中轉”,要求模型在與環境中的模擬用戶進行交互時,需要理解用戶每一句話背后的語義邏輯。同時,環境中內置了穩定數據庫后段,并且搜索返回采用了混合式選項進一步增加了模型認知難度:

      • 正確項:完全滿足全部偏好;
      • 錯誤項:違背至少一條偏好;
      • 噪聲項:與需求不符或信息缺失。

      這使得模型必須學會過濾噪聲、權衡約束,而非直接機械化地比對。UserBench 同時也進行了數據難度分層,根據用戶偏好的復雜程度涵蓋了 Easy/Medium/Hard 三檔,這種設計讓其既保有真實性(場景、語言與需求均來自真實語料指導下的 LLM 用戶模擬),又具備實驗可控性。

      3. 以工具為界面:標準化交互接口

      以往針對模型,用戶以及環境的三方交互接口復雜。而在文章中,這種復雜交互被抽象為了三類原語操作

      • Action:與用戶對話(澄清、追問、確認偏好);
      • Search:檢索數據庫(返回混合候選集,模擬真實世界的不完美檢索);
      • Answer:提交推薦(直接完成用戶需求)。

      這三類操作高度濃縮了 “理解 — 檢索 — 決策” 的鏈路,使不同任務可以在同一坐標系下被評估與比較。在 UserRL 訓練框架中,這個標準化接口被保留并得以進一步拓展,使模型訓練也變得可以自由定制化和拓展。



      UserBench 上不同模型主要評測結果以及分析指標

      4. 評價指標與關鍵發現

      UserBench 的評分體系兼顧結果與過程:

      • 核心指標:歸一化得分。對于每一項旅行需求,在數據庫中選到最優解記 1.0;選到正確但次優解記 0.8;其余記 0。在一個問題中用戶需求可能會涵蓋多個場景(例如交通和酒店住宿),需要被測試模型深入挖掘,理解偏好,再進行判斷和抉擇。
      • 除此之外,文章還提出了若干過程指標以進行綜合分析:
      • Valid Search / Action Attempt:搜索與用戶對話操作的有效率;
      • Preference Elicited:偏好在用戶交互是否被主動 / 被動引出。

      主要結論:模型并非輸在 “不會算”,而是常常沒能問對問題、沒能挖出關鍵信息。換言之,真正的挑戰不是推理鏈,而是智能體與人的交互中進行有效的 “用戶價值” 提煉與捕捉

      關鍵發現

      • 單選比多選難很多:對于每一項旅行需求,如果把模型可回答的次數限制為一次,平均分數下滑約 40%,暴露了 “只能給一次答案” 時的抉擇困難
      • 用戶偏好揭示率普遍偏低:主流模型僅~20% 的答案完全貼合全部用戶意圖,即便是強模型,通過主動互動挖掘到的偏好不到 30%,顯示了當下模型 “主動問對問題” 能力仍然欠缺。
      • 會用工具 ≠ 真懂用戶:模型普遍有效搜索 > 80%,但有效對話顯著更低,說明 “循證澄清” 的難度更高。
      • 難點在 “單一維度的偏好多而復雜”:當總偏好數固定時,把偏好更平均地分散到多個旅行需求中更容易,而集中在少數需求上會顯著拉低分數,這揭示了本質挑戰來自局部約束的組合復雜度
      • 更多對話輪數≠更好表現:盲目拉長交互輪數并不能帶來收益;同時,命中答案的 “時效性”(更早給出有效答案)與整體模型對話質量也并不總是正相關:小模型 “早早猜中” 整體也不如大模型的 “穩扎穩打”。



      盲目增加交互輪數并不能增強交互質量

      UserRL

      把 “能測試” 擴展為 “會訓練”

      核心思想

      UserRL 的出發點相比更加直接:在 UserBench 抽象出的三個原語接口之上,構建一個統一的 gym 環境,把 User-in-th-Loop 的多輪交互轉化為一個可訓練的強化學習問題。這意味著,智能體不再只是完成一次問答,而是要在一個有明確定義的交互環境中,通過多輪對話和工具調用來優化回報。



      UserRL 中進行訓練的八個用戶中心場景設計

      1. 八大 Gym Environments:能力光譜的全覆蓋

      UserRL 對接了八類環境,覆蓋從個性化推薦到復雜推理的多維能力:

      • TravelGym:側重個性化偏好挖掘與多目標權衡;
      • TauGym:強調工具編排與用戶任務實現;
      • PersuadeGym:模擬論證與說服場景,關注對抗式對話能力;
      • TurtleGym:創造性推理環境(“海龜湯” 游戲);
      • TelepathyGym:意圖猜測與假設檢驗;
      • FunctionGym:數理模式識別與規律發現;
      • IntentionGym:針對真實場景的意圖澄清;
      • SearchGym:外部知識檢索與基于檢索的問答。

      所有環境都統一在Action / Search / Answer的接口下,但考察指標有所差異。這種統一接口 + 多元任務的設計,使得 UserRL 既能橫向比較不同方法,又能縱向推動能力遷移。



      UserRL 完整訓練框架示意圖

      2. 用戶模擬與多輪 Rollout

      在每個環境中,用戶同樣由 LLM 進行模擬,并且可以更換不同用戶模擬模型,以實現交互的多樣性。UserRL 框架的核心特點包括:

      • 確定性任務狀態 + 可驗證獎勵函數
      • 自然語言互動,保留了動態模擬用戶對話的開放性;
      • 多輪 rollout,讓模型在交中做出策略性的交互選擇。

      3. 獎勵建模:讓過程價值變成可學信號

      在 UserRL 中,我們重點探索了雙層獎勵設計:回合層(Turn-level)以及軌跡層(Trajectory-level)。在回合層中,我們重新映射 Gym 環境在每一輪中反饋的獎勵信號,探索了多種方法以區分不同層的重要性:

      • Naive:直接用環境獎勵,但往往非常稀疏,在實際環境中并不適合訓練。
      • Equalized:為所有回合賦予同樣的獎勵,確保所有鋪墊性動作不被忽視。
      • Reward-to-Go (R2G):把未來的預期獎勵收益折扣回流,以體現當前輪次對于未來獎勵的價值。



      • Exponential Mapping (EM):對原始獎勵做非線性映射,讓某些小進展也能帶來正反饋獎勵信號。



      在軌跡層中,我們將每一輪的獎勵反饋整合成與用戶多輪交互的總體得分,以便于后續適配 GRPO 等下游各種 RL 算法,其中我們主要探索了兩種整合方式:

      • Sum:直接累積每回合的獎勵,以衡量整體任務完成度。
      • R2G:對早期進展賦予更高價值,更強調任務完成效率。



      在實際訓練中這兩層獎勵可以靈活組合以適配不同交互任務。



      UserRL 訓練主要試驗結果

      4. 評價指標與關鍵發現

      文章主要采用了GRPO算法進行優化:在同一 query 下采樣多條軌跡,組內歸一化優勢,再結合回合與軌跡獎勵進行聯合優化。同時,在 RL 訓練之前,模型預先進行了 SFT 小規模優化,實驗發現 SFT 冷啟動能夠有效幫助后續 RL 訓練。

      UserRL 用其中的五個 Gym 的訓練集數據進行訓練,另外三個 Gym 則作為 OOD 環境進行測試。所有主實驗均采用 Qwen3-32B 作為用戶模擬。不同任務的測試指標不盡相同,但是都是以準確度作為衡量基礎。

      主要結論:模型的提升并非來自更復雜的算力堆疊,而是得益于對過程價值的刻畫與利用。換言之,真正的突破點不在于 “終局答案對不對”,而在于能否在多輪交互中持續累積小進展、盡早對齊用戶意圖,并把這種過程性價值轉化為學習信號

      關鍵總結果

      • 回合均等 + 軌跡 Reward-to-Go 在 4B/8B 模型上最穩健、平均最好;反觀回合均等 + 軌跡 Sum最弱,說明軌跡級計分比回合級細分更具有決定性價值。
      • 經過 UserRL 訓練的 Qwen3 在 TravelGym、PersuadeGym、IntentionGym 等交互型任務上超過強閉源模型;跨 8 個 gym 的平均也領先閉源對照,體現出 “針對用戶交互的 RL 訓練” 能實打實提升能力。
      • SFT 冷啟動是必要條件:先做 SFT 再 RL,能顯著避免早期坍塌,部分任務收益超 100%。
      • 用戶模擬器選擇很關鍵:用 GPT-4o 做模擬用戶訓練的模型下游更強;但 Qwen3-32B 作為開源模擬器具備性價比高且可遷移的優勢。





      SFT 冷啟動(左側對照)與 GPT-4o 作為模擬用戶(右側對照)均能帶來更好的 RL 效果

      結語:從 “完成任務” 到 “成就用戶”

      UserBench 提供了一面 “明鏡”,讓我們得以量化模型是否真正理解用戶;UserRL 則把這面鏡子變成 “磨刀石”,推動模型在交互中不斷迭代,學會在模糊與多目標之間提煉價值。

      《論語》有云:“君子和而不同。” 未來的通用智能體,也應當在理解用戶多元價值的同時,學會和而不同:既能尊重偏好,又能提供建設性選擇;既能滿足需求,又能引導更優解。這,才是通向真正通用智能的必要一課。

      所有環境、數據以及訓練框架已開源,歡迎研究人員探索。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      誰能拒絕成熟姐姐,牛仔外套搭高腰瑜伽褲,遮肉顯翹美到挪不開眼

      誰能拒絕成熟姐姐,牛仔外套搭高腰瑜伽褲,遮肉顯翹美到挪不開眼

      小喬古裝漢服
      2025-12-11 19:39:18
      4400萬粉劉二狗泳池直播擦邊后續:賬號違規,過往黑料被扒

      4400萬粉劉二狗泳池直播擦邊后續:賬號違規,過往黑料被扒

      千言娛樂記
      2025-12-16 22:57:52
      繳獲中制先進武器后,泰國在野黨沖到大使館,要求中方給個解釋

      繳獲中制先進武器后,泰國在野黨沖到大使館,要求中方給個解釋

      頭條爆料007
      2025-12-16 21:14:22
      都體談戴維低迷原因:性格內向、語言困難并且遭到老隊員孤立

      都體談戴維低迷原因:性格內向、語言困難并且遭到老隊員孤立

      懂球帝
      2025-12-17 10:55:02
      日本為什么挑釁中國,西班牙專家:中國錯就錯在沒跟日本徹底清算

      日本為什么挑釁中國,西班牙專家:中國錯就錯在沒跟日本徹底清算

      我心縱橫天地間
      2025-12-08 18:32:33
      公公花19萬買金絲楠木衣柜,我擦拭發現暗門,打開后全家懵了

      公公花19萬買金絲楠木衣柜,我擦拭發現暗門,打開后全家懵了

      小秋情感說
      2025-12-05 14:25:36
      日政壇集體焦慮?岸田喊話“不能輸給中國”,中方反手亮“王炸”

      日政壇集體焦慮?岸田喊話“不能輸給中國”,中方反手亮“王炸”

      通文知史
      2025-12-16 22:00:03
      科學家掃描了25萬個大腦發現:決定孩子一生的,不是智商,而是父母的這三件事

      科學家掃描了25萬個大腦發現:決定孩子一生的,不是智商,而是父母的這三件事

      閱讀第一
      2025-12-13 08:34:34
      老一輩的心有多狠?光看文字都覺得毛骨悚然,評論區分享共鳴萬千

      老一輩的心有多狠?光看文字都覺得毛骨悚然,評論區分享共鳴萬千

      夜深愛雜談
      2025-12-17 15:14:07
      美國、德國、法國、韓國、英國等國媒體紛紛把目光轉向了中國武漢

      美國、德國、法國、韓國、英國等國媒體紛紛把目光轉向了中國武漢

      扶蘇聊歷史
      2025-12-16 18:18:18
      如果1981年中國再次開戰越南會輸多慘歷史差點重演,真相出乎意料

      如果1981年中國再次開戰越南會輸多慘歷史差點重演,真相出乎意料

      霹靂炮
      2025-12-17 23:07:17
      女子在房間睡覺公公突然闖入,公公拽她褲子也不生氣,這兒媳真好

      女子在房間睡覺公公突然闖入,公公拽她褲子也不生氣,這兒媳真好

      唐小糖說情感
      2025-11-18 08:39:06
      對華加稅50%!墨西哥沒等到中方妥協的電話,反而收到新一輪反制

      對華加稅50%!墨西哥沒等到中方妥協的電話,反而收到新一輪反制

      牛鍋巴小釩
      2025-12-17 10:28:38
      花生再次被關注!調查發現:糖尿病常吃花生,不過半年或有6好處

      花生再次被關注!調查發現:糖尿病常吃花生,不過半年或有6好處

      蜉蝣說
      2025-11-20 14:40:39
      武漢街頭慘案警示:“幸福者退讓” 不是軟弱無能,而是不值得

      武漢街頭慘案警示:“幸福者退讓” 不是軟弱無能,而是不值得

      今朝牛馬
      2025-12-05 11:49:41
      過去10年FIFA排名提升幅度最大的國家位列第7,曾一度跌至第120名

      過去10年FIFA排名提升幅度最大的國家位列第7,曾一度跌至第120名

      林子說事
      2025-12-17 13:26:31
      公交免費、地鐵八折!明日零時起預警升級

      公交免費、地鐵八折!明日零時起預警升級

      掌上金牛
      2025-12-17 21:39:04
      麻省理工學院核科學教授在家中被槍殺,特朗普親信稱是針對猶太裔教授的連環謀殺

      麻省理工學院核科學教授在家中被槍殺,特朗普親信稱是針對猶太裔教授的連環謀殺

      現代快報
      2025-12-17 18:59:04
      樸志洙加盟山東泰山?高準翼或成“牽線月老”,球迷表示很期待

      樸志洙加盟山東泰山?高準翼或成“牽線月老”,球迷表示很期待

      冷桂零落
      2025-12-17 13:17:10
      女大學生包養價目表曝光:內容不堪入目

      女大學生包養價目表曝光:內容不堪入目

      閑聽落花
      2024-03-07 22:26:53
      2025-12-18 00:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      教育
      數碼
      家居
      手機
      軍事航空

      教育要聞

      高三一輪復習,別太聰明,踏實一點

      數碼要聞

      RGB-Mini LED迎來“跨年夜”,“光色同控”從電視走向桌面

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      手機要聞

      真我16 Pro系列外觀曝光,還有10000mAh±電池機型

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乌克兰少妇videos高潮| 国产精品666| 精品国产中文字幕av| 日日噜噜噜夜夜爽爽狠狠视频| 91看片免费| 青青草原国产精品啪啪视频| 国产成人综合欧美精品久久| 民勤县| 武装少女在线观看高清完整版免费| 破了亲妺妺的处免费视频国产| 人妻超碰在线| 人人妻人人做人人爽夜欢视频| 久久国产精品日本波多野结衣| 国产成人AV一区二区三区在线观看| 亚洲AV自拍| 久久精品熟妇丰满人妻99| 久久国产成人精品av| 大邑县| 超碰97人妻| 最新日韩精品视频在线| 国产无遮挡又黄又爽在线视频| 四房播播成人网| 色姑娘综合网| 亚洲欧美中文字幕日韩一区二区| 欧美激情猛片xxxⅹ大3| 国产乱子伦无套一区二区三区 | 欧美色aⅴ欧美综合色| 欧美?日韩?人妻| 亚洲五月婷婷| 中文字幕乱码中文乱码毛片| 国产在线无码视频一区二区三区| 熟妇人妻系列aⅴ无码专区友真希 亚洲精品喷潮一区二区三区 | 亚洲色一区二区三区四区| 亚洲字幕av一区二区三区四区 | 日本一二三区视频在线| 精品婷婷色一区二区三区蜜桃| 色窝视频| 久久综合色之久久综合色| 国产成人无码a区精油按摩| 国产色婷婷精品综合在线| 新绛县|