<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      推薦系統(tǒng)進(jìn)入「雙動力」時代!首篇LLM-RL協(xié)同推薦綜述深度解析

      0
      分享至



      強(qiáng)化學(xué)習(xí)(RL)將推薦系統(tǒng)建模為序列決策過程,支持長期效益和非連續(xù)指標(biāo)的優(yōu)化,是推薦系統(tǒng)領(lǐng)域的主流建模范式之一。然而,傳統(tǒng) RL 推薦系統(tǒng)受困于狀態(tài)建模難、動作空間大、獎勵設(shè)計復(fù)雜、反饋稀疏延遲及模擬環(huán)境失真等瓶頸。近期,大語言模型(LLM)的崛起帶來了新機(jī)遇。LLM 憑借常識儲備、推理能力和語義天賦,不僅能讓智能體更懂用戶,還能充當(dāng)高保真的環(huán)境模擬器。LLM 與 RL 的結(jié)合開啟了更加智能、穩(wěn)健且可信的LLM-RL 協(xié)同推薦系統(tǒng)新范式。

      針對這一新興方向,研究團(tuán)隊(duì)聯(lián)合發(fā)布了首篇聚焦 LLM-RL 協(xié)同推薦的系統(tǒng)性綜述。該論文創(chuàng)新性地提出五大主流協(xié)同范式,全面總結(jié)評估體系框架,深入分析了當(dāng)前關(guān)鍵挑戰(zhàn)與未來發(fā)展路徑,為該領(lǐng)域的研究者和工程師提供了一份從方法范式到評測體系、從研究現(xiàn)狀到創(chuàng)新方向的一站式參考指南。



      • 論文標(biāo)題:Integrating Large Language Models with Reinforcement Learning: A Survey of LLM-RL Synergistic Recommendation
      • 論文鏈接:https://doi.org/10.36227/techrxiv.177155631.17855475/v1

      一、 研究背景

      1. 演進(jìn)之路:從「引擎」驅(qū)動到「智能」協(xié)同

      推薦系統(tǒng)的技術(shù)演進(jìn),經(jīng)歷了從「靜態(tài)預(yù)測」到「動態(tài)決策」,再到「認(rèn)知協(xié)同」的階段性躍遷。其核心邏輯是驅(qū)動力從簡單匹配機(jī)制升級為具備環(huán)境適應(yīng)能力的決策引擎,進(jìn)一步邁向融合世界知識與推理能力的智能協(xié)同體系。



      • 早期推薦系統(tǒng):通常假設(shè)用戶偏好相對靜態(tài),依賴于簡單的相似度匹配或評分預(yù)測,對動態(tài)環(huán)境的適應(yīng)能力有限,就像早期的「人力驅(qū)動車輛」面對上坡路段時顯得力不從心。
      • RL 推薦系統(tǒng):從靜態(tài)預(yù)測轉(zhuǎn)向動態(tài)交互。RL 作為核心決策機(jī)制,通過與環(huán)境的持續(xù)交互實(shí)現(xiàn)用戶留存等長期效益的優(yōu)化。就如「發(fā)動機(jī)」(Engine)為車輛提供持續(xù)的核心驅(qū)動力,RL 為推薦系統(tǒng)在動態(tài)和隨機(jī)環(huán)境中運(yùn)行提供了規(guī)范化的框架。
      • LLM-RL 協(xié)同推薦系統(tǒng):RL 提供動態(tài)建??蚣?,LLM 則憑借世界知識、語義理解與推理能力,在 RL pipeline 中扮演關(guān)鍵角色,共同構(gòu)建起更智能穩(wěn)健的系統(tǒng)。LLM 的引入,恰如現(xiàn)代汽車集成了「電動機(jī)」:它推動系統(tǒng)從純機(jī)械結(jié)構(gòu)向智能化、軟件驅(qū)動的平臺跨越。LLM-RL 協(xié)同推薦系統(tǒng)將推薦過程從低維、被動的決策,進(jìn)化為高維、具備認(rèn)知能力的深度交互。

      2. 核心機(jī)遇:LLM 的引入帶來了什么變化?

      大語言模型的引入并非簡單的技術(shù)疊加,而是對推薦本質(zhì)的一次重塑。它憑借強(qiáng)大的認(rèn)知與推理能力,在表征空間、智能體定位、環(huán)境建模與交互范式這四大維度上,為推薦系統(tǒng)帶來了前所未有的質(zhì)變:



      • 重塑表征空間:從「稀疏的 ID」到「豐富的語義」。
      • 重塑智能體定位:從「固化模型」到「智能動態(tài)決策者」。
      • 重塑環(huán)境建模:從「黑盒模擬」到「高保真仿真」。
      • 重塑交互范式:從「單向推送隱式反饋」到「雙向共建靈活交互」。

      二、 LLM-RL 協(xié)同推薦綜述解析

      1. 五大協(xié)同范式:LLM 與 RL 如何協(xié)同?

      在 LLM-RL 協(xié)同驅(qū)動的推薦系統(tǒng)中,LLM 以深度融合、廣泛參與的方式融入強(qiáng)化學(xué)習(xí)流程的諸多環(huán)節(jié)。推薦系統(tǒng)的架構(gòu)從「智能體-環(huán)境」二元范式,演進(jìn)為由多個 LLM 增強(qiáng)的功能模塊共同構(gòu)成的、更靈活、更富層次的協(xié)同框架。



      在智能體(Agent)一側(cè),LLM 可以勝任多重角色:

      • LLM as Policy(策略):擔(dān)任推薦系統(tǒng)的核心決策模塊,根據(jù)狀態(tài)生成推薦動作或排序列表。優(yōu)化路徑包括采用 PPO、GRPO 等 RL 算法的顯式獎勵優(yōu)化,或通過 DPO 直接擬合用戶偏好的隱式對齊。
      • LLM as Reasoner(推理器):對多樣化的輸入信息進(jìn)行綜合分析,提煉出高層語義表征或推斷用戶偏好,并將這些輸出傳遞給策略模塊。
      • LLM as Representer(表示器):將原始、稀疏、異構(gòu)的輸入數(shù)據(jù)轉(zhuǎn)化為蘊(yùn)含深層意圖的高維語義特征,突破傳統(tǒng) ID 化表征的局限。
      • LLM as Explainer(解釋器):為推薦結(jié)果生成解釋,從而增強(qiáng)系統(tǒng)的可信度與可解釋性。不僅向用戶輸出解釋,還可以將解釋作為中間推理步驟。

      在環(huán)境(Environment)一側(cè),LLM 主要扮演:

      • LLM as Simulator(模擬器):生成更豐富的獎勵信號與交互反饋,使系統(tǒng)與真實(shí)應(yīng)用場景的對齊更精準(zhǔn),解決真實(shí)環(huán)境測試成本高、風(fēng)險大的痛點(diǎn)。部分基于 LLM 的模擬器具備可訓(xùn)練、可優(yōu)化的能力。通過針對性的微調(diào)與迭代,能夠在行為真實(shí)感、邏輯一致性等維度上實(shí)現(xiàn)顯著提升。

      除以上 5 種主流協(xié)同范式,學(xué)界與業(yè)界仍在探索更多元的路徑:

      • 在智能體(Agent)一側(cè),LLM 正從單純的推薦生成器,進(jìn)化為智能體的高層控制器:它可以是制定探索路徑的策略規(guī)劃師(Planner),提供專家建議的決策顧問(Adviser),亦或是反思決策偏差的評估反思者(Reflector)。
      • 在環(huán)境(Environment)一側(cè),LLM 還扮演著獎勵塑形器(Reward Formulator)、狀態(tài)表征器(Representer)與仿真推理器(Reasoner)等角色。

      2. 標(biāo)準(zhǔn)評估協(xié)議:如何衡量系統(tǒng)表現(xiàn)?

      為了全面、客觀地評價 LLM-RL 協(xié)同推薦系統(tǒng)的性能,本綜述從任務(wù)(Task)、數(shù)據(jù)集(Dataset)、評估策略(Strategy)以及指標(biāo)(Metric)四個關(guān)鍵維度構(gòu)建了標(biāo)準(zhǔn)化的評估協(xié)議。

      任務(wù)(Task)

      任務(wù)形式:

      • 序列推薦:基于用戶歷史行為預(yù)測下一個交互物品。
      • 交互式推薦:系統(tǒng)與用戶之間進(jìn)行多輪交互,實(shí)時響應(yīng)用戶反饋。
      • 評分預(yù)測:預(yù)測用戶對物品的顯式評分,常用于評估模型的推理能力。
      • 對話式推薦:系統(tǒng)通過自然語言與用戶進(jìn)行多輪對話,主動澄清偏好、細(xì)化需求。
      • 點(diǎn)擊率預(yù)測:預(yù)測用戶點(diǎn)擊行為。
      • 其他領(lǐng)域任務(wù):崗位推薦、醫(yī)療推薦、興趣點(diǎn)推薦、跨域推薦、可解釋推薦等。

      任務(wù)目標(biāo):

      • 準(zhǔn)確性:最基礎(chǔ)的目標(biāo),旨在最大化推薦物品與用戶偏好的匹配度。
      • 可解釋性:聚焦于生成人類可理解的推薦理由。
      • 新穎性:鼓勵系統(tǒng)推薦用戶未曾接觸或意料之外的物品。
      • 多樣性:要求推薦列表在類別、屬性或語義內(nèi)容上覆蓋更廣。
      • 安全性:安全性在高風(fēng)險領(lǐng)域尤為重要。
      • 無偏性:旨在緩解推薦系統(tǒng)中固有的系統(tǒng)性偏差。

      數(shù)據(jù)集(Dataset)

      當(dāng)前研究使用的數(shù)據(jù)集呈現(xiàn)「頭部集中、長尾分布」的特征:

      • 傳統(tǒng)推薦數(shù)據(jù)集:如 Amazon Review、MovieLens 等,因其通用性和可復(fù)現(xiàn)性成為絕大多數(shù)研究的首選。
      • 對話推薦數(shù)據(jù)集:如 ReDial、OpenDialKG 等,適用于對話式推薦任務(wù),強(qiáng)調(diào)多輪語言交互能力。
      • 專用領(lǐng)域數(shù)據(jù)集:如 Foursquare(POI)、BOSS Zhipin(崗位推薦)、MIMIC/eICU(醫(yī)療)、COCO(課程推薦)等。

      值得注意的是,工業(yè)級數(shù)據(jù)集(如 Taobao、KuaiRec)的使用比例正在上升,表明研究正從學(xué)術(shù)基準(zhǔn)向真實(shí)大規(guī)模系統(tǒng)遷移。

      評估策略(Strategy)

      • 離線評估(Offline):基于靜態(tài)歷史數(shù)據(jù)進(jìn)行訓(xùn)練和測試,成本低、可復(fù)現(xiàn),是目前最主流的方式。但受限于歷史策略帶來的各種偏差,難以真實(shí)反映系統(tǒng)在動態(tài)環(huán)境中的表現(xiàn)。
      • 在線評估(Online):通過 A/B 測試在真實(shí)用戶環(huán)境中驗(yàn)證系統(tǒng)效果,最真實(shí)有效,但成本高、風(fēng)險大,多用于工業(yè)界部署驗(yàn)證。
      • 仿真評估(Simulation):利用 LLM 構(gòu)建用戶模擬器,在可控環(huán)境中進(jìn)行策略訓(xùn)練與評估。低成本、可重復(fù)、支持長期交互,但可靠性高度依賴于仿真器的真實(shí)性。

      指標(biāo)(Metric)

      • 推薦導(dǎo)向指標(biāo)
      • 輸出型指標(biāo):主要為準(zhǔn)確性指標(biāo),如 NDCG、HR 等排名指標(biāo);RMSE、MAE 等評分預(yù)測指標(biāo);AUC、Logloss 等 CTR 指標(biāo)。還包括多樣性(DivRatio、CV)、公平性(MGU、DGU)、新穎性(Serendipity)等方面的指標(biāo)。
      • 過程型指標(biāo):如累計獎勵(Reward)、平均交互輪次(Average Turn)等。
      • 語言導(dǎo)向指標(biāo)
      • 客觀指標(biāo):通過將生成的文本與參考文本或真實(shí)數(shù)據(jù)進(jìn)行對比,來定量評估其質(zhì)量,如 BLEU、ROUGE 等。
      • 主觀指標(biāo):通過人工評分或「LLM 作為裁判」的方式,評估生成文本的信息量、說服力等維度。



      3. 挑戰(zhàn)與未來方向

      LLM-RL 協(xié)同推薦系統(tǒng)帶來了范式級的能力躍升,但也暴露出系統(tǒng)性風(fēng)險與工程瓶頸。

      • 算法去偏
      • 協(xié)同推薦系統(tǒng)面臨「LLM 固有偏差」與「RL 累積偏差」的雙重壓力。
      • 未來方向:從傳統(tǒng)的單一模塊去偏,轉(zhuǎn)向系統(tǒng)級治理。通過建立偏見溯源機(jī)制,阻斷偏差在推理與決策鏈條中的自我強(qiáng)化,確保推薦結(jié)果的公平性與多樣性。
      • 隱私與安全
      • LLM 在處理用戶歷史和意圖時,強(qiáng)大的語義推理能力可能導(dǎo)致敏感屬性(如身份、偏好)被「無意中泄露」或「過度推斷」。
      • 未來方向:實(shí)現(xiàn)「安全對齊」。通過隱私計算與強(qiáng)化學(xué)習(xí)的結(jié)合,讓系統(tǒng)在理解用戶的同時,具備自動過濾敏感信息的能力,構(gòu)建更可靠、更具防御性的智能體。
      • 計算效率
      • LLM 的巨量參數(shù)和 RL 的高頻交互之間存在天然的效率矛盾,導(dǎo)致「推理延遲高」、「訓(xùn)練成本大」。
      • 未來方向:開發(fā)更輕量化的協(xié)同框架。例如采用參數(shù)高效微調(diào)(PEFT)、多智能體協(xié)作(將復(fù)雜任務(wù)拆解給多個小模型)以及優(yōu)化采樣策略,以降低計算開銷,實(shí)現(xiàn)真正可落地的實(shí)時推薦。
      • 幻覺治理
      • LLM 生成的「虛假反饋」或「邏輯不一致」的輸出會誤導(dǎo) RL 策略,導(dǎo)致推薦決策偏離軌道。
      • 未來方向:引入「過程監(jiān)督」與「不確定性感知」。通過對思維鏈的中間步驟進(jìn)行事實(shí)核查,并賦予系統(tǒng)「自知之明」(識別自身知識邊界),在檢測到高幻覺風(fēng)險時自動回退至保守策略。

      三、 結(jié)語

      這篇深度綜述揭示了推薦系統(tǒng)從「自動化」向「智能化」跨越的清晰路徑。在「雙動力」時代,強(qiáng)化學(xué)習(xí)提供穩(wěn)定的決策框架,大模型注入更強(qiáng)的認(rèn)知能力。推薦系統(tǒng)正從效率工具走向智能伙伴,變得更加有溫度,也更加有深度。

      本文作者來自中國科學(xué)技術(shù)大學(xué)、快手科技、中國人民大學(xué)、浙江大學(xué)、山東大學(xué)、香港科技大學(xué)。第一作者高夢瑤,中國科學(xué)技術(shù)大學(xué) LDS 實(shí)驗(yàn)室研究生,研究方向?yàn)?LLM 推薦系統(tǒng);通訊作者高崇銘,中國科學(xué)技術(shù)大學(xué) LDS 實(shí)驗(yàn)室博士后研究員;通訊作者蔡慶芃,快手商業(yè)化算法部客戶機(jī)制中心負(fù)責(zé)人。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      《身體疼痛對照表》很難得?。ńㄗh收藏)

      《身體疼痛對照表》很難得?。ńㄗh收藏)

      詩詞天地
      2026-02-12 01:37:57
      多家交易所,緊急提示風(fēng)險!

      多家交易所,緊急提示風(fēng)險!

      環(huán)球網(wǎng)資訊
      2026-03-03 07:59:09
      早高峰“漲瘋了”!廣州司機(jī)爆料:3-4元/公里

      早高峰“漲瘋了”!廣州司機(jī)爆料:3-4元/公里

      網(wǎng)約車焦點(diǎn)
      2026-03-02 10:49:42
      全線大漲!超10萬人爆倉!中東這一仗,真正的沖擊才剛剛開始

      全線大漲!超10萬人爆倉!中東這一仗,真正的沖擊才剛剛開始

      魏家東
      2026-03-03 10:17:33
      擺滿院子的東風(fēng)快遞,美國人看后心里踏實(shí)了:原來是這么造的

      擺滿院子的東風(fēng)快遞,美國人看后心里踏實(shí)了:原來是這么造的

      趣生活
      2026-01-12 21:36:45
      3日戰(zhàn)況:伊朗海軍艦艇排隊(duì)“點(diǎn)天燈”,伊朗空軍也奄奄一息

      3日戰(zhàn)況:伊朗海軍艦艇排隊(duì)“點(diǎn)天燈”,伊朗空軍也奄奄一息

      裝甲鏟史官
      2026-03-03 11:47:36
      你占過最大的便宜是啥?網(wǎng)友:我也是,撿漏一個老公

      你占過最大的便宜是啥?網(wǎng)友:我也是,撿漏一個老公

      帶你感受人間冷暖
      2026-02-25 00:17:46
      當(dāng)年王芳不顧父母的反對,嫁給大自己15歲的教授

      當(dāng)年王芳不顧父母的反對,嫁給大自己15歲的教授

      忠于法紀(jì)
      2025-11-28 15:37:48
      伊朗強(qiáng)援出現(xiàn)!以色列征兵十萬,普京向中國交底,英法德選邊站

      伊朗強(qiáng)援出現(xiàn)!以色列征兵十萬,普京向中國交底,英法德選邊站

      野史日記
      2026-03-02 14:22:05
      對越反擊戰(zhàn)時,我軍爆破筒常被越軍推出堡壘,一戰(zhàn)士想了個好辦法

      對越反擊戰(zhàn)時,我軍爆破筒常被越軍推出堡壘,一戰(zhàn)士想了個好辦法

      新一說史
      2026-03-03 03:43:58
      中伊外長緊急通話,王毅一番話穩(wěn)住伊朗,特朗普的訪華行程懸了?

      中伊外長緊急通話,王毅一番話穩(wěn)住伊朗,特朗普的訪華行程懸了?

      奇思妙想生活家
      2026-03-03 01:30:40
      比亞迪元一戰(zhàn)封神啊!炮彈襲擊,車輛幾乎完好,車上6人全部生還

      比亞迪元一戰(zhàn)封神??!炮彈襲擊,車輛幾乎完好,車上6人全部生還

      火山詩話
      2026-03-03 13:16:35
      美伊開戰(zhàn),重溫毛主席的5個重要論斷!

      美伊開戰(zhàn),重溫毛主席的5個重要論斷!

      鈞言堂
      2026-03-01 11:16:37
      2292 萬臺 賣爆!中國超高端市場 iPhone 17 一騎絕塵!

      2292 萬臺 賣爆!中國超高端市場 iPhone 17 一騎絕塵!

      EETOP半導(dǎo)體社區(qū)
      2026-03-02 12:16:51
      56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

      56歲大媽心梗離世,醫(yī)生:吃他汀時除了牛奶,這6種食物盡量少碰

      岐黃傳人孫大夫
      2026-02-28 22:15:03
      40歲存款要達(dá)到什么水平?

      40歲存款要達(dá)到什么水平?

      In風(fēng)尚
      2026-02-23 06:04:00
      中國喊了停,美國才意識到嚴(yán)重性:半導(dǎo)體扛不住,庫存僅夠用數(shù)月

      中國喊了停,美國才意識到嚴(yán)重性:半導(dǎo)體扛不住,庫存僅夠用數(shù)月

      Thurman在昆明
      2026-03-02 20:25:38
      國安違規(guī)?海港球迷質(zhì)疑超級杯最后1次換人引爭議,第4官員成焦點(diǎn)

      國安違規(guī)?海港球迷質(zhì)疑超級杯最后1次換人引爭議,第4官員成焦點(diǎn)

      體壇鑒春秋
      2026-03-03 10:42:10
      哈登一戰(zhàn)獨(dú)創(chuàng)兩大里程碑,歷史第一神跡在望

      哈登一戰(zhàn)獨(dú)創(chuàng)兩大里程碑,歷史第一神跡在望

      大眼瞄世界
      2026-03-02 22:57:56
      伊朗犯下10月7日的致命失誤,導(dǎo)致其失去一切

      伊朗犯下10月7日的致命失誤,導(dǎo)致其失去一切

      山河路口
      2026-03-01 20:25:18
      2026-03-03 15:27:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12397文章數(shù) 142576關(guān)注度
      往期回顧 全部

      科技要聞

      手機(jī)AI在MWC上卷出了新高度

      頭條要聞

      特朗普:不擔(dān)心美領(lǐng)土遭受襲擊威脅 這是戰(zhàn)爭的一部分

      頭條要聞

      特朗普:不擔(dān)心美領(lǐng)土遭受襲擊威脅 這是戰(zhàn)爭的一部分

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護(hù)夫:喊話薛之謙給張杰道歉

      財經(jīng)要聞

      借殼上市納斯達(dá)克?小楊哥海外"洗白"之路

      汽車要聞

      長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

      態(tài)度原創(chuàng)

      藝術(shù)
      親子
      旅游
      健康
      公開課

      藝術(shù)要聞

      Nihad Aghazada:當(dāng)代阿塞拜疆畫家

      親子要聞

      本來只準(zhǔn)備留一條,收到手后決定都留下來,畢竟兩條也不到80塊錢 楊雪呀

      旅游要聞

      AC歐軒酒店首秀杭州 杭州AC歐軒酒店閃耀啟幕

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版