<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      生成式推理再排序,可能會是LLM4RecSys的新突破口嗎?

      0
      分享至



      大模型(LLM)的世界知識和推理能力是實現下一代推薦系統,即基于大模型的推薦系統(LLM4Recsys)的重要基石。來自meta ai的研究者們嘗試將推理模型引入再排序階段,推薦系統的最后一環。

      推薦系統需要推理模型嗎?

      深度學習成為推薦系統的標準范式已經有十年左右的歷史。RNN/Transformer/GNN等模型在用戶交互數據上的性能已經被開發得非常接近飽和。正如近些年大語言模型,尤其是推理模型在通用任務上的優異性能所揭示得,讓推薦系統先思考再做出決定或許可以再次突破現有框架的性能上限;同時,還能為推薦的結果提供一定的可解釋性。

      論文通過監督微調(SFT)和強化學習(RL)來賦予通用推理模型在序列推薦任務上的推理能力。提出的訓練策略最終超過了LLM4Recsys標桿,OneRec-Think;提升了約2.4%Recall@5和約1.3%NDCG@5。





      ●論文標題:

      Generative Reasoning Re-ranker

      ●論文地址:

      https://arxiv.org/pdf/2602.07774

      中期訓練,內化物品的語意ID

      語意ID(semantic ID,SID)已經成為基于序列模型的推薦系統的標準技術之一,它的核心想法是通過多層次的聚類來賦予物品從粗到細粒度的標簽。常用的模型一般有Residual-Quantized Variational Autoencoder(RQ-VAE)和RQ-Kmeans;這篇論文使用的是RQ-VAE,并且基于常規的對比學習損失函數。同時,為了防止碼本坍縮,即有多個物品會被同時映射到一個SID的情況,本文采用了成熟的處理方案,用RQ-Kmeans先做初始化,結合EMA平滑更新字典,重置死碼本,加入多樣性損失函數,并且對最后一至兩位SID賦予隨機整數。

      本文的中期訓練采用的策略和OneRec-Think保持一致,將生成的SID混入自然語言組成的物品描述、物品預測等一系列任務中,去最小化next token prediction loss以優化SID的embedding來內化物品的本身語意。

      推理路徑的生成

      推理路徑(Reasoning trace)的生成是本文的核心技術之一。預訓練的推理模型并不具有(很強的)對物品序列的推理和解釋能力,尤其是考慮到在現實場景中需要實際部署時受限于延遲限制,LLM的體量有限,例如僅僅能支持最大8B。

      論文的核心想法是將大體量的LLM(比如32B模型)的推理能力蒸餾給小體量的LLM:即大LLM產生高質量的推理路徑,再讓小LLM去學習以增強其在推薦場景下的推理能力。目標采樣(target sampling)和拒絕采樣(reject sampling)兩種技術被使用了:



      目標采樣的核心想法就是把交互歷史和下一個真實交互物品的信息都交給LLM以生成解釋。該解釋就被作為reasoning trace。



      拒絕采樣則是只將交互歷史提供給LLM以預測下一個交互的物品以及生成解釋。一旦預測的結果和數據集的標準答案(ground truth)不一致,則繼續重復推理直到答對或者達到設定的最多重復推理次數。

      這兩種推理路徑的生成方式各有優劣:

      • 目標采樣對每一個樣本只需要推理一次,但是LLM可能會“牽強附會”,做“馬后炮”式的解釋。
      • 拒絕采樣生成的reasoning trace一般質量更高,因為錯誤的reasoning trace很可能沒法引導出正確的答案,而采樣過程又會一直持續到得到正確的答案為止。缺點也很顯然,對單一樣本需要多次推理,尤其是一些難的樣本。

      推理賦能的再排序階段

      開頭提過,論文重點關注再排序(re-ranking)階段。該階段在常規業界推薦漏斗中位于最后一環,以檢索(retrieval)和排序(ranking)階段的輸出作為輸入。作為學術研究,為了保持整個pipeline簡潔,論文將LLM本身預先作為retriever,輸入交互歷史,預測下一個最有可能的物品,采用beam search生成排序過的候選列表。再將該候選列表和交互歷史一同輸入LLM去做重排序。

      為了賦于小體量LLM(比如8B)完整的貼合推薦場景的推理能力,上一步生成的推理路徑先通過SFT手把手教給模型,這一步可以保證LLM的推理能力的下限。



      為了進一步提高模型的推理能力,強化學習配合推薦場景設計的reward在本文中被使用。在再排序場景下,顯然,目標物品的排序被模型提升的越多,模型的表現越好;這就是排序獎勵



      它測量的是經過模型重排序以后目標物品的排位變化。

      另一種常見的獎勵則是格式獎勵,即LLM的輸出還是保持著reasoning trace加最終答案,即排序過的列表,的理想格式。然而,簡單地將格式獎勵和任務相關的排序獎勵加和成最終獎勵在再排序任務中不可行,原因是預排序的候選列表是作為模型輸入的,模型可以通過完全不改變候選列表來放棄排序獎勵,而單純hack格式獎勵。基于此,最終的格式獎勵被設計成只有排序獎勵為正的時候才會被考慮。該獎勵被嵌入在DAPO優化框架中去更新LLM的參數。



      重排序的提升空間

      論文的最重要實驗結果披露出,重排序階段引入推理能力,尤其是通過強化學習增強,可以進一步提升性能上限。具體實驗對比了(1)該模型的預排序結果(Pre-rank),(2)僅依靠SFT訓練過得排序結果,和(3)強化學習進一步增強過的排序結果:



      有一些有趣的發現:

      • SFT可以給模型一定的推理能力,但是單單依靠SFT可能會傷害模型最終的準確度。
      • 沒有SFT直接通過強化學習(RL-zeroshot)并不能直接帶來顯著性能提升。
      • 拒絕采樣相比目標采樣能獲得更高質量的推理路徑。

      下一步?

      這篇論文的有趣之處在于,它不僅僅提供了~2%的Recall性能提升,而是提供了一種新的范式:模型不再是去單純擬合交互的概率分布,而是去擬合推理路徑和交互的聯合分布。

      同時也不可否認的是,重排序階段是應用推理模型的好場所,因為該階段剩下的候選物品是整個推薦漏斗中最少的了。模型在給予候選集的情況下逐一比較、推理,符合人類的思維流程。

      那么,在檢索和排序階段,候選集大小成千上萬的情況下,如何有效率地進行超大規模的候選集篩選?如何把海量的候選集有效率地塞入推理模型有限的輸入窗口?如何控制昂貴的推理成本?如何滿足用戶體驗所需要的超低時限?此外,現有策略也依賴拒絕采樣生成的高質量推理路徑,這在候選集超大的情況下所需要的重采樣次數將完全不可接受,樣本的效率將成為訓練成敗的關鍵因素。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      今夜,大利好!直線爆拉!

      今夜,大利好!直線爆拉!

      中國基金報
      2026-04-10 00:17:50
      普京宣布:停火32小時

      普京宣布:停火32小時

      南方都市報
      2026-04-10 08:22:45
      武漢大暴雨破紀錄

      武漢大暴雨破紀錄

      大風新聞
      2026-04-09 17:17:03
      王毅同朝鮮外相崔善姬舉行會談

      王毅同朝鮮外相崔善姬舉行會談

      新京報
      2026-04-09 20:53:14
      都怪伊朗人把我帶溝里了!“挑戰者3”是英國最后的主戰坦克嗎?

      都怪伊朗人把我帶溝里了!“挑戰者3”是英國最后的主戰坦克嗎?

      顧氏造船廠廠長
      2026-04-09 08:00:15
      獲比亞迪全球設計大賽冠軍 “00后”小伙把人生畫出想要的模樣|閃閃發光的TA

      獲比亞迪全球設計大賽冠軍 “00后”小伙把人生畫出想要的模樣|閃閃發光的TA

      封面新聞
      2026-04-08 15:07:21
      鄭麗文承諾:2028擊敗賴清德!國防部發聲:解放軍強化反“臺獨”

      鄭麗文承諾:2028擊敗賴清德!國防部發聲:解放軍強化反“臺獨”

      共工之錨
      2026-04-10 01:25:02
      非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

      非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

      君說輿情
      2026-04-07 08:35:16
      奧運冠軍全紅嬋的真實困境:最大的敵人原來是她

      奧運冠軍全紅嬋的真實困境:最大的敵人原來是她

      君好伴讀
      2026-04-09 22:36:33
      蘋果官網突然開賣翻新機:4月10日,打折開售!

      蘋果官網突然開賣翻新機:4月10日,打折開售!

      搞機小帝
      2026-04-10 00:06:20
      福建車輛墜河5死后續,親戚澄清3條真相,尤其痛心是車外男子身份

      福建車輛墜河5死后續,親戚澄清3條真相,尤其痛心是車外男子身份

      天天熱點見聞
      2026-04-09 17:24:21
      石油危機重演?1970年代“滯脹”若再來,A股哪些板塊能活下來?

      石油危機重演?1970年代“滯脹”若再來,A股哪些板塊能活下來?

      小白鴿財經
      2026-04-07 20:30:03
      為什么沒人敢動以色列?看完這幾組數字,你就全明白了

      為什么沒人敢動以色列?看完這幾組數字,你就全明白了

      阿芒娛樂說
      2026-04-07 07:58:33
      我國將迎人口死亡高峰?23年1110萬離世,24年1093萬,去年呢?

      我國將迎人口死亡高峰?23年1110萬離世,24年1093萬,去年呢?

      藍色海邊
      2026-04-10 07:34:22
      55歲鐘麗緹被指穿著不得體,太過暴露,直播中大膽跳操被指不雅

      55歲鐘麗緹被指穿著不得體,太過暴露,直播中大膽跳操被指不雅

      觀察鑒娛
      2026-04-09 10:14:47
      明天周五開盤,做好心理準備!別等跌了再后悔

      明天周五開盤,做好心理準備!別等跌了再后悔

      風風順
      2026-04-10 03:20:03
      失業后在小縣城的兩年發現,打麻將和性生活才是普通人底色!

      失業后在小縣城的兩年發現,打麻將和性生活才是普通人底色!

      黯泉
      2026-04-01 17:44:20
      剛亮底牌就被打腫臉!中方無上限封鎖,美日“千里眼”徹底報廢!

      剛亮底牌就被打腫臉!中方無上限封鎖,美日“千里眼”徹底報廢!

      觀察者海風
      2026-04-08 21:17:56
      “再逼我就全說出來”退圈藝人直播求救:生活被監控,已瀕臨崩潰……秦嵐工作室發文回應

      “再逼我就全說出來”退圈藝人直播求救:生活被監控,已瀕臨崩潰……秦嵐工作室發文回應

      19樓
      2026-04-09 19:56:46
      戲子當道,是央國企管理中的一大痛點

      戲子當道,是央國企管理中的一大痛點

      細說職場
      2026-03-06 20:01:27
      2026-04-10 08:52:50
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12721文章數 142621關注度
      往期回顧 全部

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      AI短劇"買臉"成風 肖像生意成灰色產業

      汽車要聞

      文飛掌舵,給神行者帶來了什么?

      態度原創

      手機
      旅游
      藝術
      本地
      軍事航空

      手機要聞

      天璣驍龍齊砍!天璣9600、驍龍8 Elite Gen6全系分級,頂配才滿血

      旅游要聞

      溫州園博會來了!下高鐵10分鐘入園,100天免費逛

      藝術要聞

      鄭麗文攜連勝武訪問大陸,連戰題字廈門大學引發熱議!

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      軍事要聞

      黎真主黨發射火箭彈 回應以違反停火協議

      無障礙瀏覽 進入關懷版