網易首頁 > 網易號 > 正文申請入駐

從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個性化潛力

2026-03-02 16:10:32　來源: 機器之心Pro

河北舉報

分享至

一、引言

從內容分發到商業轉化，推薦系統早已成為互聯網平臺的關鍵基礎設施。它在海量信息與有限注意力之間完成篩選和排序，直接影響內容曝光、商品成交以及流量變現效率。

用戶在電商平臺上看到的商品列表、在信息流里刷到的內容、廣告位中呈現的鏈接，通常并非隨機展現，而是推薦系統在毫秒級完成特征理解和排序決策的結果。

近年來，大語言模型（LLM）在語義理解、內容生成和多步推理方面取得快速進展，推動業界重新審視推薦系統的形態：推薦是否可以不再局限于一次性打分和相似度匹配，而是像人類決策一樣，在生成過程中進行多步推理與自我修正，逐步逼近用戶的真實意圖。

基于此，「生成式推薦」開始成為一個重要研究方向，嘗試將 “理解 — 生成 — 推理” 融為一體，讓推薦過程從靜態匹配轉變為面向用戶意圖的動態決策。

在實際電商環境中，生成式推薦面臨的主要挑戰不在于生成商品本身，而在于生成過程是否具備「可推理、可控且穩定」的能力。

電商場景下，用戶行為信號噪聲高、興趣多樣且頻繁變化，模型需要在多步生成過程中持續校準語義方向、維持推理軌跡的一致性。若仍采用經典自回歸解碼，早期預測偏差容易被不斷放大，推理路徑收縮到少量固定模式，導致生成精度受限、長尾興趣覆蓋不足，難以穩定命中用戶真實需求。

針對上述問題，阿里國際智能技術團隊提出了基于推理增強范式的生成式推薦模型 REG4Rec。該模型從表征學習、訓練目標和推理策略三個層面進行了系統設計，以提升生成式推薦的推理能力與穩定性。離線實驗顯示，REG4Rec 在多個關鍵指標上優于現有生成式方法，并呈現出隨推理步數增加而性能持續提升的 Scaling Up 特性。

目前，REG4Rec 已在 Lazada 推薦廣告場景完成大規模工業化部署。線上結果顯示：廣告收入提升5.60%、商品交易總額（GMV）提升3.29%、點擊率提升1.81%，帶來顯著商業收益。

本工作相關成果已被數據挖掘領域頂級會議 ICDE 2026 接收。

論文標題：REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems
論文鏈接：https://arxiv.org/pdf/2508.15308

二、從判別打分走向多步生成，難點在于「推理」

長期以來，主流推薦模型大多遵循判別式范式：給定用戶與候選物品，模型通過一次性打分來估計二者的交互概率。

這種方式高效且易于部署，但也天然受限，當用戶興趣快速演化、意圖高度隱式且多維交織時，單次判別打分無法顯式建模用戶的決策路徑，也無法在推理過程中對路徑進行修正。換言之，它更擅長回答是不是，卻不擅長回答你真正想要什么、以及為什么。

在這一背景下，生成式推薦開始受到關注。它把推薦從「一次判斷」改寫為「多步生成」：不再直接對候選打分，而是將物品表示從連續向量離散化為一串語義 ID（Semantic IDs），并讓模型在解碼階段逐步生成這些 ID。每一步生成都在補全一部分意圖線索、收縮候選語義空間，最終由一組語義 ID 組合定位到目標物品。

相比單次打分，這種范式天然接近推理式決策，模型在生成過程中主動選擇、組合并糾偏，從而有機會捕捉更細粒度、更個性化的興趣表達。

圍繞語義 ID 與生成式范式，阿里國際智能技術團隊在工業場景中持續探索。2024 年，團隊將殘差式語義 ID引入召回階段的負采樣，實現了負樣本難度與規模的可控調度（WWW’25 ESANS [1]）。

同時團隊搭建并部署了行為大模型基座，針對多模態異構 token 帶來的噪聲問題，提出基于分層 Transformer 的去噪建模方案（SIGIR’25 HeterRec [2]）。這些前置工作表明，生成式范式的關鍵并不止于「能生成」，更在于如何讓生成過程具備更強的「推理能力」與「可控性」。

基于此，團隊提出了推理增強生成式推薦模型 REG4Rec，并將面臨的核心挑戰概括為三點：

挑戰一：碼本信息分布不均，步間語義割裂。當前主流生成式推薦方案多采用殘差式層級語義 token，但在多步生成中存在兩類問題。其一，語義信息過度集中在淺層，深層 token 的信息量隨層數快速衰減，從而帶來層間學習難度不一致、訓練收斂不穩定等問題。其二，不同層級 token 之間語義關聯弱，缺乏跨步承接，使后續生成難以有效利用前序先驗，每一步都像在全新空間里重新開始，從而顯著抬高整體解碼難度。
挑戰二：解碼路徑固定，難以刻畫 “因人而異” 的決策邏輯。現有生成式推薦通常固定語義 ID 的生成順序，相當于為所有用戶預設同一條推理軌跡。然而，同一商品可能因品牌、風格、價格、類目等不同因素被不同用戶觸發，固定順序限制了模型描繪「個體化決策路徑」的能力，壓縮了個性化表達空間。
挑戰三：自回歸解碼的誤差累積問題。生成式解碼通常采用自回歸方式，缺少對當前生成狀態進行顯式評估與修正的機制。一旦早期 token 出現偏差，錯誤便會在后續步驟中持續傳導并逐步累積，最終導致失之毫厘，謬以千里。

三、REG4Rec：讓生成式推薦從匹配走向多步推理

3.1 方案設計

針對上述挑戰，REG4Rec 從語義 ID 表征、推理路徑建模、推理增強訓練和線上推理部署四個層面進行系統設計，構建端到端的生成式推理方案：

1. 超長并行語義碼本：用 MMQ 并行碼本替代 RQ-VAE 殘差層級碼本，緩解碼本信息分布不均和步間語義割裂問題，使碼本規模與推理步數能夠穩定擴展。

2. 上下文感知的動態推理路徑：在推理階段支持自適應的 token 生成順序，使解碼路徑隨用戶意圖動態變化，更好刻畫 “因人而異” 的決策邏輯。

3. 基于 GRPO 的推理增強：引入多維反饋信號（如 token 命中、類目一致性、語義一致性等）對推理過程做偏好對齊，提升對早期誤差和錯誤前綴的魯棒性，增強自我糾偏能力。

4. 基于反思剪枝與多步松弛的線上部署：在推理階段引入一致性度量進行 “反思剪枝”，過濾語義不一致的解碼路徑。在商品檢索時則允許少量 token 不匹配的模糊召回，在保證推理穩定性的同時提升長尾覆蓋能力。

圖 1 REG4Rec 算法架構

3.2 超長并行語義碼本

工業界常用 RQ-VAE 來構造語義 ID，其殘差層級結構更適合壓縮表示，并不天然適配多步推理式生成。隨著解碼步數增加，新增碼本往往難以貢獻同等水平的增量語義信息，訓練過程中也更容易出現層間收斂不同步的問題。

更重要的是，層級殘差把語義拆到彼此相對割裂的空間里，后續步驟難以繼承前序推理結果，導致多步生成難以實現「隨步數增加而持續提升」，反而更容易放大早期偏差。這意味著如果不改變語義 ID 的組織方式，推理步數和收益都很難可持續擴展。

圖 2 基于 MoE 的并行語義碼本 MMQ

為了解決這些問題，阿里國際智能技術團隊提出了一套基于 MoE 的并行語義碼本方案 (WSDM’26 MMQ [3])。該方案通過多個專家從不同語義視角對同一商品進行編碼，生成一組平行的語義 token 空間；同時引入路由機制，為各 token 維度清晰分工，避免語義信息過度集中在少數維度，其余維度逐步退化為殘差噪聲。

在這一設計下，碼本規模與推理步數能夠更穩健地擴展，為更長推理鏈路的 Scaling Up 奠定基礎。同時，生成的核心目標也從「壓縮商品表示」轉向「刻畫用戶興趣空間」：模型在多個語義維度上逐步推理出用戶偏好，再通過檢索策略從商品庫中取回滿足這些語義約束的目標物品。

3.3 上下文感知的動態推理路徑

在現有生成式召回架構中，商品通常被編碼為一條固定順序的語義 token 序列，對于殘差碼本往往對應由粗到細的層級順序。這種確定性表征隱含了一個強假設：所有用戶都應沿著同一套語義維度依次理解商品。但在真實推薦場景中，用戶的決策線索往往因人而異。同一商品包含品牌、價格帶、顏色、款式等多維屬性，不同用戶產生興趣的觸發點可能完全不同，有人先看品牌，有人更在意外觀風格，也有人優先關注價格。若解碼順序被綁定到單一靜態路徑，就相當于把不同用戶的推理過程壓縮到同一條決策鏈上，模型可表達的推理空間被顯著收窄，個性化效果也因此受限。

圖 3 基于上下文感知的動態推理路徑

為此，REG4Rec 設計了上下文感知的動態推理路徑。模型在每一步生成前，綜合用戶歷史行為、實時意圖信號以及已生成的 token 前綴，自適應決定下一步從哪個語義維度進行解碼。這樣，解碼不再受預設順序約束，而是圍繞用戶當前關注點動態選擇并組合語義維度，逐步形成更貼近個體決策邏輯的推理軌跡。

這一設計將個性化能力前置到生成過程之中，使模型不僅學習「生成哪些語義線索」，也學習「先生成哪些線索、再補全哪些約束」。在并行碼本提供的多視角語義空間上，動態路徑顯著擴展了可探索的推理組合，有助于更精準地捕捉復雜多變的用戶意圖。

3.4 基于 GRPO 的推理增強

受大語言模型中「推理即生成」范式的啟發，REG4Rec 將推薦從傳統的「表征匹配」升級為「可控的邏輯推理」，更細致地刻畫用戶行為背后的決策路徑與真實興趣。

為此，REG4Rec 在訓練階段引入強化學習框架，基于 GRPO 進行偏好對齊，引導模型在大規模生成空間中探索更優推理路徑。獎勵函數設計主要包括三類信號：

面向結果的獎勵：根據生成結果與目標商品語義 ID 的命中程度給予獎勵。即使前綴出現偏差，只要后續檢索的商品命中目標，仍會持續給予正反饋，從而緩解自回歸誤差累積，并促使模型學到錯誤前綴下的更優策略，提升離線與線上表現的一致性。
面向過程的獎勵：包含兩項信號，一是類目命中獎勵，在難以精確命中商品時先對齊到正確類目，為模型提供更穩定的中間目標；二是語義一致性獎勵，約束相鄰步驟的語義漂移，避免推理鏈路發生明顯跳變，保障生成過程的連貫性。
面向集合檢索的松弛獎勵：當生成結果命中足夠多的語義 token 即給予獎勵，與線上集合檢索邏輯對齊，促使模型學習更有效的 token 組合策略，從而提升長尾覆蓋與整體魯棒性。

通過上述 GRPO 后訓練，模型能夠在多步生成中更好平衡命中率、推理方向與語義連貫性，顯著提升推理路徑的可控性與結果穩定性。

3.5 基于反思剪枝與多步松弛的線上部署

在線上部署環節，REG4Rec 圍繞穩定性與泛化性，對推理與檢索兩個關鍵環節做了針對性改造。

推理階段的反思剪枝：在 Beam Search 擴展候選路徑時，不再僅依賴累計生成概率進行排序，而是引入一致性信號，對生成軌跡進行在線「自檢」。對于語義前后不連貫、出現明顯漂移的路徑及時剪枝，優先保留語義一致的候選，從而降低多步解碼的不確定性，讓輸出更穩定、更可靠。

檢索階段的多步松弛：在商品檢索時，不再將 token 序列完全一致作為硬約束，而是允許少量 token 不匹配的候選進入召回集合。這樣可以顯著降低局部預測偏差帶來的漏召風險，同時幾乎不增加額外推理開銷，并進一步提升對長尾興趣與相似商品的覆蓋能力。

3.6 性能與效率：在大規模業務場景跑得動

訓練優化：隨著模型參數和推理步數增加，訓練時間顯著變長，對離線迭代速度帶來壓力。REG4Rec 團隊從特征處理、高效率算子引入，量化和顯存管理等多個維度進行優化，將單次訓練時間縮短至原來的約一半，加快訓練迭代和實驗回收效率。部分關鍵的優化點如下：

推理優化：在生成式推薦的推理鏈路中，同樣包含特征處理與模型計算部分。REG4Rec 的優化重點主要集中在模型推理側，一方面借鑒 LLM 推理優化思路，另一方面結合搜索與廣告場景下的生成式推薦特點進行定制化設計，主要包括：

通用優化：將 LLM 推理優化的方法應用到生成式推薦中，如 FlashAttention、量化、KV cache 等，以提升算子效率和硬件利用率。

定制優化：針對生成式召回中 beam size 增大會導致 batch size 膨脹的問題，引入 TreeAttention 等機制控制計算規模；同時開發多種高性能融合算子（基于 Triton 或 CUDA），進一步降低推理延遲。

四、實驗

4.1 離線實驗

為了驗證 REG4Rec 的有效性，實驗采用 Recall@K 和 NDCG@K 作為離線評估指標，并在三個公開數據集和一個工業數據集上，與多個主流推薦模型進行了系統對比。結果顯示，REG4Rec 在各項核心指標上均顯著優于現有的判別式與生成式推薦基線，整體召回效果取到了穩定領先。

圖 4 REG4Rec 離線實驗結果

此外，REG4Rec 在生成過程中引入了更長的推理與選擇機制。在并行碼本設定下，對比了不同推理步數對召回效果的影響。可以看到，隨著推理步數增加，離線指標呈現穩定的 Scaling Up 趨勢。模型能夠在多步生成中逐步細化用戶意圖，并通過迭代推理持續收緊語義約束，從而生成結果更貼合個體偏好。

尤其當推理步數從 3 步提升到 5 步時，Recall 指標出現明顯躍升，其中 Recall@1 提升 123%，Recall@100 提升 37%。當推理步數進一步增加到 6 步時，REG4Rec 的 Recall@100 開始超越傳統檢索式方法，這表明，推理增強的生成式推薦不僅在個性化表達與意圖理解上具備優勢，也在泛化能力與召回效果上超過判別式范式。

圖 5 REG4Rec 推理步數 Scaling Up

4.2 在線實驗

在阿里巴巴 Lazada 推薦廣告業務中，REG4Rec 進行了超大規模線上 A/B 測試中。REG4Rec 在多項核心業務指標上取得顯著提升，并已完成全流量推全。

圖 6 REG4Rec 在線實驗效果

五、總結與展望

生成式推薦正在從「能生成」走向「會推理」。當推薦不再停留在表征匹配，而是像大語言模型一樣把推理過程納入生成本身，模型就能在多步生成中持續思考、選擇和反思，從而更貼近用戶真實興趣與決策邏輯。REG4Rec 沿著這一思路，將「推理即生成」的范式落到工業級推薦系統中，并圍繞表征、訓練與部署三條主線打通端到端鏈路。

在表征側，MMQ 并行語義碼本與動態解碼空間共同擴展了更大規模的決策空間；在訓練側，基于 GRPO 的偏好對齊與多步獎勵設計，顯式引導模型在該空間內進行有效探索，逐步學習到更一致、更可靠的語義軌跡；在部署端，一致性驅動的反思剪枝配合多步松弛檢索，在控制計算開銷的同時抑制語義漂移、降低漏召風險，讓生成策略與線上檢索機制更自然對齊。展望未來，生成式推理仍有三條值得持續深入的方向：

更具結構化的反思糾偏機制：當前線上主要依靠一致性信號對解碼軌跡做實時篩選與剪枝，能夠有效壓制語義漂移，但對早期錯誤往往缺少可學習的定位與修正能力。下一步更關鍵的是把反思從規則化過濾升級為模型內生的推理能力，在生成過程中引入結構化的反思與糾偏機制，讓模型能夠顯式識別偏差并進行針對性修正，從源頭緩解自回歸帶來的誤差累積，進一步提升長鏈推理的穩定性與可控性。
更具差異性的多目標建模：電商推薦天然是多目標系統，點擊信號密集而轉化信號稀疏，二者的學習難度與決策邏輯并不對等，但不少方法在點擊與轉化上仍沿用近似同構的結構與訓練目標。未來可以面向轉化等高價值行為做更有針對性的建模與訓練，讓模型在推理時更聚焦高指示性線索，真正做到按目標組織推理路徑與生成策略。
更靈活的獎勵融合機制：目前的多獎勵融合仍相對簡單，難以刻畫不同信號之間的協同與制約關系。后續需要探索更自適應的獎勵融合與權衡策略，使模型在命中率、語義連貫、類目對齊與檢索覆蓋之間實現更穩定的平衡，持續逼近帕累托最優，并提升跨場景遷移與泛化能力。

團隊介紹：本文來自阿里國際-智能技術-Lazada推薦廣告算法團隊。團隊聚焦生成式推薦、大模型算法、用戶超長序列建模與多場景建模等前沿方向，致力于構建工業級推薦大模型，通過更深刻地洞察用戶個性化偏好與決策邏輯，持續提升商家投放效益與平臺收益。近年來，團隊在前沿算法領域持續深耕，已在 WWW、SIGIR、CIKM、WSDM 等頂級學術會議發表多篇高質量論文。也歡迎感興趣的同學加入我們，共同開創AI推薦的新篇章。

組內前序工作：

[1]. Haibo Xing, Kanefumi Matsuyama, Hao Deng, Jinxin Hu, Yu Zhang, and Xiaoyi Zeng. 2025. ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems. In Proceedings of the ACM on Web Conference 2025 (Sydney NSW, Australia) (WWW ’25). Association for Computing Machinery, New York, NY, USA, 462–471.

[2]. Hao Deng, Haibo Xing, Kanefumi Matsuyama, Yulei Huang, Jinxin Hu, Hong Wen, Jia Xu, Zulong Chen, Yu Zhang, Xiaoyi Zeng, et al . 2025. Heterrec: Heterogeneous information transformer for scalable sequential recommendation. In Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval. 3020–3024.

[3]. Yi Xu, Moyu Zhang, Chenxuan Li, Zhihao Liao, Haibo Xing, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, and Jing Zhang. 2025. MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation. arXiv:2508.15281 [cs.IR] https://arxiv.org/abs/2508.15281

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.