![]()
一、引言
從內容分發到商業轉化,推薦系統早已成為互聯網平臺的關鍵基礎設施。它在海量信息與有限注意力之間完成篩選和排序,直接影響內容曝光、商品成交以及流量變現效率。
用戶在電商平臺上看到的商品列表、在信息流里刷到的內容、廣告位中呈現的鏈接,通常并非隨機展現,而是推薦系統在毫秒級完成特征理解和排序決策的結果。
近年來,大語言模型(LLM)在語義理解、內容生成和多步推理方面取得快速進展,推動業界重新審視推薦系統的形態:推薦是否可以不再局限于一次性打分和相似度匹配,而是像人類決策一樣,在生成過程中進行多步推理與自我修正,逐步逼近用戶的真實意圖。
基于此,「生成式推薦」開始成為一個重要研究方向,嘗試將 “理解 — 生成 — 推理” 融為一體,讓推薦過程從靜態匹配轉變為面向用戶意圖的動態決策。
在實際電商環境中,生成式推薦面臨的主要挑戰不在于生成商品本身,而在于生成過程是否具備「可推理、可控且穩定」的能力。
電商場景下,用戶行為信號噪聲高、興趣多樣且頻繁變化,模型需要在多步生成過程中持續校準語義方向、維持推理軌跡的一致性。若仍采用經典自回歸解碼,早期預測偏差容易被不斷放大,推理路徑收縮到少量固定模式,導致生成精度受限、長尾興趣覆蓋不足,難以穩定命中用戶真實需求。
針對上述問題,阿里國際智能技術團隊提出了基于推理增強范式的生成式推薦模型 REG4Rec。該模型從表征學習、訓練目標和推理策略三個層面進行了系統設計,以提升生成式推薦的推理能力與穩定性。離線實驗顯示,REG4Rec 在多個關鍵指標上優于現有生成式方法,并呈現出隨推理步數增加而性能持續提升的 Scaling Up 特性。
目前,REG4Rec 已在 Lazada 推薦廣告場景完成大規模工業化部署。線上結果顯示:廣告收入提升5.60%、商品交易總額(GMV)提升3.29%、點擊率提升1.81%,帶來顯著商業收益。
本工作相關成果已被數據挖掘領域頂級會議 ICDE 2026 接收。
![]()
- 論文標題:REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems
- 論文鏈接:https://arxiv.org/pdf/2508.15308
二、從判別打分走向多步生成,難點在于「推理」
長期以來,主流推薦模型大多遵循判別式范式:給定用戶與候選物品,模型通過一次性打分來估計二者的交互概率。
這種方式高效且易于部署,但也天然受限,當用戶興趣快速演化、意圖高度隱式且多維交織時,單次判別打分無法顯式建模用戶的決策路徑,也無法在推理過程中對路徑進行修正。換言之,它更擅長回答是不是,卻不擅長回答你真正想要什么、以及為什么。
在這一背景下,生成式推薦開始受到關注。它把推薦從「一次判斷」改寫為「多步生成」:不再直接對候選打分,而是將物品表示從連續向量離散化為一串語義 ID(Semantic IDs),并讓模型在解碼階段逐步生成這些 ID。每一步生成都在補全一部分意圖線索、收縮候選語義空間,最終由一組語義 ID 組合定位到目標物品。
相比單次打分,這種范式天然接近推理式決策,模型在生成過程中主動選擇、組合并糾偏,從而有機會捕捉更細粒度、更個性化的興趣表達。
圍繞語義 ID 與生成式范式,阿里國際智能技術團隊在工業場景中持續探索。2024 年,團隊將殘差式語義 ID引入召回階段的負采樣,實現了負樣本難度與規模的可控調度(WWW’25 ESANS [1])。
同時團隊搭建并部署了行為大模型基座,針對多模態異構 token 帶來的噪聲問題,提出基于分層 Transformer 的去噪建模方案(SIGIR’25 HeterRec [2])。這些前置工作表明,生成式范式的關鍵并不止于「能生成」,更在于如何讓生成過程具備更強的「推理能力」與「可控性」。
基于此,團隊提出了推理增強生成式推薦模型 REG4Rec,并將面臨的核心挑戰概括為三點:
- 挑戰一:碼本信息分布不均,步間語義割裂。當前主流生成式推薦方案多采用殘差式層級語義 token,但在多步生成中存在兩類問題。其一,語義信息過度集中在淺層,深層 token 的信息量隨層數快速衰減,從而帶來層間學習難度不一致、訓練收斂不穩定等問題。其二,不同層級 token 之間語義關聯弱,缺乏跨步承接,使后續生成難以有效利用前序先驗,每一步都像在全新空間里重新開始,從而顯著抬高整體解碼難度。
- 挑戰二:解碼路徑固定,難以刻畫 “因人而異” 的決策邏輯。現有生成式推薦通常固定語義 ID 的生成順序,相當于為所有用戶預設同一條推理軌跡。然而,同一商品可能因品牌、風格、價格、類目等不同因素被不同用戶觸發,固定順序限制了模型描繪「個體化決策路徑」的能力,壓縮了個性化表達空間。
- 挑戰三:自回歸解碼的誤差累積問題。生成式解碼通常采用自回歸方式,缺少對當前生成狀態進行顯式評估與修正的機制。一旦早期 token 出現偏差,錯誤便會在后續步驟中持續傳導并逐步累積,最終導致失之毫厘,謬以千里。
三、REG4Rec:讓生成式推薦從匹配走向多步推理
3.1 方案設計
針對上述挑戰,REG4Rec 從語義 ID 表征、推理路徑建模、推理增強訓練和線上推理部署四個層面進行系統設計,構建端到端的生成式推理方案:
1. 超長并行語義碼本:用 MMQ 并行碼本替代 RQ-VAE 殘差層級碼本,緩解碼本信息分布不均和步間語義割裂問題,使碼本規模與推理步數能夠穩定擴展。
2. 上下文感知的動態推理路徑:在推理階段支持自適應的 token 生成順序,使解碼路徑隨用戶意圖動態變化,更好刻畫 “因人而異” 的決策邏輯。
3. 基于 GRPO 的推理增強:引入多維反饋信號(如 token 命中、類目一致性、語義一致性等)對推理過程做偏好對齊,提升對早期誤差和錯誤前綴的魯棒性,增強自我糾偏能力。
4. 基于反思剪枝與多步松弛的線上部署:在推理階段引入一致性度量進行 “反思剪枝”,過濾語義不一致的解碼路徑。在商品檢索時則允許少量 token 不匹配的模糊召回,在保證推理穩定性的同時提升長尾覆蓋能力。
![]()
圖 1 REG4Rec 算法架構
3.2 超長并行語義碼本
工業界常用 RQ-VAE 來構造語義 ID,其殘差層級結構更適合壓縮表示,并不天然適配多步推理式生成。隨著解碼步數增加,新增碼本往往難以貢獻同等水平的增量語義信息,訓練過程中也更容易出現層間收斂不同步的問題。
更重要的是,層級殘差把語義拆到彼此相對割裂的空間里,后續步驟難以繼承前序推理結果,導致多步生成難以實現「隨步數增加而持續提升」,反而更容易放大早期偏差。這意味著如果不改變語義 ID 的組織方式,推理步數和收益都很難可持續擴展。
![]()
圖 2 基于 MoE 的并行語義碼本 MMQ
為了解決這些問題,阿里國際智能技術團隊提出了一套基于 MoE 的并行語義碼本方案 (WSDM’26 MMQ [3])。該方案通過多個專家從不同語義視角對同一商品進行編碼,生成一組平行的語義 token 空間;同時引入路由機制,為各 token 維度清晰分工,避免語義信息過度集中在少數維度,其余維度逐步退化為殘差噪聲。
在這一設計下,碼本規模與推理步數能夠更穩健地擴展,為更長推理鏈路的 Scaling Up 奠定基礎。同時,生成的核心目標也從「壓縮商品表示」轉向「刻畫用戶興趣空間」:模型在多個語義維度上逐步推理出用戶偏好,再通過檢索策略從商品庫中取回滿足這些語義約束的目標物品。
3.3 上下文感知的動態推理路徑
在現有生成式召回架構中,商品通常被編碼為一條固定順序的語義 token 序列,對于殘差碼本往往對應由粗到細的層級順序。這種確定性表征隱含了一個強假設:所有用戶都應沿著同一套語義維度依次理解商品。但在真實推薦場景中,用戶的決策線索往往因人而異。同一商品包含品牌、價格帶、顏色、款式等多維屬性,不同用戶產生興趣的觸發點可能完全不同,有人先看品牌,有人更在意外觀風格,也有人優先關注價格。若解碼順序被綁定到單一靜態路徑,就相當于把不同用戶的推理過程壓縮到同一條決策鏈上,模型可表達的推理空間被顯著收窄,個性化效果也因此受限。
![]()
圖 3 基于上下文感知的動態推理路徑
為此,REG4Rec 設計了上下文感知的動態推理路徑。模型在每一步生成前,綜合用戶歷史行為、實時意圖信號以及已生成的 token 前綴,自適應決定下一步從哪個語義維度進行解碼。這樣,解碼不再受預設順序約束,而是圍繞用戶當前關注點動態選擇并組合語義維度,逐步形成更貼近個體決策邏輯的推理軌跡。
這一設計將個性化能力前置到生成過程之中,使模型不僅學習「生成哪些語義線索」,也學習「先生成哪些線索、再補全哪些約束」。在并行碼本提供的多視角語義空間上,動態路徑顯著擴展了可探索的推理組合,有助于更精準地捕捉復雜多變的用戶意圖。
3.4 基于 GRPO 的推理增強
受大語言模型中「推理即生成」范式的啟發,REG4Rec 將推薦從傳統的「表征匹配」升級為「可控的邏輯推理」,更細致地刻畫用戶行為背后的決策路徑與真實興趣。
為此,REG4Rec 在訓練階段引入強化學習框架,基于 GRPO 進行偏好對齊,引導模型在大規模生成空間中探索更優推理路徑。獎勵函數設計主要包括三類信號:
- 面向結果的獎勵:根據生成結果與目標商品語義 ID 的命中程度給予獎勵。即使前綴出現偏差,只要后續檢索的商品命中目標,仍會持續給予正反饋,從而緩解自回歸誤差累積,并促使模型學到錯誤前綴下的更優策略,提升離線與線上表現的一致性。
- 面向過程的獎勵:包含兩項信號,一是類目命中獎勵,在難以精確命中商品時先對齊到正確類目,為模型提供更穩定的中間目標;二是語義一致性獎勵,約束相鄰步驟的語義漂移,避免推理鏈路發生明顯跳變,保障生成過程的連貫性。
- 面向集合檢索的松弛獎勵:當生成結果命中足夠多的語義 token 即給予獎勵,與線上集合檢索邏輯對齊,促使模型學習更有效的 token 組合策略,從而提升長尾覆蓋與整體魯棒性。
通過上述 GRPO 后訓練,模型能夠在多步生成中更好平衡命中率、推理方向與語義連貫性,顯著提升推理路徑的可控性與結果穩定性。
3.5 基于反思剪枝與多步松弛的線上部署
在線上部署環節,REG4Rec 圍繞穩定性與泛化性,對推理與檢索兩個關鍵環節做了針對性改造。
推理階段的反思剪枝:在 Beam Search 擴展候選路徑時,不再僅依賴累計生成概率進行排序,而是引入一致性信號,對生成軌跡進行在線「自檢」。對于語義前后不連貫、出現明顯漂移的路徑及時剪枝,優先保留語義一致的候選,從而降低多步解碼的不確定性,讓輸出更穩定、更可靠。
檢索階段的多步松弛:在商品檢索時,不再將 token 序列完全一致作為硬約束,而是允許少量 token 不匹配的候選進入召回集合。這樣可以顯著降低局部預測偏差帶來的漏召風險,同時幾乎不增加額外推理開銷,并進一步提升對長尾興趣與相似商品的覆蓋能力。
3.6 性能與效率:在大規模業務場景跑得動
訓練優化:隨著模型參數和推理步數增加,訓練時間顯著變長,對離線迭代速度帶來壓力。REG4Rec 團隊從特征處理、高效率算子引入,量化和顯存管理等多個維度進行優化,將單次訓練時間縮短至原來的約一半,加快訓練迭代和實驗回收效率。部分關鍵的優化點如下:
![]()
推理優化:在生成式推薦的推理鏈路中,同樣包含特征處理與模型計算部分。REG4Rec 的優化重點主要集中在模型推理側,一方面借鑒 LLM 推理優化思路,另一方面結合搜索與廣告場景下的生成式推薦特點進行定制化設計,主要包括:
通用優化:將 LLM 推理優化的方法應用到生成式推薦中,如 FlashAttention、量化、KV cache 等,以提升算子效率和硬件利用率。
定制優化:針對生成式召回中 beam size 增大會導致 batch size 膨脹的問題,引入 TreeAttention 等機制控制計算規模;同時開發多種高性能融合算子(基于 Triton 或 CUDA),進一步降低推理延遲。
![]()
四、實驗
4.1 離線實驗
為了驗證 REG4Rec 的有效性,實驗采用 Recall@K 和 NDCG@K 作為離線評估指標,并在三個公開數據集和一個工業數據集上,與多個主流推薦模型進行了系統對比。結果顯示,REG4Rec 在各項核心指標上均顯著優于現有的判別式與生成式推薦基線,整體召回效果取到了穩定領先。
![]()
圖 4 REG4Rec 離線實驗結果
此外,REG4Rec 在生成過程中引入了更長的推理與選擇機制。在并行碼本設定下,對比了不同推理步數對召回效果的影響。可以看到,隨著推理步數增加,離線指標呈現穩定的 Scaling Up 趨勢。模型能夠在多步生成中逐步細化用戶意圖,并通過迭代推理持續收緊語義約束,從而生成結果更貼合個體偏好。
尤其當推理步數從 3 步提升到 5 步時,Recall 指標出現明顯躍升,其中 Recall@1 提升 123%,Recall@100 提升 37%。當推理步數進一步增加到 6 步時,REG4Rec 的 Recall@100 開始超越傳統檢索式方法,這表明,推理增強的生成式推薦不僅在個性化表達與意圖理解上具備優勢,也在泛化能力與召回效果上超過判別式范式。
![]()
圖 5 REG4Rec 推理步數 Scaling Up
4.2 在線實驗
在阿里巴巴 Lazada 推薦廣告業務中,REG4Rec 進行了超大規模線上 A/B 測試中。REG4Rec 在多項核心業務指標上取得顯著提升,并已完成全流量推全。
![]()
圖 6 REG4Rec 在線實驗效果
五、總結與展望
生成式推薦正在從「能生成」走向「會推理」。當推薦不再停留在表征匹配,而是像大語言模型一樣把推理過程納入生成本身,模型就能在多步生成中持續思考、選擇和反思,從而更貼近用戶真實興趣與決策邏輯。REG4Rec 沿著這一思路,將「推理即生成」的范式落到工業級推薦系統中,并圍繞表征、訓練與部署三條主線打通端到端鏈路。
在表征側,MMQ 并行語義碼本與動態解碼空間共同擴展了更大規模的決策空間;在訓練側,基于 GRPO 的偏好對齊與多步獎勵設計,顯式引導模型在該空間內進行有效探索,逐步學習到更一致、更可靠的語義軌跡;在部署端,一致性驅動的反思剪枝配合多步松弛檢索,在控制計算開銷的同時抑制語義漂移、降低漏召風險,讓生成策略與線上檢索機制更自然對齊。展望未來,生成式推理仍有三條值得持續深入的方向:
- 更具結構化的反思糾偏機制:當前線上主要依靠一致性信號對解碼軌跡做實時篩選與剪枝,能夠有效壓制語義漂移,但對早期錯誤往往缺少可學習的定位與修正能力。下一步更關鍵的是把反思從規則化過濾升級為模型內生的推理能力,在生成過程中引入結構化的反思與糾偏機制,讓模型能夠顯式識別偏差并進行針對性修正,從源頭緩解自回歸帶來的誤差累積,進一步提升長鏈推理的穩定性與可控性。
- 更具差異性的多目標建模:電商推薦天然是多目標系統,點擊信號密集而轉化信號稀疏,二者的學習難度與決策邏輯并不對等,但不少方法在點擊與轉化上仍沿用近似同構的結構與訓練目標。未來可以面向轉化等高價值行為做更有針對性的建模與訓練,讓模型在推理時更聚焦高指示性線索,真正做到按目標組織推理路徑與生成策略。
- 更靈活的獎勵融合機制:目前的多獎勵融合仍相對簡單,難以刻畫不同信號之間的協同與制約關系。后續需要探索更自適應的獎勵融合與權衡策略,使模型在命中率、語義連貫、類目對齊與檢索覆蓋之間實現更穩定的平衡,持續逼近帕累托最優,并提升跨場景遷移與泛化能力。
團隊介紹:本文來自阿里國際-智能技術-Lazada推薦廣告算法團隊。團隊聚焦生成式推薦、大模型算法、用戶超長序列建模與多場景建模等前沿方向,致力于構建工業級推薦大模型,通過更深刻地洞察用戶個性化偏好與決策邏輯,持續提升商家投放效益與平臺收益。近年來,團隊在前沿算法領域持續深耕,已在 WWW、SIGIR、CIKM、WSDM 等頂級學術會議發表多篇高質量論文。也歡迎感興趣的同學加入我們,共同開創AI推薦的新篇章。
組內前序工作:
[1]. Haibo Xing, Kanefumi Matsuyama, Hao Deng, Jinxin Hu, Yu Zhang, and Xiaoyi Zeng. 2025. ESANS: Effective and Semantic-Aware Negative Sampling for Large-Scale Retrieval Systems. In Proceedings of the ACM on Web Conference 2025 (Sydney NSW, Australia) (WWW ’25). Association for Computing Machinery, New York, NY, USA, 462–471.
[2]. Hao Deng, Haibo Xing, Kanefumi Matsuyama, Yulei Huang, Jinxin Hu, Hong Wen, Jia Xu, Zulong Chen, Yu Zhang, Xiaoyi Zeng, et al . 2025. Heterrec: Heterogeneous information transformer for scalable sequential recommendation. In Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval. 3020–3024.
[3]. Yi Xu, Moyu Zhang, Chenxuan Li, Zhihao Liao, Haibo Xing, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, and Jing Zhang. 2025. MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation. arXiv:2508.15281 [cs.IR] https://arxiv.org/abs/2508.15281
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.