網易首頁 > 網易號 > 正文申請入駐

跨越推薦系統“時間陷阱”，讓模型在流式數據中學到真實用戶偏好

2025-12-19 21:42:52　來源: InfoQ

北京舉報

分享至

作者 | 傅聰團隊

審校 | 蔡芳芳

在真實的工業級推薦場景中，用戶的偏好會隨著時間不斷遷移，而模型當然也不能“一成不變”，需要不斷在每一天新到來的數據上訓練，來適應數據分布的遷移。理想中，模型在“見識過”各種各樣的用戶數據后，可以從容自如、準確地預測用戶的行為。而實際情況是，模型在訓練每一天的數據時，AUC 可以持續增長，但在未來一天的樣本上預測的時候，又會斷崖式下跌，仿佛模型在不斷地“過擬合”每一天的數據。不僅如此，電商平臺的大促前后，劇烈的數據分布“地震”往往會讓模型在大促當天表現不佳。

推薦模型在持續訓練中為何“失憶”？如何讓模型能夠在不斷遷移的數據分布中“找到”有效的的信息？

針對這一問題，Shopee 傅聰團隊聯合新加坡管理大學 SMU，深入分析挖掘了工業級推薦系統數據分布遷移的模式，并在此基礎上提出了一種模型架構無關的學習框架 ELBO_TDS（Evidence Lower Bound Objective for Temporal Distribution Shift）。

該研究成果發表后，便獲得人工智能領域核心基礎設施平臺 Hugging Face 的關注。作為學術界與工業界公認的重要開源平臺，Hugging Face 主動邀請傅聰團隊將論文及配套的推薦系統時間分布偏移工業基準數據集分別托管至其論文庫與數據集平臺。這一認可充分體現了傅聰團隊的該項研究在理論創新與工程實踐方面的雙重價值。

傅聰團隊的研究方法從真實場景數據分析出發，重新解讀了推薦系統場景下，用戶交互數據的“生成過程”，并提出了一種 ELBO 建模目標，將增強表征時間尺度魯棒性的自監督學習，與訓練模型個性化能力的標簽監督學習，無縫統一在了一個因果學習框架中，為持續學習、甚至 life-long 學習提供了一個新的視角。

1 時間維度分布遷移分析：改寫推薦系統數據認知

推薦數據在時間維度上的分布漂移會阻礙模型的穩定學習，尤其是在 Shopee 的場景，每月一大促、半月一小促的周期讓模型的訓練 AUC 曲線如同“過山車”。想要解決問題，首先需要理解問題的本質。

論文對 30 天周期的訓練數據進行了深入分析，將部分結果可視化后，如下圖所示：

推薦系統模型的訓練數據，本質上是用戶的行為 + 各種類型特征的記錄。在推薦系統的特征工程中最常用的特征不外乎三大類：統計特征、類別特征、序列特征。不同類型特征的遷移表現可以總結為以下三點：

統計類特征（如物品最近 3 天窗口的 CTR）的 item CV 分布呈現單峰分布。解讀：CV（Coefficient of Variation）一般用于度量某個數值的波動劇烈程度。單峰分布的 CV 代表了該統計特征在大多數情況下呈現出“有界性”。換句話說，特征的數值在很小的概率下會產生遠離均值的異常值。
序列特征中，與目標商品相關的 item 數量（例如在 swing i-to-i graph 中有互連邊的關系）的 CV 分布也是偏左單峰。
類別特征（例如 item id，user id）的分布，在連續多天的 JSD（香農熵，衡量分布差異性）數值上是緩慢增長。解讀：以 item ID 為例，任意相鄰兩天的 JSD 是 0.53 附近。但第 0 天到第 13 天的累積 JSD 卻只增長到了 0.59。

從上面的數據分析我們可以看出，任意一種特征的數值或分布，在天與天之間切換時，都呈現了不弱的抖動（CV 數值在 2～4）。但長周期來看，數值的波動烈度又是相對穩定的（CV 單峰、JSD 增長緩慢）。

這像極了一拳超人的絕技：超級反復橫跳。

為什么數據會“反復橫跳”呢？這個橫跳過程中的那個相對穩定的“均值”又代表什么呢？

一般情況下，可以假定參與到推薦系統“協同過濾”過程的用戶，是“理性”和“感性”摻雜的個體，但多數情況下理性占主導，尤其是電商場景，涉及到真實交易支付。一個商品的質量等本質屬性不會突變，所以不會今天暢銷、明天滯銷、后天又暢銷；同樣，一個用戶，也可以認為其文化背景、生活環境、年齡履歷、經濟狀況，不會經常突變。因此，論文認為，這個穩定的均值代表參與到推薦系統的對象（用戶和物品）的“穩定內核”，而橫持續跳著的“方差”，則是由各種因素帶來的“干擾”，例如社交媒體的流行趨勢、熱點訊息、用戶不定期的訪問習慣、廣告促銷、系統 Bias 和不確定性等等。

由此看來，我們需要對推薦系統的數據模型進行重新認知。

傳統的理解里，推薦模型建模的是 P(Y|X)，把 X 作為數據的“真實”，以此 X 來推斷標簽 Y，那么數據的“因果”流向是 X -> Y。但論文認為，X 中的絕大多數“手工特征”是對真實屬性、偏好的帶噪聲的表達，而不是數據的“真實”。那么，推薦系統的真實數據生成過程可能是下面這張圖：

論文認為參與到推薦系統的對象——用戶和物品都包含兩面性。一種是穩定因素，代表對象的內核、本質，例如商品的類目、質量、功能，或用戶的性別、年齡段（相對穩定）。另一種是波動因素，代表對象的表象、某種視角的觀測，例如商品的銷量一般會持續上漲至其生命周期結束，用戶的即時興趣會收到社會屬性的影響。

為了方便建模，論文方法引入隱變量 Z。這個視角下的數據生成過程，或者因果關系，是穩定因素 S 和波動因素 V 共同作用于隱變量，即 S -> Z，V -> Z。而再經由 Z，形成了大家對數據表象的觀測 X 和 Y，即 Z -> X, Z -> Y。

因此，論文方法希望模型能夠捕捉到 Z 的分布，從而建模好 X 和 Y 的聯合分布。因此，論文方法追究的這個過程，更接近與“生成式建模”的思路（注，不同于目前業界很多所謂的生成式推薦，其本質都還是建模條件分布 P(Y|X)，嚴格意義上屬于判別式模型）。

2 方法論：從 ELBO 推導出自監督和判別式監督聯合學習框架

首先，論文基于對數據的觀察總結提出了穩態 - 波動假設：

接著，基于這個假設，論文方法希望模型建模聯合分布的時候可以過濾掉波動因素 V 的干擾，從而讓預測更穩定，從這個角度來看，論文提出了以下極大似然估計目標：

這個目標的含義是，從一個帶有噪聲 V 的數據分布上采樣得到樣本，但讓模型試圖僅僅學習 given 穩定因素 S，X 和 Y 的聯合概率分布。上述目標不可直接優化，為了方便 VAE 形式的建模，引入隱變量 Z，稍加推導，可以得到新的目標 ELBO：

這個 ELBO 包含 4 個小項目，從語義理解看：

重構項：從隱變量 Z 重構出樣本 X，
熵約束項：對隱變量 Z 的方差進行有效約束，保證表征坍塌。
預測（判別式）項：從隱變量 Z 預測標簽 Y。
先驗約束：使得隱變量 Z 盡可能只與穩定因素 S 有關，從而讓表征 Z 具備應對時間維度分布遷移的魯棒性。

優化上述 ELBO，模型就可以得到具有這樣特性的表征 Z，既包含了重構 X 的能力，最大限度的保留信息，防止表征坍塌；又保留了有助于判別式任務的有效信息，助力下游任務；還排擠掉了與 V 有關的信息，強化了應對時間分布遷移（Temporal Distribution Shift，TDS）的魯棒性，可以說是全能表征。更具體地，模型的訓練框架如下：

3 多視圖數據增強策略

從上述模型結構圖可以看到，模型的輸入包含帶有波動因素 V 的數據樣本。獲得這樣的樣本，最簡單的方法就是，從歷史樣本中獲取和構造。然而，這樣做費時費力非存儲不說，還有一個非常嚴重的缺點，就是 One-Epoch 過擬合問題。

所謂 One-Epoch 過擬合問題，是在工業界不同場景被廣泛發現的問題：模型在同一天數據上訓練超過一次就容易過擬合到當天樣本，造成預測未來時間的樣本的 AUC 明顯下降。

為了不產生類似的問題，論文提出了在線增強策略，針對不同類型的特征：

統計類型的特征進行數據分桶（工業界常規操作），增強視圖樣本則通過擾動真實樣本產生，根據之前的數據觀測分析，可以把真實樣本的桶號隨機擾動到其附近的分桶號上。
類比類型的特征，隨機替換或者 zero mask。
序列類型的特征，對序列 item 進行隨機 mask

上述操作隨機進行多次，可以得到一條樣本的多個“視圖”。這就好像圖片預訓練模型的隨機裁剪、旋轉、變色等數據增強操作。

上述樣本生成過程不需要參考歷史樣本，可以在訓練時并行計算，對樣本訓練帶來的成本幾乎可忽略不計。

4 實驗數據和結果分析

推薦系統數據的時間分布遷移（TDS）是一個相對比較小眾且新型的領域，可對比的方法不多。但論文關注到和這個領域最相關的一個機器學習方向叫做不變性學習（Invariant Learning or Invariant Risk Minimization for covariant shift）。與此相對應地，傳統的推薦模型建模其實都隱含一種數據分布隨著時間推移保持 i.i.d. 的假設，可以被統稱為 Empirical Risk Minimization （ERM）。此外，論文中還將比較相似的基于對比學習的自監督學習，以及將圖像 pretrain 領域的 Dino 適配到搜推領域，統一納入到 Baseline 之中。

論文在公開數據集和工業級數據上都進行了實驗。公開數據集的選擇也比較有限，主要原因是，要對數據特征進行有效“擾動”，就需要了解特征的語義；同時，數據需要在相對比較連續的一段時間內進行采集，保證用戶偏好不會產生極大偏移，從而脫離論文研究問題的范疇；數據不可以經過主觀性強的、大力度的采樣，導致數據分布產生不自然的扭曲。因此，傳統的常用推薦 benchmark，如 Amazon Reviews、MovieLens 數據集存在時間尺度過長且不連續、采樣力度過大的問題；AliCCP、AE 等電商數據存在時間戳不明確、特征含義不明等問題。最終我們找到快手 release 的 kuairand 系列數據。針對 kuairand 數據集，由于其跟蹤 user 來采集數據，導致數據因用戶來訪頻率不穩定而產生時間區間的數量不均，例如數據采集區間內 4～5 月的很多自然天內內沒有數據。我們將數據按時間戳排序后，將數據集重新等分為數量差不多的幾個 part，定義為不同虛擬“自然天”的數據。

實驗結果如下：

首先，從上述數據我們可以看到論文提出的 ELBO_TDS 框架，相較于 baseline，均取得了顯著提升。這說明 ELBO_TDS 可以有效低去除數據中與用戶核心興趣無關、與時間遷移有關的噪聲，從而更好地預測用戶的偏好。

其次，ELBO_TDS 在視頻、電商兩類模態的數據上均取得有效提升，也說明了 TDS 問題在各類推薦系統中廣泛存在。

另外，IRM 類方法例如 IRM、V-REx、RVP 等效果均低于在數據上增量訓練的 ERM（模擬現實推薦場景的天級更新）。說明 TDS 問題不是傳統的 IRM 問題，需要有新的解決方案。

因為所有方法都是按照時間順序，在數據的一個一個 partition 上增量訓練的，我們用“前一天”的 checkpoint 去預測“下一天”的位置樣本，將曲線畫了出來：

我們可以看到，ERM、自監督、以及 ELBO_TDS 都是隨著時間訓練，表現越來越好；但 IRM 類方法基本都是越訓練越差。

這是因為 IRM 類方法假設數據集的不同 partition 之間存在絕對不變的“內核”，試圖用某種 regularization + 對其它 partition 數據的重復訪問，來學到這個“絕對不變”的隱變量。然而，這個假設并不適用于搜推廣的情形。從理論上，TDS 不是單純的 covariant shift 的問題，TDS 不假設穩定因子 S 絕對不變。從經驗分析上，論文的數據分析也表明，除了劇烈波動的 V 因子，S 因子也在隨著時間漂移，只是相對來說非常緩慢。

針對 covariant shift 的 IRM 類方法失效的原因，一方面是“不允許”用戶偏好遷移，這與任務目標違背；另一方面是參考了“歷史”數據 partition，觸發了搜推廣常見的 one-epoch 過擬合問題。

ELBO_TDS 的另一個優勢在于，對大促來帶的劇烈數據分布地震不敏感：

Baseline，即線上的 ERM 方法，在大促前后，即便切換到了小時級別更新，進行快速的分布 adaption，依然在大促前夜、大促后夜的時間區間出現了 auc 斷崖下跌，會對大促前幾個小時的收入造成損失。而 ELBO_TDS 效果幾乎無損。最終，在兩周實驗期間，ELBO_TDS 取得了 2.33% 的 GMV/user 的收益推全。

論文原文及開源代碼鏈接：

arxiv 論文 ELBO_TDS（https://arxiv.org/pdf/2511.21032）

huggingface（https://huggingface.co/papers/2511.21032）

GitHub 開源代碼（https://github.com/FuCongResearchSquad/ELBO4TDS）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.