網易首頁 > 網易號 > 正文申請入駐

阿里媽媽發布MUSE:搞定十萬級超長行為序列,開源Taobao-MM數據集

2025-12-16 13:07:56　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

如果把用戶在互聯網上留下的每一個足跡都看作一段記憶，那么現在的推薦系統大多患有 “短期健忘癥”。

受限于算力和存儲，那些沉睡在數年前的點擊、收藏與購買，往往被粗暴地截斷或遺忘。即便被召回，它們在模型眼中也只是一串串冰冷且互不相識的 ID 代碼。但事實上，真正有趣的東西也往往藏在這些被遺忘的 “長尾” 之中。如何喚醒這 10 萬級的沉睡數據，并讀懂它們背后的視覺與語義關聯？

阿里媽媽與武漢大學團隊給出的答案是MUSE（MUltimodal SEarch-based framework）。這不僅僅是一個新的 CTR 模型，更像是一個給推薦系統安裝的 “多模態海馬體”。它利用圖像與文本的語義力量，重構了用戶跨越時空的興趣圖譜。

甚至，他們還開源了構建這個 “數字大腦” 的基石：Taobao-MM 數據集

對于推薦系統長久以來技術演進路線，這一突破可謂是一次深刻的反思與重構！

論文標題：MUSE: A Simple Yet Effective Multimodal Search-Based Framework for Lifelong User Interest Modeling
論文鏈接：https://arxiv.org/abs/2512.07216
數據集鏈接：https://taobao-mm.github.io/

在搜推廣業務里，CTR 建模這幾年大致走過了這樣一條路：一方面，特征工程和 ID embedding 體系越來越完善，主流的 ID-based 建模方法基本都被嘗試過；另一方面，模型從只看短期行為，逐步演進到以 SIM 為代表的 “兩階段長期行為建模” 框架，在不犧牲時延的前提下，把可用的歷史行為長度擴展到了萬級別。

這些演進的確帶來了可觀收益，但隨著歷史行為越來越長，單純在 SIM 類 ID-based 結構上疊加小改動，收益的邊際變得越來越難以拉高，尤其是在檢索精度受限的場景下，序列從萬級往上擴展，效果提升會明顯趨緩。

與此同時，一個趨勢越來越明顯：用戶在平臺上的行為序列變得極長，但絕大部分沒有被真正 “用起來”。在淘寶中，用戶多年積累下來的瀏覽、點擊、加購、購買，加起來輕松就是、百萬級行為序列。但受限于在線延遲、存儲和算力，實際部署中的模型通常只能使用最近幾千條行為，或者對整條序列做非常粗粒度的截斷和過濾。再疊加一個現實約束：現有主力 CTR 模型在建模長期興趣時，依賴的是高度稀疏的 ID 特征，長尾和過期 item 的 ID embedding 質量不佳，而它們在 “終身歷史” 里占比很高；另外即便把 10 萬條行為都拉了進來，模型看到的依舊主要是 “ID 共現關系”，而不是用戶真實的內容興趣。

在這樣的背景下，MUSE誕生了！

這是阿里媽媽和武漢大學團隊面向搜推廣業務提出的一個面向 “超長序列 + 多模態” 的終身興趣建模新框架。

與其在現有 SIM 類 ID-based 長序列結構上繼續做局部微調，MUSE 更關注的是利用多模態信息重新組織這 10 萬級行為，系統性提升 “終身興趣建模” 的質量與可用長度。它在架構上與各類 “擴展 dense 參數、提升模型表達能力” 的工作基本正交：無論當前使用的是經典 DNN 還是基于 Transformer 的推薦大模型結構，都可以把 MUSE 視為一個可插拔的 “終身興趣建模模塊”，與之疊加使用，共同放大收益。

目前，MUSE 已在阿里媽媽展示廣告精排模型中全量上線，具備對10 萬長度用戶原始行為序列的建模能力（并可結合聚類等方法持續向百萬級擴展），基于多模態 embedding 統一表示并建模用戶行為，同時通過架構與工程協同優化不增加任何延遲。在線上 A/B 實驗中，MUSE 帶來了穩定、顯著的業務收益：CTR 提升 12.6%。同時，阿里媽媽也基于真實業務日志整理了首個 “長序列 + 多模態 embedding” 的大規模數據集 Taobao-MM，對外開放，用于支持業界和學界在「長序列 × 多模態」方向的進一步研究。

下面從 “工業落地視角” 拆解 MUSE，一步步展開。

一、問題背景：終身行為建模，卡在哪？

在大規模搜推廣業務中，關于終身行為建模的主流架構已經比較統一：以 SIM / TWIN 為代表的兩階段框架

GSU（General Search Unit）在用戶超長行為序列中，先做一次 “粗檢索”—— 從最多 10? 級行為中挑出與當前目標 item 相關的 Top-K（例如 50 條）；
ESU（Exact Search Unit）再在這 K 條行為上做精細建模（DIN / Transformer 等各種 attention 結構），輸出 “終身興趣向量”，輸入 MLP 結構。

這樣的設計讓我們一方面可以利用超長行為，另一方面又不至于把在線模型的延遲與成本拉爆。

然而，業界兩階段模型（SIM、TWIN、UBR4CTR 等）的共性是：從頭到尾都圍繞 ID 展開。GSU 使用 ID embedding 做相似度檢索（比如基于類目、基于 ID embedding 近鄰、基于 attention score 等）；ESU 中仍然只使用 ID embedding 做行為聚合（target attention /self-attention 等）。

對應地，又會暴露出兩類典型問題。

長尾 / 過期 item 泛化能力弱：這類 ID 出現次數少，embedding 學得不充分；GSU 檢索質量直接受限 —— 歷史中與目標 item 實際高度相關的點擊行為，因為 ID embedding 不 “像”，可能被排除在 Top-K 之外。
ESU 語義表達力有限，只能依賴共現：模型更多是在學 “誰經常和誰一起被點”，對內容語義本身掌握不足；例如，用戶一直在逛 “黑色運動鞋”，一個新上的視覺相似的黑色休閑鞋廣告由于沒有歷史共現記錄，在純 ID 空間里很難被識別為 “強相關”。

為緩解上述問題，近兩年開始有工作嘗試把多模態信息引入終身行為建模。例如 MISS 在 GSU 階段引入圖文 embedding 用于檢索，但 ESU 階段仍然只使用 ID，不對多模態語義做融合建模。也就是說，檢索階段變 “聰明” 了一些，但建模階段仍然在老路上

二、核心洞察：GSU 要 “簡單”，ESU 要 “豐富 + 融合”

在 MUSE 之前，阿里媽媽做了大規模系統實驗，對多模態在 GSU 和 ESU 兩個階段的作用做了拆分分析，得到三個關鍵洞察，非常適合作為工業系統設計時的參考原則。

對 GSU：簡單的多模態 cosine 就夠了。在 GSU 中，他們系統對比了幾種檢索方式：只用 ID embedding 做檢索；用多模態 embedding（多種預訓練方式得到的多模態 embedding，包括 OpenCLIP / I2I / SCL）；在多模態 embedding 上疊加 Attention 打分；ID 與多模態的各種 “加權融合” 檢索策略。結果非常直接：單純用高質量多模態 embedding 做余弦相似度檢索，就已經穩定優于 ID-only 的 GSU；再疊加復雜結構（Attention、ID-Multi 融合），要么效果提升有限甚至下降，要么算力和工程復雜度明顯增加，不具備性價比。結論是：在有高質量多模態 embedding 的前提下，GSU 只需要一個輕量的余弦檢索就足夠好。GSU 屬于在線性能最敏感的一環，在這層 “搞復雜”，往往收益極低甚至適得其反。

對 ESU：多模態序列建模 + ID 融合非常關鍵。在 ESU 端，重點做了兩方面增強：一是顯式建模多模態相似度序列，引入 SimTier，把 “目標 item 與每條歷史行為的多模態相似度序列” 壓縮為一個 “相似度直方圖”，作為語義興趣的一種 summary 表達；二是把多模態信號注入 ID-based attention，提出 SA-TA（Semantic-Aware Target Attention），在原有 ID-based target attention 打分的基礎上，將多模態 cosine 相似度及其與 ID 打分的交互項融合進去，作為最終的 attention score。在大規模廣告數據上的實驗結果顯示：單獨使用 SimTier 的多模態 ESU，相比只用 ID 的 Target Attention，GAUC 可以提升約 +0.7%；在此基礎上疊加 SA-TA，總體 GAUC 提升可達到約 +1.2%。這說明 ESU 和 GSU 的設計原則截然不同。

表征質量對 ESU 比 GSU 敏感得多。阿里媽媽對比了三類多模態預訓練方式：OpenCLIP（基于 2 億級圖文數據的對比學習）、I2I（基于 item 共現關系的對比學習，引入協同信號）、SCL（基于 “搜索 - 購買” 行為構造正樣本，兼具語義與行為相關性）。現象是：在 GSU 只替換 embedding 類型時，效果變化相對溫和；在 ESU 替換 embedding 時，差異明顯：SCL > I2I > OpenCLIP。結論是：ESU 對多模態 embedding 的質量極其敏感；GSU 更像 “粗粒度過濾器”，對表征精度的要求相對沒那么苛刻。

三、MUSE 框架詳解

基于上述分析，團隊落地了完整可部署的 MUSE 框架。整體可以拆成三步（下圖從左至右）：

多模態表征如何預訓練：基于語義與行為的 SCL 對比學習；
多模態 GSU 如何做：輕量余弦檢索；
多模態增強 ESU 如何做：SimTier + SA-TA 雙路建模。

底層采用 SCL 多模態預訓練。以圖像模態為例，所有 item 的圖像 embedding 預訓練方式如下：輸入包括用戶搜索 query 對應的圖像和該 query 下最終購買的商品圖像；正樣本 pair 由 query 與購買商品構成；負樣本 pair 通過 MoCo memory bank 動態構造；損失函數為 InfoNCE 對比學習（形式類似 CLIP，但正負樣本來自真實用戶搜購行為）。得到的 embedding 具備兩方面能力：內容語義（圖像信息的語義對齊）和行為相關性（與真實 “搜索 - 購買” 行為對齊）。在 MUSE 中，這些多模態 embedding 在訓練 CTR 模型時為凍結參數（推理階段僅查表），便于保證線上性能的穩定性和工程可控性。

GSU 使用 SCL embedding 做簡單 cosine Top-K。其目標是從用戶 10?~10? 級的歷史行為中，選出最相關的幾十條行為作為 ESU 的輸入。具體步驟包括：通過查 embedding 表獲取目標 item 的 SCL embedding（v_a）和用戶所有歷史行為 item 的 SCL embedding（v_i）；計算每條歷史行為與目標 item 的相似度 r_i = cos (v_a, v_i)；按 r_i 排序，取 Top-K，形成 “輸入給精排模型的行為子序列”。整個過程沒有復雜 Attention，也沒有 ID–MultiModal 的交織檢索，本質是一個高效的內積排序。

ESU 采用 SimTier + SA-TA 雙管齊下。其核心由兩條并行路徑構成。路徑 A 是SimTier—— 顯式建模 “相似度分布”：給定 GSU 得到的相似度序列 R = [r_1, ..., r_K]，

將相似度區間 [-1, 1] 等分為 N 個 bin（tier）；
統計每個 bin 內落入的行為個數，得到一個 N 維 histogram：h_MM；
h_MM 可以理解為：用戶歷史行為中，與當前廣告 “高相關 / 中相關 / 低相關” 的數量分布，即一個緊湊的 “語義興趣分布向量”。

相比直接在多模態 embedding 序列上堆復雜結構，這種方式計算開銷極小，并且在工業場景的實驗中，效果非常可觀。

路徑 B 是 SA-TA—— 在 ID attention 里注入多模態語義。這條路徑保留了 ID embedding 的優勢（協同過濾信號），在此基礎上做 “語義增強”。

標準 DIN Target Attention：用 target ID embedding 與行為 ID embedding 做打分，得到 α_ID；
同步拿到多模態相似度 R（沿用 GSU 的 r_i）；
將兩者融合為最終打分：α_Fusion = γ??α_ID + γ??R + γ??(α_ID ⊙ R)，其中 γ 為可學習標量，⊙ 為逐元素乘；
用 Softmax (α_Fusion) 作為權重，對行為 ID embedding 做加權和，得到 u_l^ID。

直觀理解是原本 ID-based attention 對長尾 item 的打分容易失真；加上多模態相似度 R，相當于在告訴 attention： “這條行為雖然 ID 很冷，但在語義上和當前廣告高度相似，可以給更高權重。”

最終用戶終身興趣表示由 SimTier 輸出的 h_MM 與 SA-TA 輸出的 u_l^ID 拼接而成，拼接后的向量作為 “終身興趣表示”，輸入上層 CTR MLP。至此，多模態在 ESU 中既有單獨一條序列建模路徑，又深入參與到 ID attention 的行為聚合過程。

四、工程落地：10 萬行為 + 多模態，還能延遲可控？

超長序列 + 多模態，直覺上看 “又長又貴”。MUSE 在線上通過一個非常偏工程的拆分設計實現延遲可控。

阿里媽媽展示廣告線上整體 pipeline 可粗略抽象為：Matching（從全庫召回約 103 個候選廣告）和 Ranking（CTR 模型對這些候選預估打分）。MUSE 被部署在 Ranking 階段，用于針對這些候選建模用戶的終身行為。

實踐發現，最大瓶頸并不在算力，而是在網絡通信：需要拉取用戶 100k 行為序列及其對應 embedding，網絡與存儲訪問會引入不容忽視的時延。為此，團隊的改造重點是把 GSU 從 Ranking 的關鍵路徑中剝離出來，做異步預取。

具體分為兩個階段：

Pre-fetching 階段（與 Matching 并行）—— 用戶請求到達后，Matching 負責召回候選廣告，同時 GSU 服務開始從遠端存儲拉取用戶 100K 行為的多模態 embedding，這些 embedding 預先緩存到 GPU 顯存中，該步驟的時延整體被 Matching 階段遮蔽掉；
相似度計算 Top-K Selection 階段（Ranking 前的小環節）—— 當 Matching 完成時，GSU 一側的行為 embedding 已經就緒，此時只需對候選廣告與緩存的行為 embedding 做一次相似度計算即可，得到 Top-K 行為 ID 和相似度序列，交由 Ranking 服務的 ESU 使用，這部分計算量很小，可以與 Ranking 的特征處理并行完成，對整體時延影響極小。

在這樣的設計下，GSU 對端到端延遲幾乎是 “隱身” 的。新增成本主要在于存儲與網絡讀取負載（但被并行化掩蓋）以及 ESU 端增加的 MLP /attention/ SimTier 算力開銷（量級可控）。

線上對比實驗設置為：Baseline 是 SIM（兩階段 ID-only 架構，行為長度 5K），MUSE 是多模態 GSU + 多模態增強 ESU，行為長度擴展至 100K。 A/B 結果顯示：CTR +12.6%、RPM +5.1%、ROI +11.4%。同時，在離線實驗中也對行為長度做了消融（5K / 10K / 100K），觀察到：序列越長，MUSE 帶來的收益越大；多模態增強 ESU 在所有長度上都顯著優于 ID-only ESU，且長度越長，優勢越明顯。這基本佐證了一個直觀判斷：當你手里有幾十萬級別的用戶歷史行為日志，多模態 + 檢索式建模，確實能把這些 “沉睡日志” 轉化為有效的業務資產。

五、對業界的幾個直接啟發

如果你在做廣告 / 內容推薦 / 電商推薦，MUSE 這套實踐有幾個非常 “可復制” 的啟發點。

先別急著在 GSU 上玩花活：優先把 item 的圖文 embedding 學好（無論是自建 CLIP、SCL，還是其它多模態預訓練）；在此基礎上，用多模態 cosine 取代 GSU 的 ID-only 檢索，往往是性價比最高的一步。Attention 檢索、復雜多塔融合等設計，在 GSU 這個階段不一定值得你花大量算力和工程復雜度。

把多模態引入 ESU，而不是只停留在 GSU：ESU 是真正決定 “特征如何被使用” 的地方，也是對 embedding 質量最敏感的環節；即便暫時無法重構整個 ESU，也可以分兩步推進：一是引入一個輕量的 “相似度直方圖” 類模塊（如 SimTier）來刻畫語義分布；二是在現有 DIN / TWIN 的 attention 中，引入多模態相似度作為輔助打分（類似 SA-TA）。這類改造對現有模型結構的侵入性不大，但從實驗看收益往往很可觀。

工程上，優先解決 “序列拉不進來” 的問題：多模態 + 超長序列的最大障礙往往不在算法，而在 I/O 和基礎設施。MUSE 提供了一個可直接借鑒的模板：把 GSU 抽成獨立服務，盡量與 Matching 異步并行；盡可能將 embedding 搬到就近緩存（如 GPU 顯存）；在 Ranking 階段只保留輕量計算，保證路徑收斂。這類設計思路，本質上是從 “只在舊框架上雕花”，轉向圍繞 “可擴展架構 + 高投產比” 重新規劃整條推薦鏈路。

六、開源數據：首個 “超長行為 + 多模態 embedding” 公開數據集

這篇工作還給社區帶來了一個附加價值：首個同時具備 “長行為序列+高質量多模態 embedding” 的大規模公開數據集 Taobao-MM

其主要特點包括：

用戶行為序列最長 1K（開源版本），工業內部實驗支持高達 100K；
每個 item 提供 128 維 SCL 多模態 embedding（不包含原始圖文，規避版權風險）；
數據規模約為 1 億樣本、近 900 萬用戶、3,500 萬級 item。

對學界研究者和工業界團隊來說，這是一個可以直接驗證 “多模態+長序列” 建模方案的基準數據集，有助于減少自建數據的成本。

七、小結：從 “只調 ID 模型” 到 “MUSE 多模態興趣引擎”

從 MUSE 和近期工業界的推薦系統演進可以看到一個共同趨勢：不再只在舊的 ID-only 框架上做局部微調，而是從軟硬件協同、架構層面，重新組織 “算力×特征×模型”。具體到 MUSE：

結構觀上，接受 “用戶行為本質上是一個超大規模序列數據庫”，先檢索再建模；
信號觀上，擺脫 ID-only 的限制，讓圖文 embedding 真正參與終身興趣建模；
工程觀上，把最重的 I/O 和計算挪到異步與緩存，把在線關鍵路徑做得足夠輕量。

如果你的業務場景具備以下特征：用戶累積了較長行為日志（>> 萬條）、每個 item 具備圖文等豐富內容特征、純 ID-only 模型的收益已經越來越難挖掘，那么可以考慮按這樣一個路線落地 “輕量版 MUSE”：先提高表征質量，評估現有圖文預訓練 embedding，或嘗試類似 SCL 的行為增強式預訓練；用多模態支撐 GSU，在現有兩階段結構中，優先用多模態 cosine 替代 GSU 的 ID 檢索；在 ESU 中融合多模態，在 DIN / TWIN 的 target attention 中，引入一條 “多模態相似度支路”，觀察 offline 指標變化。這基本就是一個 “輕量版 MUSE” 的起點，后續可以逐步演進到完整的雙路 ESU 與異步 GSU 架構，在控制延遲的前提下，打開新的效果增量空間。

阿里媽媽技術團隊已在多模態智能領域取得多項突破，此次發布的 MUSE，不僅僅是算法的進步，更是工程與算法深度協同的典范。它告訴我們，在追求模型 “大” 的同時，也要注重 “巧” 和 “效率”，才能真正讓技術在工業界發揮最大能量。

One More Thing

ICLR 2026 Workshop 等你來稿

還有個好消息！阿里媽媽聯合北京大學等組織和個人，將在ICLR 2026 舉辦 Workshop on AIMS（AI for Mechanism Design & Strategic Decision Making），目前征稿已開啟！

如果你正在探索人工智能與機制設計、決策智能的交叉前沿

無論是自動機制發現、多智能體博弈均衡、高維/自然語言場景下的機制建模，

還是 AI 系統的公平性、魯棒性，亦或是廣告、云市場等真實場景的落地應用 ——

那么，這場 ICLR 2026 Workshop 正是為你而設！

截稿日期：2026 年 1 月 30 日；
接受 Long Paper（≤9 頁）與 Short Paper（≤4 頁），支持雙重投稿（可與 ICML/KDD 等會議多投），錄用不存檔；
由 Tuomas Sandholm（CMU）、Song Zuo（谷歌）、Vijay V. Vazirani (UCI)、Niklas Karlsson （亞馬遜）、鄭臻哲 (上海交大) 等頂尖學者組成講者與審稿陣容；
投稿地址：https://openreview.net/group?id=ICLR.cc/2026/Workshop/AIMS

此外，我們還設有 Best Paper 獎、Best Poster 獎，優秀作者還有機會獲得阿里巴巴等企業的研究實習推薦！

這不僅是一場研討會，更是連接人工智能、經濟學與運籌學的橋梁。

更多詳情，可戳 Workshop 官方網站：

https://alimama-tech.github.io/aims-2026/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.