![]()
![]()
機器之心發布
如果把用戶在互聯網上留下的每一個足跡都看作一段記憶,那么現在的推薦系統大多患有 “短期健忘癥”。
受限于算力和存儲,那些沉睡在數年前的點擊、收藏與購買,往往被粗暴地截斷或遺忘。即便被召回,它們在模型眼中也只是一串串冰冷且互不相識的 ID 代碼。但事實上,真正有趣的東西也往往藏在這些被遺忘的 “長尾” 之中。如何喚醒這 10 萬級 的沉睡數據,并讀懂它們背后的視覺與語義關聯?
阿里媽媽與武漢大學團隊給出的答案是MUSE(MUltimodal SEarch-based framework)。這不僅僅是一個新的 CTR 模型,更像是一個給推薦系統安裝的 “多模態海馬體”。它利用圖像與文本的語義力量,重構了用戶跨越時空的興趣圖譜。
甚至,他們還開源了構建這個 “數字大腦” 的基石:Taobao-MM 數據集
對于推薦系統長久以來技術演進路線,這一突破可謂是一次深刻的反思與重構!
![]()
- 論文標題:MUSE: A Simple Yet Effective Multimodal Search-Based Framework for Lifelong User Interest Modeling
- 論文鏈接:https://arxiv.org/abs/2512.07216
- 數據集鏈接:https://taobao-mm.github.io/
在搜推廣業務里,CTR 建模這幾年大致走過了這樣一條路:一方面,特征工程和 ID embedding 體系越來越完善,主流的 ID-based 建模方法基本都被嘗試過;另一方面,模型從只看短期行為,逐步演進到以 SIM 為代表的 “兩階段長期行為建模” 框架,在不犧牲時延的前提下,把可用的歷史行為長度擴展到了萬級別。
這些演進的確帶來了可觀收益,但隨著歷史行為越來越長,單純在 SIM 類 ID-based 結構上疊加小改動,收益的邊際變得越來越難以拉高,尤其是在檢索精度受限的場景下,序列從萬級往上擴展,效果提升會明顯趨緩。
與此同時,一個趨勢越來越明顯:用戶在平臺上的行為序列變得極長,但絕大部分沒有被真正 “用起來”。在淘寶中,用戶多年積累下來的瀏覽、點擊、加購、購買,加起來輕松就是、百萬級行為序列。但受限于在線延遲、存儲和算力,實際部署中的模型通常只能使用最近幾千條行為,或者對整條序列做非常粗粒度的截斷和過濾。再疊加一個現實約束:現有主力 CTR 模型在建模長期興趣時,依賴的是高度稀疏的 ID 特征,長尾和過期 item 的 ID embedding 質量不佳,而它們在 “終身歷史” 里占比很高;另外即便把 10 萬條行為都拉了進來,模型看到的依舊主要是 “ID 共現關系”,而不是用戶真實的內容興趣。
在這樣的背景下,MUSE誕生了!
這是阿里媽媽和武漢大學團隊面向搜推廣業務提出的一個面向 “超長序列 + 多模態” 的終身興趣建模新框架。
與其在現有 SIM 類 ID-based 長序列結構上繼續做局部微調,MUSE 更關注的是利用多模態信息重新組織這 10 萬級行為,系統性提升 “終身興趣建模” 的質量與可用長度。它在架構上與各類 “擴展 dense 參數、提升模型表達能力” 的工作基本正交:無論當前使用的是經典 DNN 還是基于 Transformer 的推薦大模型結構,都可以把 MUSE 視為一個可插拔的 “終身興趣建模模塊”,與之疊加使用,共同放大收益。
目前,MUSE 已在阿里媽媽展示廣告精排模型中全量上線,具備對10 萬長度用戶原始行為序列的建模能力(并可結合聚類等方法持續向百萬級擴展),基于多模態 embedding 統一表示并建模用戶行為,同時通過架構與工程協同優化不增加任何延遲。在線上 A/B 實驗中,MUSE 帶來了穩定、顯著的業務收益:CTR 提升 12.6%。同時,阿里媽媽也基于真實業務日志整理了首個 “長序列 + 多模態 embedding” 的大規模數據集 Taobao-MM,對外開放,用于支持業界和學界在「長序列 × 多模態」方向的進一步研究。
下面從 “工業落地視角” 拆解 MUSE,一步步展開。
![]()
一、問題背景:終身行為建模,卡在哪?
在大規模搜推廣業務中,關于終身行為建模的主流架構已經比較統一:以 SIM / TWIN 為代表的兩階段框架
- GSU(General Search Unit)在用戶超長行為序列中,先做一次 “粗檢索”—— 從最多 10? 級行為中挑出與當前目標 item 相關的 Top-K(例如 50 條);
- ESU(Exact Search Unit)再在這 K 條行為上做精細建模(DIN / Transformer 等各種 attention 結構),輸出 “終身興趣向量”,輸入 MLP 結構。
這樣的設計讓我們一方面可以利用超長行為,另一方面又不至于把在線模型的延遲與成本拉爆。
然而,業界兩階段模型(SIM、TWIN、UBR4CTR 等)的共性是:從頭到尾都圍繞 ID 展開。GSU 使用 ID embedding 做相似度檢索(比如基于類目、基于 ID embedding 近鄰、基于 attention score 等);ESU 中仍然只使用 ID embedding 做行為聚合(target attention /self-attention 等)。
對應地,又會暴露出兩類典型問題。
- 長尾 / 過期 item 泛化能力弱:這類 ID 出現次數少,embedding 學得不充分;GSU 檢索質量直接受限 —— 歷史中與目標 item 實際高度相關的點擊行為,因為 ID embedding 不 “像”,可能被排除在 Top-K 之外。
- ESU 語義表達力有限,只能依賴共現:模型更多是在學 “誰經常和誰一起被點”,對內容語義本身掌握不足;例如,用戶一直在逛 “黑色運動鞋”,一個新上的視覺相似的黑色休閑鞋廣告由于沒有歷史共現記錄,在純 ID 空間里很難被識別為 “強相關”。
為緩解上述問題,近兩年開始有工作嘗試把多模態信息引入終身行為建模。例如 MISS 在 GSU 階段引入圖文 embedding 用于檢索,但 ESU 階段仍然只使用 ID,不對多模態語義做融合建模。也就是說,檢索階段變 “聰明” 了一些,但建模階段仍然在老路上
二、核心洞察:GSU 要 “簡單”,ESU 要 “豐富 + 融合”
在 MUSE 之前,阿里媽媽做了大規模系統實驗,對多模態在 GSU 和 ESU 兩個階段的作用做了拆分分析,得到三個關鍵洞察,非常適合作為工業系統設計時的參考原則。
![]()
對 GSU:簡單的多模態 cosine 就夠了。在 GSU 中,他們系統對比了幾種檢索方式:只用 ID embedding 做檢索;用多模態 embedding(多種預訓練方式得到的多模態 embedding,包括 OpenCLIP / I2I / SCL);在多模態 embedding 上疊加 Attention 打分;ID 與多模態的各種 “加權融合” 檢索策略。結果非常直接:單純用高質量多模態 embedding 做余弦相似度檢索,就已經穩定優于 ID-only 的 GSU;再疊加復雜結構(Attention、ID-Multi 融合),要么效果提升有限甚至下降,要么算力和工程復雜度明顯增加,不具備性價比。結論是:在有高質量多模態 embedding 的前提下,GSU 只需要一個輕量的余弦檢索就足夠好。GSU 屬于在線性能最敏感的一環,在這層 “搞復雜”,往往收益極低甚至適得其反。
對 ESU:多模態序列建模 + ID 融合非常關鍵。在 ESU 端,重點做了兩方面增強:一是顯式建模多模態相似度序列,引入 SimTier,把 “目標 item 與每條歷史行為的多模態相似度序列” 壓縮為一個 “相似度直方圖”,作為語義興趣的一種 summary 表達;二是把多模態信號注入 ID-based attention,提出 SA-TA(Semantic-Aware Target Attention),在原有 ID-based target attention 打分的基礎上,將多模態 cosine 相似度及其與 ID 打分的交互項融合進去,作為最終的 attention score。在大規模廣告數據上的實驗結果顯示:單獨使用 SimTier 的多模態 ESU,相比只用 ID 的 Target Attention,GAUC 可以提升約 +0.7%;在此基礎上疊加 SA-TA,總體 GAUC 提升可達到約 +1.2%。這說明 ESU 和 GSU 的設計原則截然不同。
表征質量對 ESU 比 GSU 敏感得多。阿里媽媽對比了三類多模態預訓練方式:OpenCLIP(基于 2 億級圖文數據的對比學習)、I2I(基于 item 共現關系的對比學習,引入協同信號)、SCL(基于 “搜索 - 購買” 行為構造正樣本,兼具語義與行為相關性)。現象是:在 GSU 只替換 embedding 類型時,效果變化相對溫和;在 ESU 替換 embedding 時,差異明顯:SCL > I2I > OpenCLIP。結論是:ESU 對多模態 embedding 的質量極其敏感;GSU 更像 “粗粒度過濾器”,對表征精度的要求相對沒那么苛刻。
三、MUSE 框架詳解
基于上述分析,團隊落地了完整可部署的 MUSE 框架。整體可以拆成三步(下圖從左至右):
- 多模態表征如何預訓練:基于語義與行為的 SCL 對比學習;
- 多模態 GSU 如何做:輕量余弦檢索;
- 多模態增強 ESU 如何做:SimTier + SA-TA 雙路建模。
![]()
底層采用 SCL 多模態預訓練。以圖像模態為例,所有 item 的圖像 embedding 預訓練方式如下:輸入包括用戶搜索 query 對應的圖像和該 query 下最終購買的商品圖像;正樣本 pair 由 query 與購買商品構成;負樣本 pair 通過 MoCo memory bank 動態構造;損失函數為 InfoNCE 對比學習(形式類似 CLIP,但正負樣本來自真實用戶搜購行為)。得到的 embedding 具備兩方面能力:內容語義(圖像信息的語義對齊)和行為相關性(與真實 “搜索 - 購買” 行為對齊)。在 MUSE 中,這些多模態 embedding 在訓練 CTR 模型時為凍結參數(推理階段僅查表),便于保證線上性能的穩定性和工程可控性。
GSU 使用 SCL embedding 做簡單 cosine Top-K。其目標是從用戶 10?~10? 級的歷史行為中,選出最相關的幾十條行為作為 ESU 的輸入。具體步驟包括:通過查 embedding 表獲取目標 item 的 SCL embedding(v_a)和用戶所有歷史行為 item 的 SCL embedding(v_i);計算每條歷史行為與目標 item 的相似度 r_i = cos (v_a, v_i);按 r_i 排序,取 Top-K,形成 “輸入給精排模型的行為子序列”。整個過程沒有復雜 Attention,也沒有 ID–MultiModal 的交織檢索,本質是一個高效的內積排序。
ESU 采用 SimTier + SA-TA 雙管齊下。其核心由兩條并行路徑構成。路徑 A 是SimTier—— 顯式建模 “相似度分布”:給定 GSU 得到的相似度序列 R = [r_1, ..., r_K],
- 將相似度區間 [-1, 1] 等分為 N 個 bin(tier);
- 統計每個 bin 內落入的行為個數,得到一個 N 維 histogram:h_MM;
- h_MM 可以理解為:用戶歷史行為中,與當前廣告 “高相關 / 中相關 / 低相關” 的數量分布,即一個緊湊的 “語義興趣分布向量”。
相比直接在多模態 embedding 序列上堆復雜結構,這種方式計算開銷極小,并且在工業場景的實驗中,效果非常可觀。
路徑 B 是 SA-TA—— 在 ID attention 里注入多模態語義。這條路徑保留了 ID embedding 的優勢(協同過濾信號),在此基礎上做 “語義增強”。
- 標準 DIN Target Attention:用 target ID embedding 與行為 ID embedding 做打分,得到 α_ID;
- 同步拿到多模態相似度 R(沿用 GSU 的 r_i);
- 將兩者融合為最終打分:α_Fusion = γ??α_ID + γ??R + γ??(α_ID ⊙ R),其中 γ 為可學習標量,⊙ 為逐元素乘;
- 用 Softmax (α_Fusion) 作為權重,對行為 ID embedding 做加權和,得到 u_l^ID。
![]()
直觀理解是原本 ID-based attention 對長尾 item 的打分容易失真;加上多模態相似度 R,相當于在告訴 attention: “這條行為雖然 ID 很冷,但在語義上和當前廣告高度相似,可以給更高權重。”
最終用戶終身興趣表示由 SimTier 輸出的 h_MM 與 SA-TA 輸出的 u_l^ID 拼接而成,拼接后的向量作為 “終身興趣表示”,輸入上層 CTR MLP。至此,多模態在 ESU 中既有單獨一條序列建模路徑,又深入參與到 ID attention 的行為聚合過程。
四、工程落地:10 萬行為 + 多模態,還能延遲可控?
超長序列 + 多模態,直覺上看 “又長又貴”。MUSE 在線上通過一個非常偏工程的拆分設計實現延遲可控。
![]()
阿里媽媽展示廣告線上整體 pipeline 可粗略抽象為:Matching(從全庫召回約 103 個候選廣告)和 Ranking(CTR 模型對這些候選預估打分)。MUSE 被部署在 Ranking 階段,用于針對這些候選建模用戶的終身行為。
實踐發現,最大瓶頸并不在算力,而是在網絡通信:需要拉取用戶 100k 行為序列及其對應 embedding,網絡與存儲訪問會引入不容忽視的時延。為此,團隊的改造重點是把 GSU 從 Ranking 的關鍵路徑中剝離出來,做異步預取。
具體分為兩個階段:
- Pre-fetching 階段(與 Matching 并行)—— 用戶請求到達后,Matching 負責召回候選廣告,同時 GSU 服務開始從遠端存儲拉取用戶 100K 行為的多模態 embedding,這些 embedding 預先緩存到 GPU 顯存中,該步驟的時延整體被 Matching 階段遮蔽掉;
- 相似度計算 Top-K Selection 階段(Ranking 前的小環節)—— 當 Matching 完成時,GSU 一側的行為 embedding 已經就緒,此時只需對候選廣告與緩存的行為 embedding 做一次相似度計算即可,得到 Top-K 行為 ID 和相似度序列,交由 Ranking 服務的 ESU 使用,這部分計算量很小,可以與 Ranking 的特征處理并行完成,對整體時延影響極小。
在這樣的設計下,GSU 對端到端延遲幾乎是 “隱身” 的。新增成本主要在于存儲與網絡讀取負載(但被并行化掩蓋)以及 ESU 端增加的 MLP /attention/ SimTier 算力開銷(量級可控)。
線上對比實驗設置為:Baseline 是 SIM(兩階段 ID-only 架構,行為長度 5K),MUSE 是多模態 GSU + 多模態增強 ESU,行為長度擴展至 100K。 A/B 結果顯示:CTR +12.6%、RPM +5.1%、ROI +11.4%。同時,在離線實驗中也對行為長度做了消融(5K / 10K / 100K),觀察到:序列越長,MUSE 帶來的收益越大;多模態增強 ESU 在所有長度上都顯著優于 ID-only ESU,且長度越長,優勢越明顯。這基本佐證了一個直觀判斷:當你手里有幾十萬級別的用戶歷史行為日志,多模態 + 檢索式建模,確實能把這些 “沉睡日志” 轉化為有效的業務資產。
五、對業界的幾個直接啟發
如果你在做廣告 / 內容推薦 / 電商推薦,MUSE 這套實踐有幾個非常 “可復制” 的啟發點。
先別急著在 GSU 上玩花活:優先把 item 的圖文 embedding 學好(無論是自建 CLIP、SCL,還是其它多模態預訓練);在此基礎上,用多模態 cosine 取代 GSU 的 ID-only 檢索,往往是性價比最高的一步。Attention 檢索、復雜多塔融合等設計,在 GSU 這個階段不一定值得你花大量算力和工程復雜度。
把多模態引入 ESU,而不是只停留在 GSU:ESU 是真正決定 “特征如何被使用” 的地方,也是對 embedding 質量最敏感的環節;即便暫時無法重構整個 ESU,也可以分兩步推進:一是引入一個輕量的 “相似度直方圖” 類模塊(如 SimTier)來刻畫語義分布;二是在現有 DIN / TWIN 的 attention 中,引入多模態相似度作為輔助打分(類似 SA-TA)。這類改造對現有模型結構的侵入性不大,但從實驗看收益往往很可觀。
工程上,優先解決 “序列拉不進來” 的問題:多模態 + 超長序列的最大障礙往往不在算法,而在 I/O 和基礎設施。MUSE 提供了一個可直接借鑒的模板:把 GSU 抽成獨立服務,盡量與 Matching 異步并行;盡可能將 embedding 搬到就近緩存(如 GPU 顯存);在 Ranking 階段只保留輕量計算,保證路徑收斂。這類設計思路,本質上是從 “只在舊框架上雕花”,轉向圍繞 “可擴展架構 + 高投產比” 重新規劃整條推薦鏈路。
六、開源數據:首個 “超長行為 + 多模態 embedding” 公開數據集
這篇工作還給社區帶來了一個附加價值:首個同時具備 “長行為序列+高質量多模態 embedding” 的大規模公開數據集 Taobao-MM
其主要特點包括:
- 用戶行為序列最長 1K(開源版本),工業內部實驗支持高達 100K;
- 每個 item 提供 128 維 SCL 多模態 embedding(不包含原始圖文,規避版權風險);
- 數據規模約為 1 億樣本、近 900 萬用戶、3,500 萬級 item。
對學界研究者和工業界團隊來說,這是一個可以直接驗證 “多模態+長序列” 建模方案的基準數據集,有助于減少自建數據的成本。
七、小結:從 “只調 ID 模型” 到 “MUSE 多模態興趣引擎”
從 MUSE 和近期工業界的推薦系統演進可以看到一個共同趨勢:不再只在舊的 ID-only 框架上做局部微調,而是從軟硬件協同、架構層面,重新組織 “算力×特征×模型”。具體到 MUSE:
- 結構觀上,接受 “用戶行為本質上是一個超大規模序列數據庫”,先檢索再建模;
- 信號觀上,擺脫 ID-only 的限制,讓圖文 embedding 真正參與終身興趣建模;
- 工程觀上,把最重的 I/O 和計算挪到異步與緩存,把在線關鍵路徑做得足夠輕量。
如果你的業務場景具備以下特征:用戶累積了較長行為日志(>> 萬條)、每個 item 具備圖文等豐富內容特征、純 ID-only 模型的收益已經越來越難挖掘,那么可以考慮按這樣一個路線落地 “輕量版 MUSE”:先提高表征質量,評估現有圖文預訓練 embedding,或嘗試類似 SCL 的行為增強式預訓練;用多模態支撐 GSU,在現有兩階段結構中,優先用多模態 cosine 替代 GSU 的 ID 檢索;在 ESU 中融合多模態,在 DIN / TWIN 的 target attention 中,引入一條 “多模態相似度支路”,觀察 offline 指標變化。這基本就是一個 “輕量版 MUSE” 的起點,后續可以逐步演進到完整的雙路 ESU 與異步 GSU 架構,在控制延遲的前提下,打開新的效果增量空間。
阿里媽媽技術團隊已在多模態智能領域取得多項突破,此次發布的 MUSE,不僅僅是算法的進步,更是工程與算法深度協同的典范。它告訴我們,在追求模型 “大” 的同時,也要注重 “巧” 和 “效率”,才能真正讓技術在工業界發揮最大能量。
One More Thing
ICLR 2026 Workshop 等你來稿
還有個好消息!阿里媽媽聯合北京大學等組織和個人,將在ICLR 2026 舉辦 Workshop on AIMS(AI for Mechanism Design & Strategic Decision Making),目前征稿已開啟!
![]()
如果你正在探索人工智能與機制設計、決策智能的交叉前沿
無論是自動機制發現、多智能體博弈均衡、高維/自然語言場景下的機制建模,
還是 AI 系統的公平性、魯棒性,亦或是廣告、云市場等真實場景的落地應用 ——
那么,這場 ICLR 2026 Workshop 正是為你而設!
- 截稿日期:2026 年 1 月 30 日;
- 接受 Long Paper(≤9 頁)與 Short Paper(≤4 頁),支持雙重投稿(可與 ICML/KDD 等會議多投),錄用不存檔;
- 由 Tuomas Sandholm(CMU)、Song Zuo(谷歌)、Vijay V. Vazirani (UCI)、Niklas Karlsson (亞馬遜)、鄭臻哲 (上海交大) 等頂尖學者組成講者與審稿陣容;
- 投稿地址:https://openreview.net/group?id=ICLR.cc/2026/Workshop/AIMS
此外,我們還設有 Best Paper 獎、Best Poster 獎,優秀作者還有機會獲得阿里巴巴等企業的研究實習推薦!
這不僅是一場研討會,更是連接人工智能、經濟學與運籌學的橋梁。
更多詳情,可戳 Workshop 官方網站:
https://alimama-tech.github.io/aims-2026/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.