網易首頁 > 網易號 > 正文申請入駐

Scaling Law 仍然成立，企業搜廣推怎么做才能少踩“坑”？

2025-12-06 10:18:58　來源: InfoQ

北京舉報

分享至

作者 | AICon 全球人工智能開發與應用大會

策劃 | 羅燕珊

編輯 | 宇琪

當大模型從通用技術探索深入產業場景，搜索、廣告與推薦系統作為連接用戶需求與業務價值的核心鏈路，正迎來全鏈路智能重構。那么，生成式推薦真正落地后的關鍵挑戰是什么？又應該如何解決？

近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了京東內容推薦架構負責人顏林擔任主持人，和榮耀 AI 算法專家馮曉東、京東算法總監張澤華、中科大計算機學院副教授王皓一起，在AICon全球人工智能開發與應用大會2025 北京站即將召開之際，共同探討生成式推薦的落地洞察。

部分精彩觀點如下：

行業真正做到端到端的統一 pipeline 仍有較大差距，更多工作還是在 pipeline 的單點與大模型結合。
搜廣推場景中的 scaling law 依然成立，并且仍在快速上升階段。
低價值場景用小模型覆蓋，高價值場景用大模型爭取額外收益。
不應拘泥于某項技術是否是主流，也不必期待每次都帶來爆發式收益，所有革命性進展都是逐步積累而成的。

完整直播回放可查看：

https://www.infoq.cn/video/0ViWrdqyQwNvO7TdQpyD

以下內容基于直播速記整理，經 InfoQ 刪減。

1 大模型改變了搜廣推了什么？

顏林：在各位負責的業務里，如果只用一句話概括：大模型真正改變的是搜廣推系統的哪一塊？能否結合一個典型場景簡單對比一下以前和現在的做法？

馮曉東：目前變化最大的環節在于特征工程，因為我們現階段的線上模型尚未完全接入生成式模型，而是主要利用大語言模型，為特征構建提供更豐富的補充。

以廣告業務為例，我們擁有大量廣告素材，需要從中提取合適的特征。過去一年我們嘗試了多種多模態大模型，用于生成標簽化特征，甚至獲取向量化的語義特征。特征挖掘一直是搜廣推領域的痛點，同時也是提升效果的關鍵。大模型在大量開源語料上完成預訓練，具備推理能力，不僅能基于用戶歷史行為挖掘特征，也能補充具有推理性質的增量知識。

因此，我們在用戶側嘗試了多項探索，將傳統依賴歷史統計、序列、交叉等方式構建的特征統一規劃為長序列特征，再結合大語言模型或生成式推薦的序列建模能力，離線提取用戶偏好或向量化表示。通過這種方式，我們預計能在很大程度上解決特征工程中的瓶頸，同時減少線上模型對統計類、交叉類特征的依賴，從而提升推理效率。

王皓：從學術界的角度來說，過去一年，我們持續關注如何讓模型規模擴大并具備可擴展性（scaling）。我們發現，模型能否真正實現 scaling，很大程度取決于數據的質量、配比以及整體準備情況。在不同任務下，只要數據質量與結構設置得當，模型做大做深后往往都能呈現出良好的 scaling 能力。

但從高校環境來看，算力受限，使得許多工程化方案較難落地。因此，學界近年來更加關注如何在有限算力下讓模型訓練得更長、序列更長、行為信息更豐富，或者探索更輕量化的 attention 機制，以提升長序列計算效率。同時，推薦系統是否能夠在推理層面具備更強的 reasoning 能力，也是正在探索的方向。當前大部分研究仍基于傳統的 HSTU 路線，但未來是否繼續沿用或需要回到既有路徑，學界也在不斷討論。

張澤華：大模型剛出現時大家非常興奮，但過去一年這種熱情有所回落，核心原因在于：大模型看似“fancy”，但要讓這件“fancy”的事情持續發揮價值，需要大量基礎性的“dirty work”。例如，如何清洗數據、如何構建高質量的思維鏈樣本、如何在多模態場景中實現語義對齊等。這些工作占去了我們大量時間和精力，一旦處理不夠扎實，大模型在搜廣推場景中的實際收益就會受到明顯限制，算力堆得再多也難以發揮其真正潛力。

因此，我們過去一年最大的體會之一，是從傳統特征工程轉向更系統化的數據與樣本構建方式。這不僅需要新的方法，也需要投入大量人力物力，建立有效的數據組織體系，才能真正讓樣本構建落地。

2 系統與模型怎么成長？

顏林：在架構演進上，大家所在團隊更偏向于在現有 pipeline 上逐步疊加大模型，還是會針對某些環節重新設計新鏈路？這中間有沒有經歷過比較激烈的取舍或爭論？

馮曉東：在實際落地中，全面重構 pipeline 的成本極高，帶來的收益也難以量化，特別是在低價值場景中更是如此。因此，盡管我們會持續討論生成式架構的未來形態，但在真實實驗中，仍是圍繞 pipeline 的某些環節逐步探索。例如在特征工程中，我們優先思考如何與大模型結合、如何疊加其能力。第一階段是讓大模型先進行補充；第二階段再嘗試用大模型替代某些環節；再往后，我們考慮在現有的召回、粗排、精排、重排鏈路中，先替代召回，再進一步替代召回與重排等模塊。這會是一個逐步迭代的過程，但我們依然相信從長期看，顛覆式 pipeline 有機會最終落地。

張澤華：最初我們對大模型非常樂觀，期望能“一步到位”，由模型直接端到端輸出推薦或搜索結果。以電商搜索為例，我們希望大模型能同時理解用戶 query、上下文信息以及隱性偏好，從而一次性完成檢索。但實際結果發現，這種端到端方式在多數場景中不僅無收益，甚至出現負向效果，因此我們開始系統性拆解問題。過去一年中，我和團隊幾乎把召回、粗排、精排、創意機制、計費、出價等所有環節逐一拆開，并在每個環節單獨驗證收益。

最終驗證發現，大模型能力主要體現在兩個方面：第一是強語義理解，第二是一定程度的推理能力。它們適合的場景，一是傳統算法語義理解較弱的部分；二是具有較長邏輯鏈路的任務。比如曝光后立即點擊，這類毫秒級反饋鏈路較短，大模型難以發揮優勢；但在電商中，從興趣形成到決策、下單甚至收貨后的行為，這是一條極長鏈路，在這類任務中，大模型往往能取得明顯收益。

因此，我們內部很多爭論都圍繞取舍展開。第一，大模型規模變大，會大幅增加實時推理成本和算力開銷，而效果提升卻未必成比例。傳統模型幾分鐘或數小時即可上線驗證，但大模型訓練和驗證可能需要周級甚至月級周期，這就引發了效率與收益之間的矛盾。

第二，大模型需要大量標準化、高質量的新樣本，而傳統場景中這類數據往往缺失，需要投入巨大的人力物力重新構造。一旦標注不足或質量不穩，大模型不僅無收益，還可能產生負向效果；但標注足夠多時，成本又極高。工業界必須考慮投入產出比（ROI），而我們也觀察到大模型不僅在參數規模上存在 scaling law，在精煉樣本的數量和質量上也呈現 scaling 曲線。

王皓：近期大家雖然都在構建完整的大模型 pipeline，但深入分析后可以看到，真正被大規模使用的大模型能力通常集中在個別環節。例如做特征交互、生成更豐富的特征；或將大模型融入召回模塊，以增強召回效果。行業真正做到端到端的統一 pipeline 仍有較大差距，更多工作還是在 pipeline 的單點與大模型結合。學界也是類似的趨勢，主要在各個模塊上做針對性創新，而不是已經完全實現一體化的推薦鏈路。目前學界與業界都更接近于“多點突破”，而非“全鏈路重構”。

顏林：在推薦 / 廣告場景下，如何看待 scaling law？

馮曉東：推薦領域的模型同樣具備 scaling law，而且我認為其邊際效益遠未觸及上限，尚未像大語言模型那樣出現明顯的邊際遞減。

原因主要涉及兩個方面：數據與線上推理能力。首先，搜廣推依賴的是用戶行為數據，與語言模型相比，我們的樣本量更大、序列 token 更長。當前模型普遍覆蓋億級用戶，單個用戶的行為序列長度動輒上千甚至上萬。在如此規模下，若想完全挖掘行為模式，模型需要具備極高復雜度，甚至可能比語言模型更復雜。因此，我們必須在模型復雜度與線上推理能力之間尋找平衡。由于線上資源受限，我們實際上并未釋放模型的全部潛能。其次，盡管 scaling law 的趨勢明確，但要讓模型能力真正最大化，目前主要仍依賴在線下進一步擴大規模。如何把線下能力有效遷移到線上，是后續需要重點解決的問題。

王皓：第一個問題是：推薦領域的 scaling law 應該如何定義？它是否等同于語言模型中的 scaling law？我們最近做了一個推薦 Scaling Law 方向的工作，過程中發現不同數據集、不同任務擬合得到的 scaling 曲線差異很大，并不存在像語言模型那樣一個統一的公式，尤其是在推薦領域中，performance 更依賴 loss，而我們觀察到的 scaling 規律也主要體現在 loss 層面。

基于此，我們提出了 P-law（performance law）的定義形式：在不同推薦數據集上，將 item ID 詞表歸一為相同規模，將數據質量約束統一為一致指標后，我們發現不論是在傳統模型還是 LLama、SOTA 模型上，都能擬合出較為統一的 scaling 規律。說明推薦領域是可以研究通用 scaling law 的，而非完全碎片化。

第二個問題是：既然 scaling law 可以擬合，我們是否已經接近它的上限？推薦模型到底需要多大規模？當前的模型與數據是否足以支撐繼續擴大？我的看法是：推薦模型規模普遍還不夠大，還遠未到達 scaling law 的極限。而且推薦未來到底走哪條技術路線，是繼續沿著 sequence-to-sequence（S2S），還是朝 unified LLM 發展，目前也沒有共識。

張澤華：在推薦與廣告場景中，我們距離 scaling law 的天花板還非常遙遠。首先，以典型搜廣推場景為例，如果假設使用一個真正端到端的模型，在 300 毫秒的推理預算內完成所有計算，要同時理解用戶特征、興趣序列和候選 item，經過反算后，我們推測模型參數量至少需要十幾個 billion 才能支撐。然而，即使如此，工程、算力和網絡通信必須全部壓到極限，300 毫秒已經接近行業上限。

第二個例子來自我們對模型推理的可視化研究。以 7B 規模模型為例，我們逐步分析其每一層的中間狀態后發現，不少區域的參數幾乎不影響最終結果。這意味著小模型能力不足的原因并非單純參數量少，而是有效參數比例低。

第三，當我們采用 MoE 結構處理如 query–SKU 這種典型任務時，隨著模型參數規模擴大，尤其是有效參數占比提升時，性能呈現明確的 scaling 趨勢。這證明在推薦領域，有效參數規模比總參數規模更關鍵。

此外，我們目前的許多模型，無論傳統模型還是 MoE，都做了大量裁剪和折中，有效計算量和可分辨度受到限制。因此，僅僅從 8B 換到 10B 不能保證提升，關鍵是有效參與推理的部分是否真正擴大。一旦擴大，效果提升趨勢非常明顯。

接下來分享幾個我們在放寬約束后的實驗發現。第一，如果暫時不考慮 300 毫秒的實時限制，而允許 3 秒甚至 30 秒推理，我們即可使用更大規模的模型。在不做結構裁剪的前提下，模型參與推理的有效參數大幅增加。在線下評測中，當規模擴大到 200B–300B 時，其效果明顯優于 8B–10B。

第二，當我們放寬 input 的限制，把用戶 query、歷史行為以及商品豐富的描述全部作為輸入時，模型效果進一步提升。此時的 prompt 已非常復雜，但 scaling 趨勢依然明顯，只是斜率不如前幾項那么陡。

綜合以上，我認為搜廣推場景中的 scaling law 依然成立，并且仍在快速上升階段。關鍵問題是如何讓 scaling 趨勢不僅體現在論文和離線評測中，而是真正轉化為線上收益。如何在推理耗時、工程成本與規模擴展之間找到平衡，將是未來最重要的研究方向。

顏林：通常是如何平衡模型規模、收益和算力 / 時延成本的？在哪些場景里會更傾向于“小而精”的模型？

馮曉東：大模型上線時勢必面臨性能瓶頸，而要突破這些瓶頸往往需要投入大量人力物力進行優化，并配備更多或更高規格的 GPU。因此在實際過程中，我們首先的目標自然是盡可能降低成本。在這一點上，我們主要做了兩類探索。第一類是模型蒸餾，無論是大語言模型還是生成式序列模型，我們都嘗試用大模型去蒸餾小模型，或以對比學習等方式讓教師網絡幫助線上小模型學習，從而在保持線下效果的前提下降低線上推理成本。

第二類方法是分層剪枝，也可以理解為壓縮。例如某些模型可能有十幾層，我們會先嘗試只保留一兩層，觀察其在序列任務中是否仍有收益，并據此裁剪后上線。另一種類似做法借鑒了 DeepSeek 的 MoE 機制，將大專家拆分成多個小專家并加入路由機制，以減少推理時的激活參數量，提升線上性能。

理想情況當然是所有場景都能用小而精的模型取得良好效果，但當前小模型仍有明顯天花板。因此我們會優先在低價值場景中使用小模型甚至通用小模型；在高價值場景中，如果 ROI 能覆蓋成本，我們才會嘗試規模更大的模型。整體策略仍是：低價值場景用小模型覆蓋，高價值場景用大模型爭取額外收益。

王皓：從學術角度看，我們還觀察到一個現象：在推薦的長鏈路中，不同階段所需的模型規模其實不同。例如從召回到粗排再到精排，每一階段對模型大小的需求并不一致，這意味著模型規模并非越大越好，而是可以在不同階段進行區分設計。

第二個觀察是，很多人希望用 2B 規模模型達到 8B 或 10B 的表現。除了蒸餾，我們也嘗試從另一個方向切入：既然許多場景的高質量數據尚未觸頂，我們能否通過生成更多高質量數據，訓練出性能更好的小模型？我們并不是直接做蒸餾，而是利用大模型生成更純凈、更高質量的訓練數據，讓小模型在數據端突破瓶頸。按照我們提出的 P-Law 規律，小模型仍有很大提升空間。如果目標模型處于 2B–3B 區間，我們會用更大模型持續生成數據，讓小模型逐步逼近這一能力上限。

張澤華：模型只要能在特定場景中達到目標效果，它就是合格的模型。剩下的都是 ROI 的問題，包括算力、人力與數據成本。因此關鍵是資源的最優分配，而非一味追求更大規模。

推薦領域存在三類“類 scaling law”趨勢。基于此，如果我們手里只有一個 2B 的模型，如何讓它的能力最大化？無非幾條路徑：第一，提高有效參與推理的參數比例；第二，給予模型更高質量、更純凈的訓練樣本；第三，即便模型小，也可以在輸入、輸出的設計上擴大規模，讓其“物盡其用”。

此外，在企業環境中還有一個現實因素：老板是否認可 ROI。例如一個 671B 的模型，可能需要 16 卡或 32 卡主流 GPU 才能跑起來，并且要支撐每秒上萬次請求，還得在幾秒內完成完整推理，這帶來的成本是指數級增長的。與此同時，推理延遲無法通過無限堆卡來無限降低，因此必須在算力投入與延遲之間找到最優的平衡區間。

低價值場景自然更適合小模型，即便只達到大模型 40% 的能力也完全足夠。而在核心高價值場景，例如開屏、信息流、搜索核心位，即便大模型只能帶來小幅提升，大家仍愿意投入資源去擴模型規模以爭取額外收益。

顏林：當大模型真正上線到生產系統之后，大家遇到過的主要工程挑戰是什么（時延、吞吐、資源成本、穩定性等）？從這些經歷中總結下來，有哪些坑是可以提醒下同行的？

馮曉東：搜廣推領域的模型高度依賴用戶的近期或實時數據，因此模型必須能夠快速迭代。傳統推薦模型已經能夠實現分鐘級或小時級更新，但我們當前采用的大模型，其訓練和推理都在線下進行，要同步更新就非常困難。核心問題在于，如何讓實時或進線產生的大量用戶行為能夠及時輸入模型，并支撐模型快速迭代更新。

我們嘗試的優化方向包括：其一，設計更高效的數據流 pipeline，確保生成式推薦模型在訓練時能迅速獲取樣本及必要的序列特征，并以合適方式輸入模型。其二是模型的更新方式。對于增量更新，我們需要判斷究竟是進行全量全參更新，還是只更新部分參數。因此我們做了許多實驗，例如僅更新最后幾層、僅更新關鍵任務的幾個塔、或只更新共享網絡等。我們也嘗試過全參更新，但會遇到上一批生產數據尚未訓練完、下一批數據又已到來的情況。為平衡訓練成本和更新效率，我們最終更多采用“凍結部分參數”的方式，以取得更穩定的更新效果。

王皓：最大的困難之一是在線與離線結果長期無法對齊，離線實驗表現良好，但上線后的結果常常差異很大。另一個問題是，當我們嘗試上線一個更大規模或新版的模型時，會發現線上已有一個相對老舊但長期訓練的模型。雖然該模型結構簡單、規模較小，但因長期基于歷史數據持續更新，它對一年甚至更長周期的數據都有充分學習。而新模型往往只基于最近幾個月的數據訓練，盡管離線驗證中性能更優，但在真實線上場景中卻很難打敗長期訓練的舊模型。

因此，即便驗證通過，新模型依舊難以上線。我們面臨的問題是：如何讓更新后的新模型既利用近期數據，又能有效繼承長期數據，從而真正超過線上模型？隨著版本增多，需要重新訓練的歷史數據越來越多，訓練與驗證成本也隨之大幅上升。

張澤華：王皓老師提到的“離在線對不齊”，是在模型穩定運行之后仍然存在的問題。而在模型能夠穩定運行之前，其實還有更多“坑”。大模型時代算法迭代非常快，新模型的發布節奏往往以周甚至小時計，這帶來巨大的適配成本。很多算法工程師希望下載一個開源模型就能直接跑在業務場景上，但業務數據有自身結構，訓練平臺與資源組織方式也不同，因此實際適配難度遠比預期高。

適配完成后，大家又希望盡快做在線 AB 實驗。但離線能跑通并不意味著能滿足線上 serving 的資源和時延要求，尤其是在工業環境中，這個 gap 通常非常大。國內雖然有組織會做 0-day 的在線適配，但一旦你在模型結構中做了任何微調，線上 serving 圖通常需要大規模重寫，迭代成本非常高。

此外，不同版本模型常常使用不同的 tokenizer，但許多工程師在上線前并不會特別關注 tokenizer 的變更，而是更關注參數量是否更新。一旦 tokenizer 未對齊，模型效果就會出現不可預測的問題。

另一個難點在于，工業場景下用戶行為的分布本身就是算法系統長期影響的結果。例如，在某些 App 中，歷史模型已篩選出一批習慣“搜→看→點→買”的高效率用戶。如果你的新模型更適合“慢節奏、喜歡比較”的用戶，即使模型本身更好，在現有交互環境下也可能表現不佳。因此，模型上線后往往需要通過大量隨機流量，經歷一個漫長的“探索—利用”期，才能評估其真實表現。

很多情況下，新模型上線表現不佳并非模型本身的問題，而是實驗環境不夠友好。為解決這一點，我們開發了一套工具，包括多智能體強化學習模擬器，能夠基于上下文和系統行為構造沙箱環境，讓基線模型和新模型先在模擬環境中對比，從而獲得相對客觀的評價。現實環境中無法獲得某個用戶在兩種模型下的“反事實”表現，而模擬器可以一定程度上彌補這一缺失。此外，我們會不斷將線上樣本回放到離線或進線的模擬器中，支持大規模持續強化學習。在大模型場景下，無論全參還是局部參數更新，其校驗機制都必須更加嚴謹。

3 從推薦到廣告：生成式、智能體與知識工程

顏林：目前生成式能力在各位所負責業務中的主要定位是什么？更多是做創意 / 文案 / 特征輔助，還是已經開始承擔候選生成、策略規劃等更核心的工作？以及，個人最期待、但覺得還需要一段時間才能成熟的應用方向是什么？

馮曉東：目前生成式技術在我們業務中集中在多模態內容的理解與生成，例如營銷與廣告素材的自動生成。在算法落地方面，我們也在探索生成式推薦的可能性。由于生成式模型具備一定推理能力，我們會基于用戶歷史的離線數據，先進行推理特征的生成，相當于在用戶已有知識體系上補充增量知識。

我們內部也持續討論一個重要問題：生成式推薦是否能夠完全替代線上推薦系統的能力。大家的愿景是一致的，即希望逐步朝這個方向演進。若生成式推薦能承擔全流程線上推斷，首先能顯著簡化線上工程體系，從而進一步節省成本；其次，它在大規模在線推斷中可能帶來顯著的業務效果提升。

王皓：沿著生成式推薦的發展趨勢來看，它正逐漸呈現系統工程化的特征，即構建完整的推薦 pipeline，將各環節流程化，并在統一范式下解決多個任務。因此，學界的研究重點也逐步轉向如何優化 pipeline 各細節、打通不同模塊的銜接，而在此框架內做顛覆式創新的空間似乎相對有限。

張澤華：從工業界的視角來看，大家的目標都是盡可能發揮大模型的作用。創意文案類任務已經大規模應用，尤其是圖像、視頻等多模態內容的生成，在擴散模型階段就已展示出巨大潛力，如今在 AIGC 的演進中仍然保持高速發展。語言類模型出現后，文案生成進一步普及。我最近參加行業交流時發現，無論是營銷、電商還是微商領域，很多團隊已經非常熟練地使用大模型智能體進行視頻制作、文案生成及創意加工。

在零售等企業內部，這類能力也逐漸滲透到更多場景中。例如本次直播過程中，自動翻譯、自動文案總結、會議紀要生成、要點抽取等能力，都是基于大模型的自然延伸。在更核心的業務任務中，例如 item 篩選、廣告投放策略規劃等，許多團隊也在嘗試使用大模型提升效率。特別是在面向“小 B 端”，即沒有專門研發團隊的商家群體，自動化工具尤為受歡迎。無論是生成營銷文案、整合外部數據還是自動挑選關鍵評論，這類功能都已非常普遍。

我個人認為接下來值得期待的方向，是出現真正具有高度靈活性的智能體。當前的大部分智能體仍基于人工定義的 workflow，由人預設步驟與業務邏輯，本質上屬于流水線式執行。而未來更具價值的智能體，應具備自主規劃與自主研究能力，能夠在更少人工干預的情況下完成復雜任務。

顏林：從智能體、知識工程、系統架構、行業標準等不同角度出發，你會如何描述：大模型時代，一個“成熟的”搜廣推系統應該長成什么樣的生態？這對團隊分工和角色有什么影響？

馮曉東：我認為未來特征工程可能會逐漸弱化甚至消失，并被知識工程取代。也就是說，模型學習可能直接基于用戶的原始行為語料來構建，不再依賴大量人工設計的特征，而是需要通過增量知識進行補充。這類增量知識，例如基于大模型能力構建的知識庫，可以為推薦系統帶來新的優勢。以冷啟動為例，有了更多開源或預訓練的知識，知識工程能夠彌補冷啟動過程中的信息不足。

此外，隨著模型直接使用大量用戶行為序列和原始特征，我們還需要引入上下文信息、item 畫像或用戶基礎畫像等內容，這些都可以通過知識工程進行系統性豐富。

再說系統架構的變化，未來智能體可能在搜廣推中扮演更重要的角色。目前各家公司在智能體編排方面已有大量實踐，我們也在思考是否可以將特征工程或模型訓練流程以智能體編排的方式推進。換句話說，未來搜廣推的算法工程師可能會逐漸演變為“跑模工程師”。

王皓：從學術角度來看，有兩個根本性問題需要明確。第一個問題是搜廣推的基礎模型究竟應該是什么？它應該基于怎樣的機制來實現決策？只有想清楚基礎的決策模型，我們才有可能進一步討論智能體、自動編排等能力。如果不解決“如何將 ID 這樣的離散表示融入模型”這一核心問題，我們很難真正往下推進。

第二個問題是：如果我們希望讓整個系統最終變成 workflow 或 problem-based 的形式，并通過智能體來完成任務，那就必須首先把這個任務形式化定義出來。我們需要明確任務的邊界、結構與規則，使模型能夠理解并解決它。怎么定義任務、怎么表達問題本身，是比解決模型細節更難的環節。

張澤華：在不同業務場景下，問題的定義確實差異很大。例如傳統推薦的召回與粗排，本質上就是信息檢索：粗排是對子集的篩選，召回策略寬松或嚴格都能接受；而精排與重排階段，則需要大量 ID 之外的輔助信息。

輔助信息大致有幾類：第一，item 與 item 之間的關系；第二，用戶在前一次結果與當前展示之間是否產生興趣變化；第三，一些人為定義的重排指標，如多樣性、新穎性；第四，則是多模態信息。例如推薦一件商品時，不僅是商品本身，還有價格變化、優惠信息、圖片質量等因素都會帶來影響。比如圖片美觀度、上下文差異甚至一些“反常圖片”帶來的好奇心，都會顯著提升點擊率。

在基礎模型的測試上，我們發現對于傳統信息檢索類任務，目前的大語言模型（尤其是稠密結構）表現相對適用，引入 MoE 也沒有太大問題。但對于典型的曝光→點擊→轉化這樣的單鏈路任務，HSTU 類模型，需要結合用戶與當前上下文交互，再疊加大量背景信息，會更適合具體業務場景。

觀眾：離線和在線不對齊，新模型打不過舊模型，這樣的問題該如何處理？

張澤華：新舊模型對不齊大致有兩個層面的原因。第一，在傳統模型中，在線模型在 online learning 的過程中會不斷累積數據，而離線模型只能在特定時間點獲取有限數據，因此離線效果即使優于在線，但由于在線模型長期積累，實際仍可能更強，這就導致新模型難以在短期內打過舊模型。

第二個層面是離線評測與線上環境之間存在失真，這在工業界非常常見。在大模型中，這類失真甚至會被放大，原因主要有兩點。第一，傳統 CTR 類模型本質上是“小稠密 + 大 embedding table”，大量依賴稀疏 ID 特征，而真正可學習的稠密參數很有限，因此模型具有更多不可變結構，導致線上失真程度較低。第二，大模型的參數量巨大，離線推理與在線推理的路由機制可能存在差異，導致誤差被進一步放大。

對于傳統 online learning 無法打平的問題，如果離線訓練無法提供足夠數據，就要判斷取舍。若離線模型雖然離線評估更好，但潛力不足，而在線實驗表現不如舊模型，那繼續維護舊模型是更合理的；但如果離線模型雖然短期略差，但擴大參數或數據后會有更陡峭的 scaling 曲線，那么可以接受短期損失，將新模型推上線上，保證團隊整體迭代節奏順暢。

第二類結構性誤差問題沒有絕對解法。若誤差特別大，要回到訓練與評測環節排查；若誤差在可接受范圍內，則應直接通過 AB 實驗檢驗其是否能隨著時間逐步收斂。

王皓：在推薦領域，HSTU 這套范式是否可能成為未來的推薦基礎大模型？我們未來應該走向“RL for reward”的方向，將推薦轉化為反語言模型式的決策任務，還是繼續沿用 HSTU，讓其成為長期的反推選模型結構？

馮曉東：之所以包括我們在內的許多團隊都選擇 HSTU，是因為它本質上仍是 Transformer 風格的結構，但對長序列用戶行為的處理具有獨特優勢。因此可以明確的是：序列模型是推薦領域的關鍵方向。

目前 HSTU 作為一種生成式序列模型，為我們提供了不錯的 base model。盡管推薦系統和大語言模型都尚未跳出 Transformer 結構，但過去推薦系統的發展確實大量借鑒了 NLP 與 CV 的網絡結構，例如 CNN 在推薦中的應用。因此我始終期待未來推薦系統能夠結合自身數據特征與業務特征，發展出新的、更貼合長序列特點的模型結構。

顏林：在過去這一兩年大模型和搜廣推的實踐里，有哪一件事情是讓你改變過自己原本的判斷的？比如：曾經覺得不重要但現在很重要，或者相反？

馮曉東：我們一直關注一個問題：大模型是否會在推薦領域產生顛覆性的影響。我最初的判斷是，基于語言 Token 的建模方式并不完全適用于推薦場景。因為用戶行為序列在轉換成 Token 后，其上下文之間往往不具備類似自然語言那種強邏輯性的結構，因此傳統語言模型并不能直接替代推薦模型來生成推薦結果。直到 Meta 提出 HSTU，我才意識到序列模型在推薦場景的潛力被進一步釋放。HSTU 以 Transformer 為基礎，但對用戶長行為序列的處理方式更契合推薦系統的需求，也為我們提供了全新的方向啟發。序列建模會是推薦領域的核心方向，大語言模型在網絡結構設計和整體建模思想上確實為我們提供了重要參考。

王皓：推薦系統實際上一直在沿著大語言模型的路線演進，只是過程中會遇到如何處理 ID、擴大詞表、推理時延等工程與結構問題。從長期趨勢看，推薦系統仍需與基礎語言模型深度結合。只有在此基礎上，我們才能構建面向不同業態和公司場景的通用大模型。

另一個關鍵挑戰在于數據。模型性能的上限取決于高質量數據的數量，而未來的重要研究點仍會集中于如何構建更多高質量數據、如何擴大模型規模以及如何進一步提升性能。

張澤華：行業共識是“有多少人工，就有多少智能”。過去一年，業界在結構、優化器、attention 等方面不斷創新，但真正落到工業場景，數據是決定性因素，沒有高質量數據，所有結構創新都無法發揮。通用大模型在垂直領域的效果往往很差，因此我們必須沉淀專業化的知識工程。我們內部將其總結為六大類知識體系，并在推薦、廣告、搜索等場景中帶來了顯著提升，很多改進都達到兩位數甚至更高收益。

回到“推薦系統到底在解決什么用戶問題”。以電商為例，用戶可能帶著明確意圖進入 App，例如搜索特定型號，這時系統只需快速給出直接結果。但在用戶漫無目的瀏覽時，他們有更高耐心接收不同品類的內容；而當進入“貨比三家”的深度對比階段，用戶會進行反復思考，此時推薦系統的任務不再是傳統召回與排序，而是利用模型的推理能力來輔助決策。

例如比較手機規格、容量或屏幕優劣，本質是一種反復權衡的 reasoning 過程。傳統算法可以部分支持，但新一代大模型的推理能力能夠提供新的解決手段。因此我們在探索新的推薦路徑，例如在不同意圖狀態下的搜推策略：用戶隨意瀏覽、明確搜索、深度對比、爭取優惠等。

顏林：如果讓你給現在在一線做推薦 / 廣告算法的同學一句建議，結合大模型的浪潮，你會建議什么？

馮曉東：最初探索大模型與推薦系統結合時，我們也并不確定最終形態。傳統推薦模型本身也是從不同方向借鑒、引入并不斷改進的。因此在真正落地時，我們首先思考的問題是：未來如果走向生成式推薦，那么我們在現階段應該如何切入？我們的做法是先把業務鏈路完整拆解，無論是廣告還是傳統推薦，逐段分析每個環節的核心目標，并判斷哪些環節最適合與大模型結合。

找到切入點后，不必過度關注模型上線后究竟能提升多少效果。我們更看重的是是否真正解決了某個問題，只要能在效果、運營成本或推理成本中帶來任何方面的優化，都值得嘗試。不應拘泥于某項技術是否是主流，也不必期待每次都帶來爆發式收益，所有革命性進展都是逐步積累而成的。在未來回望時，可能某一次迭代便成為真正的突破。

王皓：一個真正的基礎模型應該能解決多類任務，并能在不同公司間遷移、共享和復用，這是生態價值的核心。另一個重要思考是，我們的系統是完整鏈路，而不僅是單點技術。模型或系統需要形成“產品力”，需要讓別人看到其獨特性和不可替代性。盡管理論上的鏈路類似，但我們必須思考自身的壁壘和差異化：我們的場景優勢是什么？哪些能力是別人無法輕易獲得的？這將決定最終的競爭力。

張澤華：在過去幾年，大模型演進的趨勢始終指向更綜合的方向。從早期簡單的 CV 模型，到 NLP 時代的 BERT，再到如今的 Transformer 大模型，以及行業內大量嘗試的多模態融合模型，如 ViT、DiT 等等。無論是搜索、推薦，還是傳統算法升級，本質要解決的業務問題并不會消失，它們只會轉移。比如先解決某一模態的問題，另一模態仍需要處理；先解決檢索問題，排序問題仍然存在。只是方法和路徑不同，本質問題依舊。因此我對大家最大建議是，不要給自己設定過強的邊界或挑揀式學習，所有核心問題最終都必須被解決，而且需要被解決得足夠好。

AI 重塑組織的浪潮已至，Agentic 企業時代正式開啟！當 AI 不再是單純的輔助工具，而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。

把握行業變革關鍵節點，12 月 19 日 - 20 日，AICon 全球人工智能開發與應用大會（北京站）即將重磅啟幕！本屆大會精準錨定行業前沿，聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新，邀您共同深入探討：如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統，讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.