網易首頁 > 網易號 > 正文申請入駐

對話淘寶姜宇寧：如果你只推低價商品，是不需要用大語言模型的

2025-09-25 18:03:51　來源: AI科技評論

廣東舉報

分享至

第一個用大語言模型能力，來“系統化改造推薦系統”的團隊。

作者丨郭海惟

編輯丨陳彩嫻

在 GPT3.5 橫空出世以前，“推薦”可能是互聯網歷史上最深刻的技術。

如果沒有推薦，人便失去了與浩如煙海的互聯網信息溝通的渠道。而正是推薦技術編制了一張龐大的網，將人、內容、商品和貨幣串聯在一起，才有了你所能見到的鮮活線上世界與咋舌的經濟奇跡。

如姜宇寧對 AI 科技評論所說，“過去的十年是推薦系統主導流量的十年。”

作為淘寶推薦算法一號位、阿里巴巴中國電商事業群的杰出算法專家，姜宇寧帶領他的團隊掌舵著這個全球領先電商平臺的推薦算法系統，每年有數千億元的交易額由他的算法團隊撮合，他們的每一個動作背后都關系了上百萬的商家與數百億的成交單數。

7月初，淘寶推薦算法技術團隊上線了一個名為 RecGPT 的百億參數推薦大模型，對“猜你喜歡”功能實現了生成式推薦（ AIGR ）技術升級。用姜宇寧的話說，他們是第一個用大語言模型能力，來“系統化改造推薦算法”的團隊。

某種程度上來說，RecGPT 大概是一個發布后便被外界低估的模型。相比于各家廠商都在刷榜 benchmark 的基座通用大模型，RecGPT 專注于對推薦這個具體任務的改造，這使得它一開始并沒有獲得足夠高的媒體關注。但它卻稱得上是這個橫亙二十多年電商推薦系統的時代轉折點。按照姜宇寧的說法，以此為起點出發，它將逐步生長成一個更加成熟的，以 AI 大模型為中樞指揮大腦的全新電商推薦系統。

8月，借著姜宇寧團隊上線 RecGPT 技術報告的契機，AI 科技評論對其進行了獨家專訪，我們力圖探究為什么淘寶能率先實現了 AIGR 在推薦系統的全量上線？淘寶對推薦系統與大語言模型結合的思路和打法是什么？它的誕生會對淘寶生態產生怎樣的影響？以及，為什么 AIGR 的系統級大規模落地，竟然發生在 ChatGPT-3.5 上線的整整35個月后？

你可以簡單將其中一些答案歸因于，淘寶本身對 AI 的重視——這是所有人都知道的事情。阿里巴巴是對大模型技術投入最激進的玩家之一。而早在2024年，阿里巴巴中國電商事業群首席科學家、技術總裁鄭波就提出了 AIGX 技術體系，就像一張覆蓋電商商業經營所需全部場景的生成式 AI 技術路線圖。

但與其他所有的 AI 玩家不同，淘寶本身又是一個特殊的生態，它的一舉一動都牽動著龐大的交易規模，它沉淀著可能是中國最全面最豐富與歷史最悠久的電商數據。尤其隨著“外賣大戰”如火如荼，閃購帶來的日活用戶激增也給這套算法體系提出了更多的挑戰。

姜宇寧對 AI 科技評論表示，AI 大模型實際上賦予了傳統推薦系統一些全新的能力。

首先，他說，傳統推薦系統是一個黑盒，有時候它的推薦結果不僅用戶不能控制，連搭建推薦系統的算法工程師也不能百分百解釋。而大語言模型具備很好的語言遵從能力，可以起到讓傳統推薦系統“白盒”化的作用。在大語言模型的加持下，推薦系統可以更好遵從用戶指令，執行平臺的策略意志。

其次，與傳統系統更關注用戶的短期行為不同，大語言模型具備較長上下文窗口的理解能力，因此可以將海量的長歷史周期的用戶資料投喂進去，從而讓系統可以在更長的時間維度中理解用戶行為。而語言模型的推理能力又使其能預測用戶需求的演進，從而讓系統跳出只依靠用戶短期行為而出現“信息繭房”現象。

在 RecGPT 中，大模型更像是在傳統的預估模型之外增加了一個模塊化的能力。它不替代預估模型，而只是預估模型外前置了一個更高效的篩選與排序裝置，從而讓系統的身段變得更加靈活。而姜宇寧認為，這樣的靈活會進一步推動淘寶推薦生態的變化——新用戶、長尾商品、創意屬性的高情緒價值的商品會因此收益，比如“曝光量增長最多的品類其實是潮流款服飾和新奇玩具”。

姜宇寧認為，推薦系統的 AI 進程其實與平臺的屬性、目標不無關系。

淘寶的優勢在于豐富的商品供應與用戶數據資源，而淘寶的戰略是“萬能的淘寶”，這意味著用戶需要在手淘里有更沉浸式的消費體驗、讓海量商品與高個性化的用戶產生高質量的鏈接，而這一切都恰好是大語言模型擅長的事情。“技術架構設計必然是服務于業務戰略的”，姜宇寧對 AI 科技評論表示，相反，假如“狂推頭部爆品”或者“逮著低價商品推”，其實都不太需要一個大模型來輔助推薦模型。

姜宇寧透露，目前 RecGPT 的版本是在各個環節輔助推薦系統，而下一步是要在所有環節上建設一個“大模型指揮官”，協調和指揮推薦的所有環節，從而讓推薦系統有更好的一致性。至于行業討論很火的“端到端”方案，姜宇寧認為它有可能是未來的最優解，但目前仍需要保持謹慎探索的態度。他對 AI 科技評論表示，現在各家所說的“端到端”方案只是借鑒了大模型的 scaling-up 思路，而卻浪費了大語言模型豐富的世界知識和強大的推理能力，其實是“買櫝還珠”了。

而一切到最后都要回到 ROI 上。每當姜宇寧提到“端到端”，他總會配上 ROI 這個詞，整個人保持一種不否認但也不興奮的觀望狀態。

正如他在結尾所說的，十幾年 AI 算法從業經驗教會他的事情是，“ AI 一定要創造商業價值，一定要落到業務場景里并且形成正向的商業循環， AI 才能在里面落地生根發芽。”

這大概就是淘寶的 AI 團隊與其他團隊最大的不同。

以下是本次專訪的內容，AI 科技評論作了不改原意的整理與編輯：

推薦系統是個“黑盒”，大模型能讓它“白盒化”

AI 科技評論：聽說你們是第一個將大模型能力落地到推薦系統中的團隊。

姜宇寧：其實最近兩年國內外都有不少做大模型和推薦算法結合的研究工作。不過推薦是一個系統級能力，分成很多環節和模塊，我們將每一個環節模塊都做了改造，所以我們算是第一個（用大模型）系統化改造推薦系統并全量到生產環境的。

AI 科技評論：不同的玩家似乎在推薦這件事情上采用了不同的邏輯，比如快手和亞馬遜，都提出了一些端到端的概念，但你們是分段的方式。

姜宇寧：對，這是兩個完全不同的思路。

端到端本質并沒有在用大模型的能力，它是在模仿大模型在 NLP 里面的成功經驗，在借助 scaling law 的方法論。

我們其實也在做類似端到端的嘗試。但它的 ROI 不一定會很高，可能需要大量資源才能上漲一點的收益。所以在當前階段，分段和現有推薦系統結合是大模型可以比較快拿到回報的事情。

AI 科技評論：能不能理解說，我們目前分段是階段性的，早晚也是要去做端到端的？

姜宇寧：（端到端）肯定會做的。但現在大模型的能力很強，如果你不用它的能力，而只用它的建模方法，其實有點買櫝還珠的感覺。

其次，過去推薦模式是黑盒的形式。為什么給你推這個東西，你完全不了解，可控性也非常差。不可解釋。就像大家現在刷抖音，需要養號，要點很多東西以后才會推想看的東西。但是大模型可以推進系統的“白盒化”——因為推薦系統有了語言遵從能力，所以可以讓系統朝著平臺或用戶自己想要的方向去做推薦。

AI 科技評論：很有意思，大家之前聊大模型都說模型是黑盒，但現在反而能讓推薦系統變成白盒？

姜宇寧：大模型本身當然是黑盒的。但是如果拿過來用，已經比原來的算法有了更多可解釋性。過去 NLP 或者 CV 問題，結果為何，不可解釋。但現在大模型有 thinking 的過程。

雖然大模型為什么這么想，終究是不可解釋的。但如果你把它當做插件，接到原來的算法里，原來的算法就有了一定的可解釋性。

AI 科技評論：推薦系統為什么是一個黑盒？可以解釋一下嗎？

姜宇寧：推薦系統的本質是，你一邊有一個用戶，另一邊有幾十億個商品，你要從中去找到最匹配二三十個商品。

匹配分是由一個類似雙塔結構的模型送上去，一邊是用戶特征一邊是商品特征，吭哧吭哧算完后出來一個數字，比方說，“0.9”。但“0.9”代表了什么？它不具備可解釋性——它又多大程度上跟你的什么興趣、什么特點匹配，其實是不知道的。

就像你在短視頻里刷到一個博主，平臺有那么多的博主，但為什么就是 A，而不是 B？系統說我就是認為你更喜歡 A，至于為什么，系統其實回答不了這個問題。

AI 科技評論：傳統推薦模型沒有辦法還原它的權重是如何分配的嗎？能不能嘗試去拆解這個權重嗎，看它有哪些大類的影響？

姜宇寧：這就是要涉及到一個推薦系統的基本原理——“協同過濾”。

你可以這么理解：推薦模型的權重并不僅僅是通過你一個人的行為，而是通過幾億用戶的行為學習出來的。哪些跟你有類似行為的用戶，他們又點擊了哪些商品，我們構建了數十億這樣的行為對，模型的權重是在這個數據基礎上學習到的統計值。因此，它沒有辦法被簡單還原到某個個體行為上：你有什么特征，所以出了推什么結果。

當然我們可以去嘗試解釋，但這更像一個事后的找補——分已經打出來了，再做一個事后諸葛亮。

AI 科技評論：那既然都是匹配，為什么傳統推薦模型難以解釋，但是大模型就可以？

姜宇寧：首先傳統的打分模型并沒有被替換掉，大模型相當于在幫它找候選集。大模型的好處是，我可以在匹配的時候，直接要求系統給出大致匹配的理由。然后再讓系統遵從你的語言指令，通過對用戶不同維度的拆解，來匹配商品。

比如，給定一個用戶畫像，和一個有語義遵從能力的推薦大模型，你可以對它說，“請從用戶3天內的購買行為來推薦商品”，也可以“請從用戶居住地的天氣來推薦商品”。這樣候選的商品其實就遵從了不同的維度。

其次，大模型的思考能力讓它有了延伸推理的可能。比如，系統發現我買了奧特曼的東西，進而推斷我家可能是有個喜歡日本動漫的小孩，從而推出我可能需要有兒童書籍的需求。它相當于可以跳出過去歷史行為去做進一步延伸分析的，而且它延伸的維度，是按照你的 prompt 提示詞去延伸的。

AI 科技評論：所以如果用了大模型，其實系統可以推薦過去推不到的東西？

姜宇寧：對，我認為大語言模型對推薦系統最大的收益就來自兩點：推理能力以及語言遵從能力。

剛上面提到的，大模型的推理能力能讓推薦系統更具有“可解釋的發現性”，讓推薦結果既在意料之外，又在情理之中。而語言遵從能力能讓大模型具有“可調度性”，我們可以去直接命令大模型，按照什么維度去推，“不要推看過的”、“不要推歷史過久的”、“要新鮮的”。這樣真的實現了“human in the loop”。

AI 科技評論：這是不是意味著運營人才也能加入其中。

姜宇寧：對，他對推薦系統的好處是開了一個口子，使得除了算法工程師外的很多人能參與進來，貢獻想法。

大互聯網平臺有非常實際的業務問題，即推薦系統在大流量平臺中承擔了非常多的調度功能，不完全是效率導向的。你可以認為推薦系統是一個供電網絡，要通過調度流量，根據需求把流量分配到不同的行業和內容——除了滿足一定的效率約束外，還要思考如何讓他指哪打哪。

過去的方法可能是要算法同學去“調度”系統，或者去做加權或者降權，才能達成這個目的。但現在我可以直接告訴系統，今天有什么熱點，著重去推薦這個東西。一句話就能搞定。

AI 科技評論：所以可調度性其實是很重要的。

姜宇寧：我是做算法出身的，算法本身是追求效率最大化的。但在實際上任何算法都不全知全能，它需要策略的干預。比如今天有一天突發熱點，什么發布會上同款軍大衣突然火了，靠純算法效率驅動一定會有滯后性。那如何能快速且高效地調度流量分配就很考驗推薦系統的整體設計。

我認為在大模型+推薦系統的結合中，一方面要追求效率的提升，一方面也要兼顧可調度性。最近友商發表的一些論文其實沒有真正考慮到可調度的推薦場景。但我們要知道，推薦系統背后其實是有平臺意志的。

AI 科技評論：路線選擇不同，會不會跟平臺特性也有關系？因為淘寶其實是運營相對重的公司。

姜宇寧：未必。其實很多平臺都有很強的運營屬性。這最后就是一個在效率最優和可調度性之間的平衡問題。就像一個小孩，他總能考很高的分數，但是跟人交流的能力不太行，不能按照你的指令做事，有時你也會很頭疼。而大模型現在提供了一個能夠把兩者兼得的可行路徑。

大模型在推薦系統落地晚，因為Baseline 太高

AI 科技評論：其實 GPT-3.5 已經出來兩年多了，你們技術報告里也提到，用大模型來改造推薦系統的嘗試其實相對較少，這是為什么呢？

姜宇寧：看要跟誰比了。你看大模型出來以后，大家的第一反應是改造搜索，而不是推薦。因為大模型天然適合對話，而推薦是沒有對話入口的。推薦是你進了這個飯店，小二給你上什么菜你就吃什么菜，你沒有點單的權利，但是搜索系統你是可以點單的。所以推薦上的改造慢于搜索，這是大語言模型本身特性決定的。

AI 科技評論：但推薦是一個價值很高的場景。所以按道理，一旦有新技術，大家都應該會跟進探索。你覺得它落地比較晚，背后的技術難度在哪里？

姜宇寧：我覺得最大難度是原來一套系統的 baseline 已經太高了。推薦算法其實是一個系統科學，發展了十多年，現在不管是基于協同過濾，還是基于什么其他的方法，已經推得非常準了。尤其對深度用戶的行為，累計了很多數據，系統對你非常了解了你的歷史行為序列，雖然它是黑盒算的，但一定能找到非常好的匹配。然后會把你的整體的指標用戶指標拉得非常高。

但推薦系統有的時候黏性高，是“有毒”的，它造成了非常強的繭房效應。如果基于歷史信息推薦，就會越推越類似。另外一面，我們反過來，假如用戶是新進入的，原有的系統其實就很難推準。這其實都是一個問題的一體兩面。

AI 科技評論：傳統模型和大模型的關系到底是怎么樣的？為什么它無法被大模型替代呢？

姜宇寧：其實現在一些端到端的構想，到最后仍然接了一個傳統深度學習模型。

假設我們有 A、B 兩個商品，推薦系統不是簡單地做排序，知道 A 比 B 好就可以了，而是要給他們打一個分數，A 比 B 好多少，20%，50%還是100%。因為推薦系統，尤其是電商領域，要跟成交金額、廣告收入、抽傭等等數字相關，所以你需要量化推薦的分數。

AI 確實適合干非常多的事情，比如基于長上下文的推理，但它就是不適合干精確數字計算的活。所以 AI 目前是做初步篩選，剩下精確數值計算的部分交給傳統的打分模型來做。

AI 科技評論：這種長上下文的輸入，在技術實現上的效率高嗎？

姜宇寧：我覺得這是我們這次的核心進步之一。

原來推薦系統更喜歡關注近期行為，尤其是這一兩周買了什么、看了什么，就會拼命推，但往往會忘記用戶的長期興趣。而 RecGPT 可以從長期興趣的角度出發，完成更多的探索。

不僅如此，我們基于用戶數據逐步實現了一些推理能力。比如一年前你買了孕婦相關的東西，那么一年后就不能再推孕婦產品，而是要推寶寶產品了。所以標簽本身也具備了演化和推理能力。

AI 科技評論：所以過去的標簽是沒有演化的嗎？

姜宇寧：以前的標簽如果要演化，必須是你有了某種行為之后才行。比如標簽什么時候從孕婦演化成寶媽呢？就是當你開始買嬰兒產品的時候。

所以傳統推薦系統的學習是后置的：你先有某個行為，模型學習到了，再給你推薦。但大模型的推理能力就能讓推薦模型的更新發生在用戶行為之前。

AI 科技評論：你剛才說，大模型在搜索領域的發展比推薦更早。但電商的場景里似乎不太一樣，好像推薦的落地比搜索更前？

姜宇寧：其實也不是。電商有很多落地沒有被大家看見。但有一點是：電商是一個偏消費決策的場景，不是一個做信息收集類的場景。所以大模型在電商搜索上的應用，并不是在于帶來多 fancy 的信息交互形式，而更側重在如何更準確地理解用戶意圖，如何產生更高質量的數據，如何潛移默化地影響用戶做決策。這些背后的改進只是不容易被注意到罷了。

AI 科技評論：其實大家之前確實也做過通過自然語言交互去做電商搜索的嘗試。

姜宇寧：就像剛才說的，大家在搜某個具體東西的時候，大部分時間已經做好決策，不需要大語言模型再去寫一大段文字告訴他們應該買什么。

大模型在電商搜索正在的應用應該在于：當用戶搜索“網球拍”時，你得知道這個用戶到底是什么特性？比如，價格敏感型還是服務敏感型？新手初學還是進階選手？接著你再根據用戶特性去推薦服務最好的商家或最便宜的商家，入門裝備或高階裝備。這才是真正能提升用戶體驗的地方。

所有的推薦系統都是 EE 問題

AI 科技評論：你曾經講過70%內容是基于推薦引擎，30%內容是試錯，目的是讓系統不要進入繭房效應的同時又保證效率。

姜宇寧：對，我們就是要想辦法，保證70%的部分效率不跌的情況下，把30%的效率提上去。

其實所有推薦系統都是一個 EE 問題（ Exploitation 和 Exploration，利用與探索），在兩個E中尋求平衡。過去，Exploration 的部分是幾乎隨機的策略，跟扔骰子一樣。但現在有了 RecGPT 的大模型輔助，這部分的效率會顯著提升。它也能遵循指令，比如讓用戶探索一下零食品類、服飾品類等，不再完全是盲目的探索了。

AI 科技評論： Exploration 給 Exploitation提供了更多的數據，如果前者更高效、沉淀數據的效率更高，那么后面也相應會更高效，這樣形成一個AI模型與傳統模型之間的循環？

姜宇寧：是的。我們可以將系統分成“效率圈”和“探索圈”。“探索圈”漲得快，數據才可以補到“效率圈”，與用戶發生關系的商品才會越來越多。

AI 科技評論：那能不能這么理解：效率圈就是靠傳統推薦模型，探索圈就是靠大語言模型？

姜宇寧：這么說不準確，其實兩個圈或叫兩個任務都升級到了大語言模型加傳統推薦模型的新模式。只是這個模式對 Exploration 的幫助比對 Exploitation 的更大。

AI 科技評論：這兩者的效率提升之差能有多少？

姜宇寧：效率圈是個位數的增加，探索圈的提升能有百分之五十以上。

回到推薦系統難點的那個問題。原來大模型想要提升“效率圈”的效果，會發現投入大量資源，但提升效果有限，因為系統已經做得很好了。反而“探索圈”是一個靠傳統方法很難做好的部分，大模型應用空間就很大。

AI 科技評論：那是不是可以理解，大模型的應用會對新用戶很友好？

姜宇寧：（對）新用戶和長尾商品（都友好）。

這套系統緩解了商品的馬太效應。假如我們效率圈的曝光是70%，這70%的曝光其實只給了10%的商品，而剩下30%探索圈的曝光，分配給了90%的商品。這其實非常不均勻。

而一個商品要從探索圈進入效率圈的前提，必須是要讓商品和人之間產生點擊，然后才能打準分數。但因為長尾商品的打分是很難準確的，所以探索圈的點擊效率就是很低的。假如300個探索曝光只收獲了6個點擊，那么其實只有 6 個有效的數據可以被效率圈學習到；但大模型上來后，我可能有 10 個點擊，那就會有更多的商品被激活，能夠進入到效率圈。

AI 科技評論：所以淘寶過去數據很多，但很多其實是沒有被激活的。

姜宇寧：淘寶也叫“萬能的淘寶”，在所有電商平臺里，淘寶的商品豐富度是最多的。我們平常看到的淘寶，只是淘寶商品庫中的一小部分，它有大量好玩的商品其實沒有被推出來。所以才需要我們利用大模型去改善這一點。

AI 科技評論：其實很多用戶都吐槽，為什么大數據會給我推很多我購買過的內容。為什么這件事情就是規避不了呢？比如做一個簡單的規則。

姜宇寧：因為任何規則都或多或少有漏洞。

比如我買了一包開心果，覺得很不錯，我確實想復購，但是系統再也不推了。或者這個規則的時間范圍該怎么設定？3天之內不出，還是3個月、9個月不出？這個周期該怎么定？那如果今天我復購的是一袋洗衣粉，這個周期還適用嗎？

所以我現在更希望把事情放到前鏈路去做，盡量讓大模型去學習和判斷，這個商品到底有沒有復購屬性，周期該怎么設置，而不是簡簡單單拍個規則。

AI 科技評論：你剛才說，RecGPT 對新用戶很友好。那像閃購、外賣這樣的業務進來以后，平臺的日活漲了很多，都是新用戶，對于推薦系統來說是不是有壓力的？RecGPT 剛好能發揮作用？

姜宇寧：我們當然希望能看到這樣的增長。新用戶進來，能不能轉化地好，其實很大程度上也是我們推得好不好。這其實對我們來說是很大的挑戰和機會。因為他們之前的購物都是非傳統電商的行為，比如外賣、奶茶，以及一些身份和地點信息。

AI 科技評論：什么樣的商品推薦是比較適合留下閃購用戶的？

姜宇寧：零食是很天然的轉化品類。用戶吃過什么外賣，喜歡什么口味的，如果愛吃辣的，首頁就可以推辣條。我最近發現，我們經常給一些四川的同學推重慶米線，效果還不錯。

如果只推低價，是不需要大語言模型的

AI 科技評論：我們在做評判的時候，好像既采用了人工評判，也做了一個小的模型。你們是出于什么考慮這樣做的？

姜宇寧：假如用一個大模型去做對話機器人，其中最難的事情之一，可能就是把好的對話的標準定義出來。電商也是一樣，大模型總結出了一個用戶畫像，這個畫像好還是不好、是否全面，我們其實做了大量的人工的檢驗——我們不是標注，只是檢驗。

比如，我的標簽是一個極客，那大模型給我推一個純鈦水杯是否合理？商品庫里是否真的存在一個純鈦水杯？如果不存在，那說明出現了幻覺。但人工的標注成本是很高的，所以我們會把結果記錄下來，再用另外一個模型去學習人工標注。

AI 科技評論：你覺得推薦是有數據飛輪的嗎？如果一個平臺數據更多、供應更多、行為的維度更多，是不是這樣的平臺在未來的AI時代就是更有機會的？

姜宇寧：當然，毫無疑問。做 AI 一定要充足的現金流、好的商業循環和好的數據循環，缺一不可。

AI 科技評論：我們有涉及到多模態的內容么？未來大模型會學習人類審美來做推薦么？

姜宇寧：審美這件事情還是由用戶來決定的，平臺只是來做匹配。

但我們接下來會做一個新的基于多模態的 ID 體系。這樣商品的 ID 數量會大幅減少，不再依賴原來一個商品一個鏈接對應一個 ID 。這樣一個商品哪怕更換商品鏈接，它的語義 ID 是不會變的。

AI科技評論：這聽起來是一個改變非常大的事情。

姜宇寧：會改變很多商家的運營習慣吧，原來很多商家喜歡養鏈接，把不同的商品掛在一個鏈接上來繼承流量，這造成了一些“貨不對板”的情況，但以后這樣做就沒有收益了。

AI 科技評論：你覺得不同的平臺生態，對推薦策略和技術的需求有什么不同？

姜宇寧：當然有。比如你如果做的是極致低價策略，那么就是要制造同品的價格內卷，每個 ID 里只出價格最低的那個商品。所以整個推薦架構必然是服務于這個業務戰略。我們的 RecGPT 本質上是服務“萬能的淘寶”的。我們既不是狂推頭部熱銷品，也不是逮著低價商品來推，所以才需要 RecGPT 這樣的算法設計。

其實商品豐富性對于淘寶的 AI 發展來說是一個很大的優勢，我們的推薦系統能比別人回答更多的問題。說實話，如果你只是同品類推一個低價，其實不需要 AI 去推的。

AI 科技評論：如果我們接下來進入 AI 大模型推薦的時代，你對商家有什么建議？

姜宇寧：多研究平臺的政策和規則，多做創意。你知道系統上線后，哪個品類增長最快嗎？玩具。有更高情緒價值的新、奇、特商品，一定會得到更好的流量回報。

推薦系統離“驚嚇”還很遠

AI 科技評論：你們有沒有考慮過，如果用戶覺得系統太懂自己了，可能會覺得被冒犯？

姜宇寧：以目前的技術水平來說，這樣的情況并不多見。

我前兩天遇到一個巧合，我正在一邊吃同事買的某款肉松，一邊邊刷淘寶，突然發現竟然給我推薦了一個完全同款，把我嚇了一跳。后來我專門研究了這個 case ，其實就是簡單的巧合——因為這個肉松的商家在大力推廣告，所以同事被種草了，而我刷到的其實也就是商家的廣告而已。

未來如果真的出現類似“精準”的情況，確實不知道是驚喜多一點，還是驚嚇多一點。不過總的來說，目前推薦系統離讓人有“監視感”的程度還非常遠，現在大家吐槽最多的還是“信息繭房”。

AI 科技評論：但假設我買了一個紙尿褲，平臺立刻知道我要生小孩了，我可能就會有被冒犯的感覺。

姜宇寧：像我們最近在“猜你喜歡”主頁的商品下面加入“推薦理由”，內部是有明確的審核與風控的，涉及到用戶的年齡、身高、外表都不會有任何評價。

其實隱私不止是用戶的事情，對于平臺也是有很大的風險的。比如，在敏感的時間節點給有文化敏感的人群，誤推了一些敏感的商品等等。我們過去只能硬寫規則，但系統本身是無法理解的。有了大模型以后，類似的風險會更容易被規避掉。

未來要讓大模型做“推薦指揮官”

AI 科技評論：在你看來，未來推薦系統技術演變的方向是什么？

姜宇寧：三條路。

第一條路我叫它“插件式”，也就是 RecGPT 現在的方式，用大模型去對現在推薦系統的每一個環節做改造增強。利用它的推理、長周期的記憶能力，來豐富系統能力。

第二條路是讓大模型做推薦系統的“指揮官”，構建一個大腦去做每一個環節的控制。因為現在推薦系統還是有非常多環節的，如果每一個環節各自優化、各自迭代，會導致推薦系統出現不一致性。如果有一個指揮官，我可以在不同的時間階段去做不同的策略部署。比如雙十一，那就成交效率最大化，那推薦各個環節就都以成交為目標；或者日常的一些時間，可以是種草目標為主，那各個環節都調整對齊到種草目標。由這個大模型大腦通過超參來調度推薦全系統，提升一致性。

第三條路就是我們說的“端到端”，即減少中間環節同時對打分模型做 scaling law 。如果我們相信，規模就能產生奇跡，那么既然在 NLP、CV 問題上能成功，推薦系統也有可能會成功。

AI 科技評論：你覺得它是不同的演化階段嗎？從1到2，再到3。

姜宇寧：從實現難度上來看，是這樣的。

AI 科技評論：其實大家對第三條路還是很癡迷的。

姜宇寧：十年前，推薦系統只是一個簡單的回歸模型。深度學習先在 CV 和 NLP 問題證明了自己，才被用到推薦系統里，變成了 DIN 等現在主流的深度推薦模型。

為什么大家信 one model（端到端）？因為這好像跟十年前非常相似，又是一個新的模型結構，比原來的更大（深度學習也要比邏輯回歸大很多），同樣在 CV 和 NLP 問題里也證明了成功，所以很容易讓大家產生一些思維認知的慣性。

我從來不否認這個方向的可能性，但推薦的任務性質和自然語言有很大不同。在這個任務上，推薦模型要 scaling-up 到多少才能讓它具有質變的能力，而達到這個質變的奇點又要付出的成本？我們需要算 ROI。

AI 科技評論：這和目前大模型的智能上限有關系嗎？

姜宇寧：推薦系統里做 scaling law 跟這個沒關系，因為它沒有真的用大模型的智能，只是把打分模型做大了幾十倍、甚至幾百倍的參數。它沒有世界的知識，只是一個更強的考官而已。

AI 科技評論：你覺得淘寶現在什么階段？

姜宇寧：1和2之間吧。接下來要往2的方向去走，我也相信這條大模型做指揮官的方式會很快實現。同時也會有人探索3端到端的事情。

AI 科技評論：你曾經是曠視工號第五的員工，經歷了從 CV AI 到大語言模型的十余年歷程。你覺得過去的經歷，對你現在來說最寶貴的經驗是什么？

姜宇寧：AI 一定要創造商業價值。一定要通過正向的商業循環，能夠找到一個業務場景，AI 才能在里面落地生根發芽。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.