機器之心原創
作者:張倩
在小紅書上,一群熱愛技術的年輕人,搞了一場為期五個多月的大型「團建」。
「感謝大佬帶飛!」「用上您的方法之后猛猛上分!」「大佬一己之力把整個排行榜洗了!」
![]()
![]()
說實話,這些年看過不少大賽,但公開討論這么熱烈、選手之間氛圍這么融洽的,真的少見。
初賽到復賽,選手們一直在分享。成功的經驗要講,踩過的坑也不藏著掖著。
![]()
剛入門的小白說,看完大佬們的帖子,終于知道怎么下手了;而那些分享的大佬呢,也坦言自己是「拋磚引玉」,評論區里常常能撿到新靈感。
這哪是比賽?分明是一群人組隊上分。什么「文人相輕」、「零和博弈」…… 在「一起變強」的快樂面前,通通靠邊站。
那么問題來了:到底是什么樣的比賽,讓這群年輕人這么上頭?比賽最后是個什么結果?以下是我們在決賽現場 get 到的情況。
一場比賽
折射出推薦系統的下一次范式遷移
簡單來說,這是一場廣告算法大賽,目的是讓模型學會「預測用戶下一刻可能感興趣的廣告」,比誰「猜」用戶興趣猜得準
這個問題被優化得越好,廣告系統就越能把不相關的內容過濾掉,讓用戶看到的更多是有用的信息,而不是被打擾。因此,主辦方騰訊廣告對這個問題非常重視,設置了 360 萬元的獎金池,冠軍隊伍甚至可以獨享 200 萬
![]()
在技術路線上,這類問題的解決一直依賴「判別式方法」,即通過分析用戶過去的行為記錄,區分用戶喜歡的內容和不喜歡的內容,以此來學到「擁有特征 A、B、C 的用戶,通常會喜歡擁有特征 X、Y、Z 的物品」。這其中的核心邏輯是「匹配」,就像在一個固定的商品架子上選東西。
但是,這類方法有個問題:在遇到新用戶或新物品時,它就不知道怎么辦了,這就是業內俗稱的「冷啟動」問題
為了解決這類問題,業內不少團隊都在探索新的范式,最近幾年已經在語言、視覺等領域 work 的生成式方法自然成了首選。
和判別式方法在已知數據范圍內做精準判斷不同,生成式方法可以通過學習所有實體的本質特征,建立一個可推理的語義世界。當新實體出現時,它能夠通過「理解」其本質并將其納入這個世界,從而實現強大的泛化能力。
這么說可能有點抽象,我們來舉個例子:平臺上突然上架了一款全新的跑鞋,按照傳統判別式方法,由于沒有人瀏覽、點擊或購買過,它幾乎是「隱形」的,系統很難判斷誰會喜歡它,只能等真實用戶來互動。
但生成式方法不一樣:它可以從商品的圖文、材質描述、功能賣點等多模態信息里,直接讀懂這雙鞋的大致屬性,并把它放進整個語義世界中,找到它最接近的鄰居,比如它和哪類跑鞋相似、哪些用戶的偏好向量與之接近。于是,即便沒有任何歷史行為,它也能把這雙鞋推薦給可能會喜歡它的人。
這種從「記答案」到依靠多模態信息進行「獨立思考」的過渡是當前生成式推薦算法追求的方向,也構成了本次騰訊廣告算法大賽的賽題——全模態生成式推薦
![]()
在比賽中,選手拿到的是經過脫敏處理的用戶全模態歷史行為數據,包含文本、視覺、協同行為等,然后基于這些數據去做預測。
![]()
很多選手反映,這并不是一個簡單的賽題。首先,「生成式廣告推薦」其實是這兩三年才冒出來的新方向,外面能參考的資料并不多,很多思路都得自己摸著石頭過河。其次,大賽給到的是真實業務里脫敏后的多模態數據,既有推薦系統的協同特征,也有文本、圖像、語音、視頻的embedding特征,還夾著各種缺失、噪聲。換句話說,選手面對的不是「干凈的小白鼠數據」,而是現實世界里那種又亂又雜的情況,非常接近實戰,難度一下子就上來了。
正因為賽題又新又真,所以特別考驗大家的探索精神。很多問題光靠一個人啃不動,必須幾個人一起琢磨、互相碰撞,才能把路走通。也正因如此,我們才看到了前面提到的熱烈的討論、空前的思路接力。
技術與人才的雙重躍遷
年輕一代已走在前沿
整個算法大賽從 6 月份開始啟動,歷時 5 個多月,共有 8000 多人報名,2800 多支隊伍參與比拼,可以說是一場競爭非常激烈的技術馬拉松。
冠軍團隊 Echoch 和亞軍團隊 leejt 都提到,這幾乎是他們參加過的數據規模最大的一場比賽。比賽中拿到的數據集(復賽達到千萬量級)與以往學術場景的小數據集完全不同,既需要做模態的融合處理,又需要應對數據中存在的大量缺失值。整個比賽打完之后,就像在公司實習了幾個月一樣。
![]()
冠軍團隊 Echoch。成員來自華中科技大學、北京大學、中國科學技術大學。
![]()
亞軍團隊 leejt。成員來自中山大學。
當然,就像 Echoch 所說,數據多也意味著他們可以在比賽中訓練出足夠大的模型,從而驗證哪些方法具有可擴展性,這在實際業務中非常重要。而且,他們還不用操心算力問題,因為這次騰訊的 Angel 機器學習平臺提供了足夠的算力和訓練推理平臺支持。有了這些支持,選手們的方案就有了一個足夠真實的實驗場。
在決賽答辯那兩天,騰訊公司副總裁蔣杰在現場仔細聽了選手們的解決方案。
「今年,我注意到一個特別驚喜的變化:現在的學生對大模型的理解,以及他們做出來的東西,已經和工業界的實際工作非常接近了。以前幾屆的作品往往只能在一臺機器上跑,現在基本都能直接拿來做分布式部署。他們不像我們當年讀書的時候,出來以后啥也不會,要跟一個導師學半年。」蔣杰在采訪中欣慰地說。
![]()
騰訊公司副總裁蔣杰。
蔣杰的說法并不夸張。我們在現場看到,選手們的方案確實非常有創新性。比如在模型結構上,大家并沒有拘泥于某一種套路,而是大膽嘗試了不同的生成式框架,甚至去琢磨如何重新組織 token,讓模型更好地理解用戶的行為序列;在多模態的處理上,有的隊伍專門研究怎么把各種模態的 embedding 對齊,讓文本、圖像、行為信號能夠「聽得懂彼此」,也有人嘗試用更細致的空間對齊方法,讓協同信息真正用起來;而在工程層面,不少隊伍則把壓箱底的本事都掏了出來,從訓練加速到推理優化,再到顯存的極限壓縮,都做得非常極致。
在此過程中,選手們成功地把很多之前只在大語言模型、多模態模型領域嘗試過的方法用在了廣告推薦領域,并且取得了很好的效果,這填補了廣告推薦與其他領域之間的 gap。
選手們這種對于新論文、新方法的消化、運用能力也讓蔣杰非常興奮,直言他們的知識體系和騰訊內部的算法工程師「完全接軌」「沒有代差」,有些方面甚至還「更有創新性」
當然,大賽競爭如此激烈,大部分選手是沒有走到決賽的。但很多同學坦言,他們在比賽中同樣經歷了諸多激勵人心的時刻。
要知道,很多人在報名之前是沒有接觸過廣告推薦算法的,更沒挑戰過業界難題。然而,通過閱讀其他選手在小紅書上分享的解決方案,他們一步步摸清了門道,并跟著策略上分。有位同學回憶,一位「大佬」始終與他保持私信交流,共同研討如何改進流行性采樣策略。他們花了一兩天時間反復嘗試,最終獲得了千分之五、六的收益提升——那種感覺依然「很爽」。
更重要的是,這樣的時刻讓他們真切地看到:自己的能力并非固化不變,那些原本未曾設想的道路,其實也可以勇敢嘗試。賽后,不止一位同學表示,自己今后還會參賽,這種越挫越勇的精神令人動容。這,或許才是大賽最重要的意義。
比賽結束
托舉才剛開始
一場大賽,把這么多聰明的頭腦聚在一起,共同把一件難事往前推,本身就已經足夠振奮人心。
![]()
但決賽并不是終點。蔣杰在采訪中明確表示,這次在大賽中表現突出的選手,將被納入騰訊的「青云計劃」。這是面向頂尖學生的人才通道,能夠讓他們直接接觸最好的導師、資源和算力平臺。換句話說,優秀的年輕人不會因為一場比賽而散場,而是會繼續被托舉、被加速。
這種對年輕人才的重視,來自蔣杰對科技行業長期的觀察:無論國內還是國外,能夠在前沿賽道上跑出來的團隊,無一不是依靠「矩陣式」的人才積累。一批人長期深耕不同模塊,彼此補位,形成合力,才有了今天 AI 領域的集中爆發。從這些案例可以看出,真正決定上限的,是人才的厚度和代際傳承。而這一點,在大賽中其實已經出現了苗頭:年輕一代具備很強的科研與工程能力,開源文化也在他們身上延續得很好
我們希望讓年輕人更快地成長,不是坐扶梯,而是坐直梯的速度往上走…… 有足夠的人才,才能做出更有價值的事情,這是必然的。」蔣杰說這話時語氣非常堅定。
從這次大賽,我們不僅看到優秀選手的涌現,也看到了國內科技企業在培養頂尖人才方面的投入和決心。這些積極的信號,讓我們有理由對中國 AI 的下一程抱持真正的期待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.