「追到第一名」的劇本,騰訊可能又要演一遍,這次押注的是 AI。
就在今天下午發布的內部公告中,騰訊表示,知名 AI 研究員姚順雨 (Vinces Yao) 正式出任「CEO / 總裁辦公室」首席 AI 科學家,向騰訊總裁劉熾平匯報;同時兼任 AI Infra 部、大語言模型部負責人,向技術工程事業群總裁盧山匯報。
這次任命,釋放的信號很清晰:騰訊的 AI 正在全面提速,且是帶著「要打硬仗」的架勢。
不久前,金沙江創投主管合伙人朱嘯虎在談及國內 AI 競爭格局時直言騰訊還沒真正發力。他還評價稱,騰訊往往等局面打明白后再加速追趕——從第五、第六,追到第三、第二,最后追到第一。
![]()
今天,騰訊便用實際行動回應了外界的質疑。
騰訊升級大模型研發架構,新成立 AI Infra 部、AI Data 部、數據計算平臺部。其中,AI Infra 部將負責大模型訓練和推理平臺技術能力建設,聚焦分布式訓練、高性能推理等核心技術,為算法研發和業務落地提供支撐。
王迪繼續擔任大語言模型部副總經理,向姚順雨匯報。劉煜宏擔任 AI Data 部負責人、陳鵬擔任數據計算平臺部負責人,均向公司副總裁蔣杰匯報。
更關鍵的是,騰訊混元的「成績單」已足夠搶眼。
![]()
過去一年,混元大模型發布超過 30 個新模型。12 月 5 日發布的混元 2.0,在復雜推理與文本生成場景表現國內領先。混元 3D 模型更是保持著全球領先水準,開源社區下載量超過 300 萬。
組織調整與密集引才,說到底就是在為高強度的技術攻關補齊兵力、夯實底座。而姚順雨的加盟,無疑是騰訊 AI 戰略中極為重要的一步棋,也讓人不由得期待,他的到來或許會為騰訊 AI 帶來一股全新的氣象。
細數姚順雨的履歷,只能用開掛來形容——合肥一中出身、NOI 銀牌得主、高考 704 分勇奪安徽理科探花,擔任過清華姚班聯席會主席,甚至還聯合創辦了清華說唱社,妥妥的全能型人才。
![]()
普林斯頓計算機博士畢業后,他更是直奔 OpenAI,期間,他曾深度參與 Computer-Using Agent (CUA)、Deep Research 等重要產品。
今年 5 月份,憑借過硬的履歷,他成功入選《MIT 科技評論》「35 歲以下科技創新 35 人」中國區榜單,成為該屆最年輕入選者。
![]()
圖片來自清華校友總會
學術成果也相當能打,他推動了 LLM 從「對話系統」向「任務執行系統」的范式轉變。隨便拎幾篇代表作出來:
ReAct (ICLR 2023):將推理與行動結合的經典框架,引用超 4300 次。
Tree of Thoughts (NeurIPS 2023):大語言模型的「思維樹」問題求解方法,引用超 4000 次。
Reflexion (NeurIPS 2023):引入語言反饋的自我改進智能體,引用超 2600 次。
SWE-bench (ICLR 2024):評估語言模型解決真實 GitHub 問題的能力。
WebShop (NeurIPS 2022):可擴展的基于語言代理的網頁交互任務。
SWE-agent (NeurIPS 2024):面向自動化軟件工程的智能體-計算機接口。
Google Scholar 顯示,他的總引用次數超過 1.5 萬次,h-index 為 24,i10-index 為 29——這個數據在 27 歲這個年齡段,表現相當不俗。
![]()
巧合的是,今年 5 月姚順雨在一次與張小珺、李廣密的對談中,恰好聊到了微信和 AI 的話題。
當時李廣密拋出觀點:微信卡位確實好,但如果未來 Multi-Agents、Long-Term Memory 這些技術成熟了,Agent 系統卻沒長在微信上,那就「比較恐怖」了。
姚順雨的回應頗為哲學:「這取決于人類的網絡會變成什么樣?你會有更多 Agent 朋友,還是更多人類朋友?」他進一步解釋,微信既承載社交關系,也承載職業交互——比如購物咨詢、法律服務等。無論人類網絡如何演變,總需要基礎設施和平臺支撐。
面對張小珺的靈魂拷問:如果你是微信一號位,會怎么做 Agent?
姚順雨表示:「我可能會不急,先觀望觀望。」在他看來。微信已經易守難攻,為什么要急著進攻?真正的威脅不是類似產品的競爭,而是顛覆性創新。就像當年微信打敗 QQ 那樣,危險的是「很不一樣的東西」。
除了這次精彩的對談,今年 4 月份姚順雨發表的技術博文《AI 的下半場》同樣在業界引起了廣泛討論。讓我們一起來重溫一下這篇頗具預見性的文章——
https://ysymyth.github.io/The-Second-Half/
AI 下半場
總結:AI 正處在中場休息。
幾十年來,AI 的主要精力都放在開發新的訓練方法和模型上。事實證明,這條路走得通:從在國際象棋和圍棋上擊敗世界冠軍,到在 SAT 和律師資格考試中超過大多數人類考生,再到拿下 IMO 和 IOI 金牌。寫進歷史的這些里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后都是 AI 方法上的根本創新:搜索、深度強化學習、規模化訓練以及推理。隨著時間推移,效果一次次被刷新。
那現在突然有什么不同呢?
三個詞:強化學習真的能用了。更準確地說,強化學習終于能夠泛化了。經歷了多次迂回探索和里程碑的積累,我們終于找到了一套能解決各種強化學習任務的有效方法——依托語言與推理。要是你一年前對大多數 AI 研究者說:有一個通用方案能同時搞定軟件開發、創意寫作、IMO 級別的數學題、鍵鼠操作,甚至長篇問答——他們大概會笑你在「幻覺」。因為這些任務都極其困難,很多研究者整個博士階段可能只專注在其中一個方向。
然而,這已經成真。
那么接下來會怎樣?AI 的下半場——從現在開始——將把重心從「解決問題」轉向「定義問題」。在這個新階段,評估的重要性會超過訓練。我們不再只是問「能不能訓練出一個模型解決 X 問題?」,而是要問「我們究竟應該讓 AI 去做什么?又該如何衡量真正的進展?」。要想在下半場脫穎而出,我們需要及時轉變思維方式和技能組合,更接近于產品經理的思路。
上半場
要理解 AI 的上半場,可以看看它的「贏家」們。到目前為止,你認為最有影響力的 AI 論文有哪些?
我做了下 Stanford 224N 的小測,結果并不意外:Transformer、AlexNet、GPT-3 等等。這些論文的共同點是什么?它們都提出了訓練更好模型的重大突破。同時,它們也靠在某些基準測試上取得(顯著的)提升,才得以順利發表。
但還有個潛在的共性:這些「贏家」幾乎全都是訓練方法或模型,而不是基準或任務。就算是公認最有影響力的基準之一——ImageNet,它的引用量也不到 AlexNet 的三分之一。而在其他地方,方法和基準的對比更懸殊。比如,Transformer 的主要基準是 WMT'14 翻譯任務,該研討會的報告大約有 1300 次引用,而 Transformer 論文本身超過 16 萬次。
![]()
這說明了上半場的游戲規則:重點在于創造新的模型和方法,而評估和基準雖然必要,卻始終是次要的。
為什么?很大一個原因是,在 AI 的上半場,方法比任務更難,也更令人興奮。從零開始發明一種新算法或網絡結構——比如反向傳播算法、卷積神經網絡(AlexNet),或者后來 GPT-3 所用的 Transformer——需要非凡的洞察力和工程能力。相比之下,給 AI 定義任務就顯得直接得多:我們只需要把人類已經在做的事情(翻譯、圖像識別、下棋)變成基準測試就行,幾乎不需要太多新洞見或工程創新。
方法的價值還在于它們往往比單個任務更通用、應用更廣。以 Transformer 為例,它不僅推動了自然語言處理(NLP),還在計算機視覺(CV)、強化學習(RL)等領域全面開花,遠遠超越了它最初驗證成果的那個小小的翻譯數據集(WMT』14)。一個偉大的新方法可以「爬」上許多不同的基準,因為它足夠簡潔和通用,所以影響往往超越單一任務。
這種玩法延續了數十年,催生了改變世界的思想和突破,并通過不斷刷新的基準成績體現出來。那為什么這個游戲會改變呢?因為這些思想和突破的累積,已經帶來了質的飛躍——我們終于找到了可行的通用方案來解決任務。
配方
那么,「配方」到底是什么?配料其實并不意外:大規模的語言預訓練、數據和算力的擴展,以及「推理與行動」的理念。這些聽起來像是你每天在舊金山都會聽到的流行詞,但為什么要稱它為配方呢?
我們可以從強化學習(RL)的視角去理解。RL 常被認為是 AI 的「終局」——理論上它能保證贏得游戲,而在實踐中,你也幾乎無法想象沒有 RL 的超級智能系統(比如 AlphaGo)。
在 RL 中,有三個關鍵組成部分:算法、環境和先驗知識。長期以來,RL 研究者主要聚焦在算法本身(比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO……),這是智能體如何學習的「智力核心」,而環境和先驗往往被視作固定不變或最低限度的設置。比如,Sutton 和 Barto 的經典教材幾乎完全講算法,幾乎沒涉及環境或先驗。
![]()
然而,在深度 RL 時代,研究者們逐漸發現:環境的重要性極高。一個算法的表現往往與它所處的環境高度綁定。如果你忽略環境,就可能造出一個只在玩具問題里「最優」的算法。那為什么不先想清楚:我們到底想要解決什么樣的環境,然后再去尋找最合適的算法?
這正是 OpenAI 最初的計劃。它先推出了 Gym,把各種游戲變成標準化的 RL 環境;接著又嘗試了 World of Bits 和 Universe 項目,試圖把互聯網或計算機本身變成一個游戲。這聽起來很合理:一旦把所有數字世界轉化為環境,再用聰明的 RL 算法去解決,就能得到數字版的 AGI。
這是個好計劃,但沒能完全走通。OpenAI 確實取得了巨大進展,用 RL 解決了 Dota、機械手等難題。但它始終沒能真正攻克電腦操作或網頁導航的問題,而且在一個領域中訓練出來的 RL 智能體,幾乎無法遷移到另一個領域。顯然,缺了點什么。
直到 GPT-2、GPT-3 出現,人們才意識到:缺少的關鍵其實是先驗。你需要強大的語言預訓練,把常識和語言知識蒸餾進模型里,然后再進行微調,讓它們成為能上網(WebGPT)或能聊天(ChatGPT)的智能體(并由此改變世界)。事實證明,RL 中最重要的部分可能既不是算法,也不是環境,而是先驗知識——而且這種先驗完全可以通過與 RL 毫不相關的方法獲得。
語言預訓練為對話提供了很好的先驗,但在控制電腦或玩電子游戲時效果卻不那么理想。為什么?因為這些任務與互聯網文本的分布差距更大,直接在這些領域做 SFT(監督微調)或 RL(強化學習)時,泛化能力很差。
我在 2019 年就注意到了這個問題。當時 GPT-2 剛發布,我嘗試在它的基礎上做 SFT 和 RL 來解決文字冒險游戲——CALM 是世界上第一個基于預訓練語言模型構建的智能體。但它需要上百萬步的 RL 訓練才能「爬」過一款游戲,而且無法遷移到新游戲。
雖然這正是 RL 的典型特征,RL 研究者對此并不意外,但我卻覺得奇怪:因為人類可以很輕松地嘗試一款新游戲,并且在零樣本情況下表現顯著更好。就在那時,我迎來了人生中的第一個「頓悟時刻」——人類之所以能泛化,是因為我們不僅能選擇「去 2 號柜子」「用 1 號鑰匙開 3 號寶箱」「用劍殺地牢怪」,還可以選擇去思考:
「地牢很危險,我需要一件武器來應對。但目前沒有現成的武器,也許需要去鎖著的箱子里找。3 號寶箱在 2 號柜子里,那我應該先去柜子 2,把它打開。」
![]()
思考,或者說推理,是一種奇怪的行動。它不會直接改變外部世界,但推理的空間是開放的、組合上無限的——你可以思考一個詞、一句話、一整段話,甚至一萬個隨機單詞,而周圍的世界并不會立刻發生變化。在傳統 RL 理論中,這是個「糟糕的選擇」,會讓決策幾乎不可能。想象一下:你需要從兩個盒子里挑一個,一個有 100 萬美元,另一個是空的。你期望值是 50 萬。現在如果我加上無限多個空盒子,你的期望值就變成了 0。
但如果我們把推理加入 RL 環境的動作空間,就能利用語言預訓練提供的先驗來實現泛化,同時還能根據不同決策靈活分配推理時的計算量。這真的是一件很神奇的事。我在這里沒法完全解釋清楚,可能需要專門寫一篇博文。你可以去讀一下 ReAct,它講述了智能體推理的最初故事,也能感受到我當時的心路。直觀地說:即便你加了無數個空盒子,但你在生活和游戲中早已見過類似情況,所以選擇這些空盒子的經歷反而能幫助你在真正有錢的游戲里更好地做出選擇。抽象地說:語言是通過推理在智能體中實現泛化的。
一旦我們擁有了合適的 RL 先驗(語言預訓練)和合適的 RL 環境(把語言推理作為動作),結果發現 RL 算法本身反而成了最不重要的部分。于是才有了 o-series、R1、deep research、會用電腦的智能體,以及未來更多的成果。多么諷刺的轉折!長期以來,RL 研究者最關心的都是算法,而幾乎沒人注意先驗——幾乎所有 RL 實驗都是從零開始。但我們花了幾十年的迂回才意識到,也許優先級應該完全反過來。
下半場
這個「配方」正在徹底改變游戲規則。回顧一下上半場的玩法:
我們開發新的訓練方法或模型,用來在基準測試上爬坡。
然后我們再設計更難的基準,繼續循環。
但這種玩法正在失效,原因有二:
這個配方基本上已經把「刷基準」的過程標準化、產業化了,不需要多少新的點子。隨著配方的規模化和泛化,你為某個特定任務設計的新方法,可能只能提升 5%;而下一代 o-series 模型即便沒有專門針對這個任務,也能直接提升 30%。
即便我們設計出更難的基準,也會很快(而且越來越快)被這個配方解決。我的同事 Jason Wei 畫過一個很漂亮的圖,把這種趨勢表現得很清晰:
![]()
那么下半場還能玩什么?如果新的方法已不再需要,而更難的基準也會越來越快被解決,那我們接下來該做什么?
我認為我們需要從根本上重新思考「評估」。這不僅僅是去設計新的、更難的基準,而是要徹底質疑現有的評估方式,并創造新的評估體系,從而逼迫我們去發明超越現有「配方」的新方法。這很難,因為人類有慣性,幾乎不會去懷疑最基本的假設——你習以為常地接受它們,卻沒意識到它們只是「假設」,而不是「規律」。
舉個關于慣性的例子:假設你在 2021 年設計了一種基于人類考試的評估方式,這是一個極其大膽的想法。但三年后,這個方法就已經飽和了。你會怎么做?最可能的做法就是——設計一份更難的考試。或者,假設你解決了簡單的編程任務,那你會怎么做?很可能就是去找更難的編程任務來解,直到達到 IOI 金牌水平。
這種慣性很自然,但問題在于:AI 已經在國際象棋和圍棋上擊敗了世界冠軍,在 SAT 和律師資格考試中超過了大多數人類,甚至在 IOI 和 IMO 上拿下了金牌。可世界并沒有發生太大改變——至少從經濟和 GDP 的角度來看如此。
我稱之為效用問題,并認為這是 AI 最重要的問題。
也許我們很快就能解決效用問題,也許不會。但無論如何,這個問題的根源可能出奇地簡單:我們的評估方式在很多基本層面上與現實世界的設定并不一致。舉兩個例子:
- 在評估中,任務「應該」自動運行:通常智能體接收任務輸入,自主執行,然后得到一個獎勵。但現實中,智能體必須在任務過程中持續與人類互動——你不會只給客服發一段超長的文字,等上 10 分鐘,就指望對方給你一份完整的回復解決所有問題。通過質疑這種評估設定,人們發明了新的基準:要么把真實人類納入環節(如 Chatbot Arena),要么引入用戶模擬(如 tau-bench)。
![]()
- 評估「應該」是 i.i.d.(獨立同分布) 的。如果你有一個包含 500 個任務的測試集,就會獨立運行每個任務,最后取平均得到一個總體指標。可在現實中,我們解決問題往往是順序進行的,而不是并行。比如,一個 Google 的軟件工程師(SWE)在處理 google3 的問題時,隨著她對代碼庫越來越熟悉,效率會越來越高;但一個 SWE 智能體在同一個代碼庫中解決了很多問題,卻無法獲得這種熟悉度。我們顯然需要長期記憶的方法(事實上已經有一些了),但學術界既沒有合適的基準來證明其必要性,也缺乏質疑 i.i.d. 假設的勇氣——而 i.i.d. 一直以來是機器學習的基礎。
這些假設「一直以來」就是如此。在 AI 的上半場,基于這些假設去設計基準是沒問題的,因為智能水平還低,提升智能基本就等于提升效用。但現在,這套通用配方在這些假設下幾乎必定能奏效。所以,在下半場的新玩法是:
我們開發新的評估方式或任務,以衡量真實世界的效用。
我們用現有配方去解決它們,或在配方上加入新的組件,然后繼續循環。
這個游戲很難,因為它是陌生的。但它同樣令人興奮。上半場的玩家解決的是電子游戲和考試,下半場的玩家則有機會靠構建真正有用的智能產品,打造市值數十億甚至數萬億美元的公司。上半場充斥著方法和模型的漸進改進,而下半場會對它們進行一定的「篩選」。這套通用配方會輕易擊敗那些漸進式的方法,除非你能設計出新的假設,打破現有配方。那時,你才會做出真正改變游戲的研究。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.