網易首頁 > 網易號 > 正文申請入駐

姚順雨最新訪談：AI下半場，機會在這一點

2026-01-17 21:43:29　來源: 筆記俠

北京舉報

分享至

內容來源：2025年5月，語言即世界工作室，張小珺商業訪談錄對話姚順雨分享。

分享嘉賓：姚順雨，OpenAI前研究員，現任騰訊“CEO/總裁辦公室”首席AI科學家，AI Infra部及大語言模型部負責人。

高級筆記達人丨天朗明月

責編| 柒排版| 拾零

第 9392篇深度好文：12809字 | 30 分鐘閱讀

商業趨勢

筆記君說：

都說AGI（通用人工智能）是AI的終極目標，但通往它的道路似乎越來越擁擠：

一邊是大模型能力持續“溢出”；另一邊是AI創業公司陷入集體焦慮，跟風復刻ChatGPT的同質化產品找不到差異化。

這個困境背后，是AI行業一個核心矛盾的轉化：過去，我們焦慮的是“如何訓練出一個更強的模型”；現在，我們困惑的是“如何定義一個有價值的任務”，以真正釋放模型那被“低估”的驚人能力。

這標志著AI發展已悄然進入“下半場”。上半場的英雄是算法和算力，下半場的核心將是定義者與組織者——他們懂得如何設計互動、編排任務、構建環境，讓AI從“聰明的聊天者”成長為“可靠的行動者”。

OpenAI前研究員、AI Agent研究方向的核心探索者姚順雨，將這種行動者稱為“Language Agent（語言智能體）”。他指出，Agent的本質是通過語言實現推理，通過推理實現泛化，它正是通往AGI的必經形態。

那么，在這個關鍵轉折點上，創業者的機會到底在哪里？

或許，答案就隱藏在這句反共識的洞察里：“最大的機會，在于設計不同于ChatGPT的交互方式。”

今天，讓我們跟隨姚順雨的思考，從“上半場”到“下半場”，看懂AI Agent如何重劃競爭版圖，并在這場變革中，找到屬于每個組織與個體的價值支點。

本文根據對姚順雨的訪談進行整理，內容有所刪減，希望能給到你啟發。

一、核心洞察：

厘清時代主要矛盾，錨定AGI演進路徑

1.核心論斷：AI競賽進入“下半場”，勝負手轉移

2025年4月，在發布博文《The Second Half》（下半場）前，我受邀去斯坦福一門課做talk。

當時想，能講點什么？沒法講太技術，只能講更哲學的內容，就想到the second half這個話題。

① 矛盾轉化：從上半場依賴“模型與算力”到下半場依賴“基準任務與環境”

大家過去往往更關注模型訓練、方法設計和算力，但我覺得現在的bottleneck（瓶頸）已經轉移了：變成怎么去定義好的任務，怎么去定義好的環境。

現在主線正從“上半場”轉向“下半場”，我說的主線是基于“Language Agent”（語言智能體）。

② 本質揭示：Agent是構建AGI的必然形態與關鍵路徑

有人問：語言的智能體和傳統Agent的本質區別是什么？在回答這個問題前，我們先說下Agent。

第一，什么是Agent？

從自然語言處理的角度講，Agent是相對于一個只會生成文章或對話的系統而言。它能和外界交互，比如使用計算器、互聯網，或調用各種工具。

也就是說，不僅能生成內容，還能操作和互動。但從更廣義的AI背景看，Agent是一個非常古老的概念：

任何能進行自我決策、與環境交互，并試圖optimize reward（優化獎勵）的系統，都可以被稱為Agent。

從這個角度出發，你可以說AlphaGo是Agent，也可以說Waymo是Agent，甚至可以說機器人是Agent。

第二，語言賦予推理能力

為什么語言非常獨特？因為它是人在這個世界完成各種各樣事情的工具，像火或筆一樣。

2020年以前，大家沒把這個事想清楚，覺得語音、文字、圖像、視頻都是一些數據，沒什么區別。

但我覺得最大區別是：語言是人為了實現泛化而發明出來的工具，這一點比其他東西更本質。

這是我的個人觀點，我之所以這么說，是因為在此前，如果你在一個特定環境上訓練，模型只能在這個環境表現良好，不能輕易遷移到其他環境。

但現在，你在一個環境上訓練，模型可以適應更多不同環境。所以，我覺得它還是泛化的，它能夠推理。

所以，“Language Agent”（語言智能體）和傳統Agent的本質區別是可以推理。它們最大區別在于，語言模型提供了一個足夠強的先驗（prior），這個先驗讓你可以推理，而推理又可以在不同的環境間泛化。

第三，推理帶來泛化

具體怎么理解？舉個簡單的例子。

我做ReAct（ReAct:Synergizing Reasoning and Acting in Language Models，在語言模型中協同推理與行動，是一種讓大語言模型在與外部環境交互時，同時進行“推理”和“行動”的方法框架，簡單說就是瀏覽維基百科進行推理）一個很強的動機是：我做完colm（計算機語言處理）我的第一個工作之后，在思考一個問題：

為什么我可以一下子去玩一個新的游戲，但現在這些系統或AI需要幾十萬步甚至幾百萬步訓練，才能完成類似的事？

我發現，是因為我可以思考。我看到一個全新的環境會想：這個燈是黑的，那可能有危險，基于常識可能有怪獸；我現在最重要的是點亮燈。基于之前的上下文（Context），燈在我后面，那我應該先向后走。

如果沒有這樣的思考能力，而是直接從復雜語言去預測“我要往后走”，就很難——沒有推理做不到。

所以核心是推理能力，推理才能帶來泛化。

綜上所述，現在終于有可能出現一個單一模型能夠做所有任務。之前認為這不太可能，但現在是有可能的——你可以在很多不同任務上做強化學習，而且它能遷移到更多任務。

因此，Agent是構建AGI的必然形態與關鍵路徑。她的核心價值在于，通過語言賦予的推理能力，實現跨環境、跨任務的泛化（Generalization）。

③ 格局預判：未來世界將呈現“單極多元”格局

大多數人對AGI的想象就是一個模型，就像這個世界上最聰明的人，他擁有所有知識、能力，比我們都聰明，是最強智能體。

但我現在的感覺是：不同的交互方式下，有不同“好”的定義，有不同“強”的邊界。

OpenAI可能會成為一個類似Google的公司，成為新世界里非常重要的一環——但這并不代表，這個世界就會被這樣一個單極系統壟斷，或者是單方壓倒另一方。

最終的智能邊界，是由不同交互方式決定，而不是由一個single model（單一模型）決定。

未來，模型的能力可能會產生beyond ChatGPT（超越ChatGPT）的交互方式，變成Super App（超級應用），這里想象空間非常大。

比如，我想造一個朋友。這個朋友不需要數學、物理特別強，數學太強反而不自然。也許它的記憶也不一定特別好，會犯錯，有感情，也不是特別rational（理性）。但這也是有價值的。

當然，也可能會出現一個由Agent組成的社會。

總之，未來世界將呈現“單極多元”格局，底座是少數強大的基礎模型（單極），上層是圍繞不同交互方式構建的海量、多元Agent應用生態。

2.認知重置：為何這是根本性轉折？

首先，對研究者來說，科研范式重心已經發生轉移，即從算法改進（Method）已經轉變為任務環境設計（Task/Environment）。

大家過去往往更關注模型訓練、方法設計，但我覺得現在的bottleneck（瓶頸）已經轉移了：變成怎么去定義好的任務，怎么去定義好的環境。

我覺得，從語言出發，去定義Reasoning（推理）、定義Agent，我們終于有了一個非常general（通用）的方法，而且這個方法是可泛化的——我們實現了一個基點時刻。

其次，對創業者來說，競爭壁壘已經從“獲取或微調最新模型”，轉向“設計新交互”。

ChatGPT或所有做模型的公司，都在做類似ChatGPT的產品。ChatGPT的本質是：你是在像和人交互一樣去進行和數字世界的交互。

如果你做舊的interface，你利用這些新的模型，很容易被ChatGPT取代。如果你的交互方式很像ChatGPT，你有什么理由不被ChatGPT取代？如果你做的是新的交互方式，但模型沒有繼續變好、沒有新的溢出能力，也很難做。

所以，對于創業公司來說，最關鍵的是做新的交互方式設計。

二、方法論：

構建下一代AI系統的四大行動支柱

1.第一支柱：任務定義——新核心競爭力的鍛造場

當你有一個非常差的任務，你永遠不可能學到非常好的東西。

① 核心原則：任務和環境很重要

首先，你要找一個足夠有挑戰的任務，這個任務能做出本質的新方法。

當你想做Agent或語言Agent，實際上沒什么選擇，只能去做文字游戲。Zork是個非常經典的文字游戲。你在一個基于文字的世界里，有點像一個互動腳本，可以往下走、往上走，可以去各個房間，可以做各種各樣的事。

其次，是環境。

我們還拿Zork游戲來說。時間一長，你會發現，這個環境還是有很多缺陷，能學到的局限在這個環境，這個環境還是不夠大。

而且你如果用RL學這個環境，就會像用RL學傳統的視頻游戲，可以把這個游戲打通關，但對于其他任務沒有遷移作用。

也像下圍棋，你可以把圍棋下得特別好，但對世界上其他事情沒有價值。所以，我們需要一個更好的環境。

② 優秀任務：“三板斧”檢驗清單

如何設定一個優秀的任務？我分享下我的“三板斧”檢驗清單：

第一，結果導向：獎勵（Reward）基于最終結果，而非過程。

不同的人有不同的flavor（風格），我從很早就有一個偏好，我想定義一個基于結果的reward（獎勵），而不是基于過程的，而且這個reward應該是基于規則、可計算的，而不是來自人的偏好、模型的偏好，或者一些黑盒指標。

第二，白盒規則：獎勵機制清晰、可計算、避免基于人類主觀偏好。

我們做WebShop（網上購物）的時候，最困難的一點是，怎么定義reward。我覺得做任何RL（強化學習）任務最難的不是建環境，而是怎么設計reward。

我希望這個reward是不noisy（不噪聲大）的，是可解釋的，是白盒的（white-box），不是那種黑盒的東西（black-box）。

事實證明，這也是現在RL成功的關鍵。像math（數學）和coding（編程）這種任務，之所以能做出來，核心就是：

其一，Reward是基于結果，不是基于過程；

其二，Reward是白盒的、基于規則的，不是基于人的偏好或模型的偏好。

比如，一個數學題答案是3，它就是3——只要你得出的是3，就是對的；不是3，就是錯的。但如果你reward是基于過程，就會出現hacking（投機取巧）。

再比如SWE-bench這類工作：

其一，它是結果導向，而不是過程導向；

其二，它的reward是基于規則、白盒的，而不是來自人或模型的主觀偏好。

總之，我后面做的很多task，也都是用同樣的filter（篩選標準）。

第三，價值閉環：任務本身應對應真實世界中有價值的場景片段。

假設你去優化人的偏好、模型的偏好，也會出現hacking。比如你生成一段非常優美的代碼，但它并不解決實際問題。所以，任務本身應該是真實世界的場景片段。

③ 高級思維：環境是最外層記憶

某種程度上，我們說MCP（模型上下文協議）也是hack（利用）Context的一種方法，本質也是Memory。

從Agent角度看，這個世界有一個Memory Hierarchy（記憶層級）。Memory Hierarchy最外層永遠是環境。

有點像你考慮電腦，它有個Memory Hierarchy，從CPU緩存到內存再到硬盤，但最外層的Memory永遠是外部環境。比如我插一個U盤、拔一個U盤，或者把東西上傳到互聯網，或者做個音樂變成光盤。

前年冬天，我讀到馮諾依曼臨終前寫的一本書《The Computer and the Brain》（計算機與大腦），最讓我印象深刻的一句話是：Essentially,the Environment is always the most outer part of the Memory Hierarchy.（基本上，環境永遠是記憶層級中最外層的部分。）

這很哲學。

對于人，你有你的Memory Hierarchy，有Working Memory（工作記憶）、Long-Term Memory（長期記憶）在腦子里，但最外層是你的筆記本、Google Doc、Notion，這些是你最外層Memory Hierarchy的一部分。

2.第二支柱：交互創新——打破“擬人化”路徑依賴

① 核心機會：設計不同于ChatGPT的交互方式

現在很多應用型創業公司很擔心，大模型公司的模型能力溢出會把他們做的Agent吞掉。事實上，創業公司應該擔心的是模型有沒有溢出能力，這樣你就真的什么都做不了了。

有溢出能力是個非常好的事情，這幾乎意味著你有機會。

創業公司最大機會是：能設計不同的interface（交互方式），或者說人和數字世界交互的方式。

比如，你的Chatbot是像人一樣的東西——你和他聊天，給他布置任務，讓他幫你做Deep Research（深入研究）或者寫代碼——交互方式是像人，或者像助手一樣的交互方式。

如果你能用模型通用能力，創造不同的交互方式，就能創造巨大的機會。

所以，對于創業公司來說，創造不同的交互方式，并且模型不停有新的溢出能力，賦能到這些新的交互方式——兩者缺一不可，就能創造巨大的機會。

② 創新交互路徑：Copilot入侵式和Canvas原生式

說到交互方式的創新，人和人交互已經幾千年、幾萬年，甚至是幾百萬年，這是對人最自然的形態，肯定是最顯然的Super App。

由此，除了文字外，我們還可以有“像人一樣”的交互方式。具體分成以下兩種：

第一，侵入式（Copilot）：像Cursor一樣，嵌入集成開發環境（如IDE），成為增強人類能力的“副駕駛”。

Cursor創造了一種新的交互，準確說它不是像人一樣的交互，而是像Copilot（副駕駛）一樣，屬于侵入式。雖然它是IDE（集成開發環境），但在你寫代碼的時候，它能給你提示或編輯。沒有人和人是這樣交互的，這是它的價值所在。

第二，原生式（Canvas）：像Manus或理想中的“生成式畫布”，創造全新的、為Agent協作而生的數字工作空間。

Canvas是一個好的嘗試，可以基于現在的任務，在線生成最符合情境、個性和任務的前端。這是值得探索的方向，但也很難。

③ 競爭動態：世界是“相互抄”的

關于競爭，傳統上大家認為發生的事情是：大廠先做出來一個東西，創業公司就可以開始抄。比如做出ChatGPT，我可以去抄一下ChatGPT，做一個類似的事情。

但現在，似乎反過來也可以成立。

小廠可以先做一個事情，它創造出來一個交互的創新或者產品的創新，做模型的公司也可以去借鑒或者應用，這點還是挺有意思。

很多時候大家會說，模型做得越來越好了，是給創業公司作嫁衣了。因為你創造很好的模型，如果沒有自己運用特別好，這些創業公司就用好了。

但也可以反過來，如果你創造一個非常好的交互，但沒有能力把模型或底層能力做特別好，大公司也可以借鑒你的交互，再加上它的模型能力，做得也特別好。

這世界是個相互抄的關系，而不是一個單向抄的關系。

3.第三支柱：能力演進——從“工具”到“同仁”的階梯

① 大模型能力分級（L1-L5）解讀

OpenAI提出的大模型能力分級從Level 1到Level 5，很多人都很熟悉了：

Level 1是聊天機器人（Chatbot）

Level 2是推理者（Reasoner）

Level 3是智能體（Agent）

Level 4是創新者（Innovator）

Level 5是組織者（Organizer）

不知道你有沒有這個疑問：為什么是先有聊天機器人、推理者，然后才是Agent？要回答這個問題，可以分成以下兩個部分：

第一，從L1到L2，再到L3，現在已完成，它們是能力遞進關系，核心是讓模型從“聊”到“想”再到“干”。

它們的邏輯是，首先你要有語言的先驗知識，基于語言的先驗知識，最早能做出來的應用是Chatbot（L1）。

接下來，基于語言先驗，你需要具備推理能力，這是Reasoner（L2）。

當你既有語言知識，又具備推理能力，才可能進一步做各種Agent（L3），尤其是能泛化的Agent。

也就是說，Agent建立在Chatbot和Reasoner能力之上。

第二，L4-Innovator（創新者）與L5-Organizer（組織者）正在進行中，現在是正交探索——個體創造與群體協作的雙軌發展

很明顯，今天Agent發展最關鍵的兩個方向：

其一，讓它擁有自己的reward（獎勵），能自己探索；

其二，是Multi-Agent（多智能體），讓它們之間能形成組織結構。

這兩個方向，我覺得是正交，它們可以并行發展。誰是Level 4，誰是Level 5，我不確定，但這兩個事情是顯然的下一步。

首先，當你作為一個Innovator：

其一，你需要一個Long-Term Memory（長期記憶）。比如，我是Wiles（安德魯·懷爾斯，數學家），我研究費馬大定理，可能花了20年。我就需要一個長期記憶。

其二，我有這個長期記憶還不夠，還需要有內在的reward。因為在你真正證明那件事之前，沒有任何外部獎勵（Extrinsic Reward）——你沒有獲獎，沒有做成任何“可交付”的事情，也沒人給你feedback（反饋）。你需要自己給自己反饋。

這是所有Innovator最重要的。無論你是藝術家、科學家、文學家，還是任何類型的創作者，對吧？

其次，作為一個Organization（組織）：

其一，你需要解決的問題是：Agent和Agent之間怎么協作？怎么讓Multi-Agent（多智能體）協作scale（規模化）？

現在的Agent就像一個普通大學生，做一個數字化的實習生。或者說，AGI就是一個普通一本大學生在電腦上能做所有事情的一個能力。

其二，搞清楚人類社會的邊界是什么？當然這覆蓋80%或90%的人。

但我們最崇拜的人，是哪兩種？一種是創造新東西，在認知或審美上開創新領域的人：愛因斯坦、高更、梵高、貝多芬；另一種是能創造新組織、偉大組織的人：伊隆·馬斯克、喬布斯。

很自然，個體的創造力和組織的協作能力——都非常重要。

② 下個階段需突破3個關鍵點

第一，是Utility（效用）的問題

為什么我們現在的模型，推理很強，考試很強，玩游戲很強；但它還沒創造出足夠經濟價值？——根本原因是：它沒有這些Context（上下文）。

人類社會比較tricky（復雜微妙）的一點是：當然，我們確實寫下了很多東西——我們用文字、Google Doc、Notion，記錄了很多東西，但很多Context永遠只存在人的大腦，是通過一個分布式的系統來維護。

比如，你老板跟你之間的行為習慣，或者一些很難用語言總結下來的信息。這些Context存在于人的腦海里。人沒辦法把這些東西全部寫下來。

這就導致——人是不可或缺的。

只有人有這樣的能力：進入一個環境，獲得這個環境里的Context。

如果這個問題解決了，Utility問題就可以在很大程度被解決。

第二，是Intrinsic（內生獎勵問題。

很多創新者之所以能在沒有外在激勵的情況下堅持，是因為他有內在的價值觀或激勵機制。

這個問題，AI和神經科學已經研究多年，嬰兒是最典型的例子。

當他們是嬰兒的時候，他們擁有基于好奇心或自我激勵的機制。比如，很多嬰兒會反復玩一個玩具，用嘴去咬一個東西，或者做一些看似“無意義”的動作。

你說他獲得了什么reward嗎？他沒有升職加薪，沒有拿到錢，沒有任何外在激勵——他只是好奇。他的動機是：“如果我做這個事，我會有什么樣的感覺？”如果這個感覺是新的、不同的，他就可以從中學習。

也就是說，好奇心、掌控感、安全感，是一些內在動機。正是這些東西驅動了人去做某些事。否則，很難從純粹理性角度解釋：他為什么要做？

但有意思的是，當人長大之后，會發生重要變化：

當你是嬰兒，你對世界的理解，是基于視覺、觸覺，基于物理世界的。你學習的是，怎么把觸覺、聽覺、視覺，以及對骨骼系統的控制結合起來；

當你長大之后，你對世界的理解方式變了，變成一個基于語言、推理、文字系統的理解。你開始思考：這個世界是怎么運作的？我怎么才能開一個公司？怎么才能升職？怎么才能做成一些事情？你玩的，不再是一個物理游戲，而是一個文字游戲。

在這個文字游戲里，當然也存在內在激勵，但又好像和嬰兒時期的好奇驅動不太一樣。

這是AI面臨的挑戰：傳統AI，比如玩迷宮、做機器人仿真，它可以定義一些基于世界模型或者模仿嬰兒階段好奇心的內在激勵。

但當AI在玩的是一個語言游戲，要怎么定義內在激勵？——這個問題就變得不太一樣了。

第三，是多智能體之間的協作問題。

基于基礎模型往上長，Agent生態樹在我的腦海中，呈現的是這樣一個結構：

首先，一個方向是：fundamental research（基礎研究）怎么演變？或者說，方法怎么演變？

其次，另一個方向是：應用，或者它的交互方式（interaction）有怎樣的演變？

這兩個方向之間有關聯，但它們需要不同的人去探索不同的方向。

比如Cursor并沒有在fundamental research（基礎研究）上做什么創新，但做了交互方式上的創新。

在fundamental research上，比較重要的有三方面：

一個是Memory（記憶）；

一個是Intrinsic Reward（內生獎勵機制）；

還有一個是Multi-Agent（多智能體系統）。

這也跟OpenAI提出的Innovator（L4、創新者）和Organization（L5、組織者）框架很像，它們屬于正交，可以并行發展。

所以，我們需要解決多智能體之間的協作問題。

4.第四支柱：系統思維——擁抱“簡單且通用”的設計哲學

① 研究心法：追求簡單而通用

我一直有這個非共識：我想要去做Agent，一直想做簡單且通用的東西，我不想做一個很復雜、但只能在一個領域奏效的東西。

這個方向在傳統意義上很難被接受，大家習慣了做AI的方式：把問題不停細分，做很多細分方法，可能并沒有多少人想做一個簡單且通用的系統，或者認為這是可能的——尤其20年之內。

現在我還是覺得，我自己最喜歡的工作是ReAct。之后，基于這兩個方向：一方面做更多方法（method），一方面做更多任務（task）。

但總體來說，我的研究有兩個核心：一是怎么去做一些有價值、和現實世界更相關的任務和環境；二是怎么去做一些簡單、但又通用的方法。

所以，Agent最吸引我的就是它的可泛化性（generalizable），即絕大多數事，你都可以用語言表達。

我當時隱隱約約有個直覺：你如果真想去實現AGI（通用人工智能）——那時還沒人提“AGI”這個詞，但如果你真的想做一個非常通用的系統（general system），你就得去構建一個智能體。

② 創新策源地：從垂直細分到通用思維的AI范式回歸

回頭看AI歷史，很久很久以前，從Herbert Simon（赫伯特·西蒙）在1960年代開始，大家最早的想法就是要做一個Agent。

當時大家的野心很大——想用一個夏天搞定視覺，再用另一個夏天搞定語言，拼在一起，去做一個Agent，他就應該比人還聰明，但這事太難了。

慢慢地，AI變得非常碎片化，大家研究的問題越來越小。比如，有的人研究視覺一小部分問題，有的人研究語言某個子任務，越來越細分，越來越垂直。

但到2015年之后，開始出現Scaling Law（擴展規律），包括很多研究突破，歷史上一些關鍵時刻也在提示我們：

也許我們應該從這種“垂直式思維（vertical thinking）”重新回到更“通用式思維（general thinking）”，再去嘗試構建真正通用的系統。

③ 個人品質：以雜學積淀塑造通用性思維與跨界視野

在我成長路上，對我啟發大的是看書。我是一個喜歡看雜書的人。什么書都看，什么電影都看，什么地方都想去。

我從小就是一個比較general（通用）的人——我想試圖變得很通用，試圖了解很多不同的學科，做很多不同的事情。

但后來我發現，一個人即使再聰明、再有精力，他能理解的知識或能做的事情，也只是人類社會積累的知識的很小一部分。更好的是，你去創造一個比你更通用、更general的事情。

我好像一直對于通用性，有一種執念或追求。通用性意味著什么？我不知道，但我從小就是想學習很多不同學科，都很有意思。

我在姚班很多同學，他們是那種很deep（深度的）、很focus（專注的）同學——我去做競賽，我就把這個事做到極致，不停刷題，做到世界金牌。

但我好像不是那種性格，我是那種——我會看很多數學，也會看很多歷史，會看各種各樣亂七八糟的東西。

三、實戰推演：

在轉折點上如何決策與行動？

1.給創業者的行動指南：在夾縫中定義未來

① 第一步：找到一個真正有價值的場景

Agent創業，當前主要瓶頸是算力。Agent的token用量驚人，單個用戶消耗可能是Chatbot的500到1000倍，疊加幾百萬用戶后成本極高。

這種情況下，Agent該如何擴展？我覺得最重要的點是——你得先找到一個好的應用。

事實上，Cost（成本）本身不是最大問題，問題是你的成本并不能證明你的performance（性能）或value（價值）是合理的。

如果這是一個很有價值的事，我花500美元，但可以賺1000美元——根本不是問題。這不是technical bottleneck（技術瓶頸），而是product-market fit（產品與市場契合度）的問題。

所以，現在最關鍵的，是要找到真正有價值的應用。

② 壁壘構建：短期靠交互創新，長期靠Context（用戶上下文)

首先，短期內要靠交互創新。

比如，Manus，交互創新想象空間是很高的。

它的一個價值是給人非常general（通用）的感覺，你可以有每個階段的Killer App（殺手級應用），比如它做PPT特別好，做Deep Research特別好，或者做其他東西特別好。

iPhone或iPad是非常通用的產品形態，但它一開始，都有一些Killer App支持它有momentum（增長動能）。包括ChatGPT，包括微信，很多偉大產品都這樣。

你有一個足夠通用、簡單，或第一性的交互方式，它有很多想象空間。但你去維護它，或者設計路徑的時候，你能有各種各樣的應用，使它不停地增長。

其次，長期靠積累獨特的用戶上下文（Context）和環境。

現在對于ChatGPT比較重要的是Memory（記憶），這是可能產生壁壘的地方。

如果沒有Memory，大家拼誰的模型更強。但有了Memory，拼的不僅是誰的模型更強，而是用戶用哪個更多、哪個粘性更強。

我積累了更多Context，它能給我更好體驗，我就會有粘性——這或許是研究優勢轉化成商業優勢的方式。

③ 警惕“數據飛輪”幻覺

大多數公司還沒有形成數據飛輪,他們依賴模型變好，利用模型變好的溢出能力。

如果你要有數據飛輪，首先你要能自己去訓模型，并且能通過交互有很好的reward，使你能把好的數據和不好的數據分開。

比較成功的是Midjourney（用戶偏好直接驅動模型優化），有非常清晰的reward——人更喜歡哪張圖，這個reward和應用是對齊的，reward做得更好，公司就更成功，模型也更好——一切都對齊。

有了這種情況，才能自己訓練模型，做數據飛輪。

這個過程必須比較非主線。因為如果很主線，我也可以通過Pre-Training或RL提升能力，靠泛化或其他方式。

總的來說，只有像Midjourney這樣，獎勵機制與產品價值完全對齊的閉環，才能形成飛輪,大部分公司目前還沒有形成飛輪。

2.給企業決策者的戰略研判：防守與進攻

① CEO的第一課：以技術認知驅動戰略決策與價值創造

假若我是一個CEO，做的第一件事就是親自深度學習技術本質，做出不被誤導的戰略決策。

首先，我肯定會學習，我會想弄清楚這個事情到底是什么。

如果你作為CEO不懂這個事情，所有事情會變得很難。很多時候，一個公司的bottleneck（瓶頸）就在于，CEO對這個事理解不夠。如果你不理解，去招一些很好的人、做一些事情，你很可能被他們忽悠。

其次，要從創造新的價值來思考問題。

畢竟你不是技術專家，而是一個CEO，你有一些場景、一些資源、一些優勢。從第一性原理看，一個新的技術產生了，你要思考的是，怎么用這些新技術結合你現在的資源去創造新的價值。

此外，你可以嘗試做一個和當前業務完全不一樣、但價值非常大的事情，比如ChatGPT，但對大多數公司來說，即使很有錢、很強，也不一定make sense（合理）。

② 大公司策略：依托護城河優勢防御顛覆性交互創新

站在公司的角度看，大公司的戰略其實很簡單，依托現有用戶基礎、數據資源、場景優勢以及Context（護城河），穩健融合Agent能力，重點防御顛覆性交互方式帶來的創新沖擊。

為什么要重點防御？原因是全新的交互方式會改變我們的世界。就像一開始互聯網誕生，最早Super App只是把郵件升級成Email，Amazon已經算非常創新的東西了。現在就像那個階段——我們的想象力仍被以往的交互方式所限制，還有許多尚未誕生的交互方式。

但肯定會有很多不同的交互方式，訓練完全不同的模型，創造出不同的系統。

當然，這類東西很難和ChatGPT比強弱，它們是不同應用，有不同價值。比如，微信做Agent。

如果我是微信的一號，對做不做Agent？我可能會不急，先觀望觀望。

我好像沒有理由要急。我會觀察，我會學習AI，會觀察有沒有什么新的交互方式很有意思。但我不會急著去做很多事——我有易守難攻的地方，為什么要急著進攻呢？

比較危險的是一個顛覆性的創新。

真正的危險，不是說一個類似于微信的東西打敗了微信，而是一個很不一樣的東西打敗了微信。

就像微信打敗了QQ，當時擔心的并不是一個類似QQ的東西打敗了QQ，而是一個很不一樣的產品去打敗這個東西。

我們需要對顛覆性創新有所警惕。

③ 投資與布局邏輯：聚焦特定Context與數字環境構建的平臺

作為投資者，如何做好allocate（分配）？這是個很好的問題，實際上取決于你有多少精力，或者有多少資源分配顆粒度。

當然現在OpenAI、Anthropic，這些模型層公司，大概率會有更大價值。

還有一類很有價值的，是能積累User Context（用戶上下文），或者能構建特殊Environment（環境）的公司。最終如果AI或AGI是一個系統，它需要有Intelligence（智能），需要有Environment，還需要有User Context，或者對用戶的理解。

現在有很多User Data（用戶數據）或User Context的公司，有點像發明車之前的煤炭、煤礦，或者像發明汽車之前的石油公司。

從這個角度，微信或大平臺，還是一個易守難攻的好平臺，它積攢大量的Context。

如果Intelligence是一個可以逐漸民主化、逐漸變得便宜、逐漸普及，擁有這樣的平臺，擁有這樣的Environment，擁有這樣的Context，可能會是一個很強的壁壘，它可能還是一個很好的投資。

3.給研究者與個人的啟示：在范式轉換中定位

① 職業選擇：在時代機遇中追尋高上限價值

我的成長路徑其實挺按部就班的，也沒有跳級，沒有做什么很surprising（讓人驚訝）的事情。

但我對一個東西的價值，或者taste（品味），有自己的看法。大家往往會傾向于做一個確定性比較高的事情，包括做研究、做公司。

但我覺得恰好是這個時代，你去做上限更高的事情是更好的，因為現在有一個巨大的機會。

如果沒有這樣一個巨大的機會，最佳路徑可能是去做incremental（漸進式）、確定性強的事情，一步一步地積累，但恰好有一個上限非常高的事情。

如果你敢想，或者你膽子特別大，或者你想象力很豐富，就會有好事發生。

② 思維變革：從算法改進轉向任務定義

現在，AI科研范式重心已經從上半場轉移到了下半場，即從算法改進（Method）已經轉變為任務環境設計（Task/Environment）。

這帶來一個本質變化：以前我面對很多怪獸，需要造出各種不同武器去打它們；現在我有了一把通用武器，比如機關槍，我不需要再為每個怪獸單獨造武器。接下來要思考的問題就變成：我該朝哪個方向開槍？

現在方法的問題已基本解決，真正重要的是——我們要用這個通用方法，從“我能解決什么問題”轉變為“我應該定義什么問題”。

總之，我們要成為一名“問題設計師”和“任務架構師”。

③ 終極動力：為世界創造渴望，過程中享受有趣

關于驅動力，我用一個非常俗的話說：希望你對這個世界創造一些不同——探索新的、根本性的研究，是一種創造不同的方式；創造一種完全不同的新的產品形態，也是一種創造不同的方式。

如果我現在去做一家類似xAI或Thinking Machine的公司，或者做一個類似Chatbot或Assistant的產品，還是可能賺很多錢，商業上很成功；但如果我做了一個形態很不一樣的東西，失敗了，我起碼探索了不一樣東西。

我導師令我印象最深的是這樣一句話，學術圈經常發生這樣的事——你有一個想法，然后別人做了，你會很煩。他說：If someone else can do it,then it's okay to let them do it（如果別人能做，那就讓他們去做吧）。

所以，我覺得真正的價值在于對這個社會產生價值。

從人類全局的角度，如果這個事情很多人能做，別人做可能是不是也沒有什么區別？對這個社會，或者對整體來說，似乎沒有什么變化。

或者，你也可以去做一些不一樣的探索。我覺得，最終你要對這個社會產生價值。

但這個時代很幸運的一點：這個技術非常通用，這個技術非常偉大，有足夠多探索的空間。

另一點是，我想讓生活更有趣，更有意思，更快樂，就去做一些自己喜歡的事情。

這很難用語言解釋，就是一個taste（品味）或preference（偏好）的問題。

參考資料：

1.2025年9月11日，《獨家對話OpenAI姚順雨：生成新世界的系統》，語言即世界language is world

*文章為作者獨立觀點，不代表筆記俠立場。

好文閱讀推薦：

“子彈筆記”是筆記俠的矩陣公眾號，聚焦職場效率追求、人際關系與高潛成長者，幫你3分鐘吃透核心觀點和方法論。歡迎關注～

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.