![]()
出品|虎嗅科技組
作者|宋思杭
編輯|苗正卿
頭圖|AGI-Next前沿峰會現場
2026年1月10日下午,中關村國際創新中心,一場名為AGI-Next前沿峰會的閉門會議正在進行。
就在兩天前,港交所迎來了“全球大模型第一股”。而此刻,這家公司的核心人物之一,清華大學教授、智譜創始人兼首席科學家唐杰,已經出現在北京的會場上。
這是智譜上市后的第三天。團隊連夜從香港返回北京,幾乎沒有留出任何“慶祝窗口期”。
這場由清華大學基礎模型北京市重點實驗室發起的會議,聚集了當下中國AI學術與產業最核心的一批人物:唐杰、月之暗面創始人兼CEO楊植麟、阿里Qwen技術負責人林俊旸、騰訊首席AI科學家姚順雨。
這場AGI學術會議沒有“應用層”的喧鬧,討論全部指向一個更底層的問題:下一代通用人工智能,往哪走。
如果說在過去兩年,Scaling和Token是AGI領域中最經常被提及的兩個關鍵詞,那么到今天,一些變量已經開始發生。
首先是 Scaling。在大模型飛速演進的兩三年里,無論參數規模、算法路徑如何變化,“繼續Scaling”幾乎是所有討論的默認前提。但事實上,學術界對Scaling的質疑從未真正消失,只是在最近半年變得更加集中。
唐杰并沒有否認繼續擴大模型規模的價值,但他的表述已經明顯從“能不能繼續Scaling”,轉向了“是否值得繼續這樣Scaling”。
他直言,今天的問題不再是算力有沒有,而是“如果繼續投入,效率已經變成瓶頸”。在他看來,當算力、數據和成本的投入不斷放大,但智能提升的增量卻持續變小,“Scaling也許是一個比較偷懶的方式”。
而當范式討論真正落到技術細節上,Token被反復推到臺前。
過去一年,作為大模型“六小龍”之一的月之暗面,幾乎將全部精力投入到如何用更少的Token壓低Loss上。在K2模型中,他們嘗試以線性注意力等新架構,盡可能提升Token efficiency。背后的邏輯并不復雜——在預訓練階段,Token本身是一個常量,一旦Token被“吃完”,模型的智能上限也隨之被鎖死。
也正因為如此,楊植麟在報告中反復強調,Token efficiency已經不只是“訓練效率”的問題,而是直接關系到模型還能走多遠。尤其是在Agent與長上下文任務逐漸成為主流之后,用更少的Token完成更復雜的任務,正在成為一條繞不開的技術路徑。
最后,當模型能力與成本約束同時擺在桌面上,應用方向的分化也變得不可避免。
姚順雨判斷,“toC和toB,正在走向兩套完全不同的邏輯。”他指出,在消費端,“模型變得更強,并不一定能被大多數用戶感知”,很多時候只是搜索體驗的增強;
但在toB場景里,“智能越高,生產力越高,值錢的也越多”,而且這種差距會隨著模型能力提升被不斷放大。正因為如此,強模型和“稍微弱一點的模型”之間,在企業端的分化會越來越明顯,這也在倒逼模型公司重新選擇自己的主戰場。
這場會議并沒有給出明確答案,但一些共識已經逐漸成形。
在多位一線研究者的討論中,三條趨勢開始清晰浮現:Scaling之后的新一代范式正在被迫成為新命題;Token效率正在上升為國內大模型競爭的決定性因素;中美大模型正走在不同的演進路徑。
這三條趨勢,也是當下中國大模型產業無法回避的現實問題。
虎嗅注:以下三項趨勢為筆者基于唐杰、楊植麟的發言及圓桌討論內容所作的綜合分析
趨勢一:Scaling 之外,新的范式正在成為新命題
在 AGI-Next 前沿峰會上,關于 Scaling 的討論,已經明顯不再停留在“還要不要繼續做大模型”這一層面,而是被不斷推向一個更根本的問題:如果繼續投入,是否還值得?
唐杰并沒有回避 Scaling 仍然有效這一事實。他坦言,只要繼續擴大算力、數據與參數規模,模型能力依然會提升。但他隨即給出了一個更現實的判斷:真正的瓶頸,已經不在于算力有沒有,而在于效率是否還劃算。
在這種語境下,唐杰將單純依賴 Scaling 形容為“一種相對偷懶的方式”。類似的質疑并非只出現在國內。OpenAI 聯合創始人 Ilya Sutskever 近年來也多次指出,當高質量數據逐漸耗盡、訓練成本持續抬升,單純通過堆疊規模所獲得的智能增量正在迅速收窄,下一階段的突破,無法再僅靠“把模型做得更大”來實現。
這并非對過去路徑的否定,而是一種階段性的反思。過去幾年,大模型能力的躍遷,確實高度依賴參數規模與數據量的線性擴張;但當這一方法逐漸逼近邊界,繼續沿著同一方向前進,所能換取的,更多是成本的指數級增長,而非智能的同等躍遷。
正是在這樣的背景下,唐杰開始反復強調一個關鍵詞:效率。無論是模型架構、訓練策略,還是強化學習與 Agent 環境的引入,核心目標都在于,用更少的投入,換取更高質量的智能增量。在他的表述中,Scaling 不再是目標本身,而只是手段之一;真正需要被重新定義的,是智能是如何增長的。
而這種對“下一代范式”的焦慮,其實在硅谷早就傳來了。
在圓桌討論中,姚順雨將這一變化放進了更大的全球語境中。如果回看過去十年,OpenAI 實際上已經先后推動了兩個重要范式:第一個是以預訓練為核心的通用模型范式,第二個是以對齊、推理和強化學習為代表的能力增強范式。
姚順雨表示,當下,越來越多的研究者開始將目光投向一個尚未被清晰定義的新范式,這個新范式的前提就是自主學習。
“在硅谷的大街小巷、咖啡館里,大家都在談自主學習。”姚順雨形容道。但他隨即指出,這個概念本身并不是一個統一的方法論,而更像是一組尚未被充分展開的問題集合。真正的瓶頸,并不在于有沒有新的算法技巧,而在于:數據從哪里來,任務如何定義。
在他的觀察中,自主學習其實已經以非常“溫和”的方式發生著。ChatGPT 正在不斷擬合人類的聊天風格與表達習慣;Claude Code 已經可以為自己寫出相當比例的代碼,在幫助自身系統變得更好。但這些變化之所以尚未顯得“石破天驚”,并不是因為方向錯誤,而是受限于一個現實條件——缺乏足夠強的預訓練能力與通用底座。
至于信號何時會真正出現,姚順雨給出了一個相對克制的判斷:2026 年,可能會看到一些跡象,比如 Cursor 這類工具所展現出的變化。但他認為,更大的問題甚至不在技術本身,而在于想象力——如果真正意義上的自主學習出現,它會長成什么樣?它的效果,應該如何被驗證?
當被問及“下一個范式最有可能出現在哪家公司”時,姚順雨給出的答案依然是 OpenAI。盡管他也同時指出,其商業化進程正在不可避免地影響OpenAI的創新基因。
這樣的制衡關系,本身就是新范式在全球范圍內都還遲遲未能清晰落地的重要原因之一。
林俊旸則從另一個角度補充道:用 AI 訓 AI在技術上很快就可以實現,但真正困難的,是讓系統持續理解用戶本身。在他看來,如果自主學習只是停留在參數更新或模型自舉層面,意義有限;真正的挑戰,在于讓模型在長期交互中形成穩定、可演進的認知結構。
這些討論最終指向一個尚未被回答的問題:當 Scaling 的邊際收益開始下降,自主學習仍然停留在早期信號階段,“新的范式究竟會在哪里率先成形?”
或者說,中國的大模型公司,是否有機會參與、甚至引領這一輪范式轉移?
趨勢二:Token效率愈加成為國內大模型能力的決定性因素
如果說在 Scaling 逐漸逼近邊界之后,行業開始重新尋找“下一步往哪走”的答案,那么在這場會議上,一個更現實、也更具約束力的變量,被反復擺到了臺前:Token 效率。
“Token efficiency”幾乎是在楊植麟演講中最常被提及的概念。
他從第一性原理出發,重新拆解了大模型能力增長的路徑。在他看來,從 2019 年至今,大模型始終遵循同一條基本邏輯:通過 Scaling Law,將更多算力、數據和參數轉化為更低的 Loss、更高的智能水平。但這一邏輯的隱含前提是,Token 可以被無限消耗。
而現實并非如此。
當預訓練 Token 被吃完,模型所能達到的智能上限,也就被提前鎖死了。這意味著,問題不再只是“用多少 Token”,而是每一個 Token 能換來多少有效智能。在他的表述中,Token efficiency 已經不只是訓練效率的問題,而是直接決定模型還能走多遠的上限變量。
為了說明這一點,他引入了一個常被忽略的視角:在不同 Context 長度下,模型對 Token 的利用效率并不相同。在短上下文場景中,不同架構之間的差異并不明顯;但當 Context 拉長到上千、上萬甚至數十萬 Token 時,Token 的位置損耗(position loss)開始顯著拉開差距。也正是在這里,Token efficiency 開始直接決定模型在復雜推理與 Agent 任務中的潛力。
正因如此,過去一年,月之暗面幾乎將所有核心工作都壓在token效率上,即用更少的 Token,做到更低的 Loss。在 K2 模型中,他們嘗試引入新的優化器(muon優化器)與架構設計(linear attention),通過提升 Token efficiency,使模型在“用一半數據達到相同效果”的意義上,獲得等價于一次 Scaling 的收益。
楊植麟將這種效果直接類比為:“在Scaling的尺度下,用更少的參數,就能得到更好的Scaling效果”
但他隨即強調,這里的 efficiency,并不僅僅是“快”或“省”,而是智能上限本身。在 Agent 場景中,模型的推理和強化學習,本質上是一個搜索過程;如果 Token 利用率不高,搜索空間就會迅速膨脹,模型需要枚舉大量無意義的組合,才能逼近正確答案。相反,更高的 Token efficiency,意味著更強的先驗,可以在有限 Token 內完成更復雜的任務。
這也是為什么,在他的判斷中,Token efficiency 與長上下文能力并不是兩個獨立問題,而是需要被同時優化的乘積變量——前者決定單位 Token 的價值,后者決定模型能否承擔真實世界中的長程任務。兩者疊加,才是 Agent 能力真正放大的基礎。
當 Scaling 不再是“無腦堆資源”的選擇,Token 效率便從工程細節,上升為國內大模型競爭中的結構性約束。誰能在有限算力與數據條件下,更高效地“消耗 Token”,誰就更有可能在下一階段的模型競爭中占據主動。
而這一變化,也正在悄然重塑國內大模型的技術路線選擇。
趨勢三:中美大模型正在走向不同的演進路徑
在唐杰、姚順雨、林俊旸等學者的討論中,一個反復被提及的問題是:中美大模型之間的差距,究竟體現在哪里?
姚順雨給出的判斷,并不是單一維度的“能力高低”,而是指向兩條正在逐漸分叉的演進路徑。
在他看來,美國的大模型發展,正在明顯向生產力與企業級場景集中,尤其是在 Coding 與 Agent 方向上,模型能力幾乎直接重塑了工作方式本身。比如工程師不再寫代碼,而是通過自然語言與系統協作。在這種語境下,模型能力與個體生產力被強綁定,模型是否“足夠強”,會直接影響工作結果本身。
也正是在這種背景下,美國市場對模型能力的價格容忍度明顯更高。姚順雨在討論中提到,許多用戶更愿意為成功率更高、不確定性更低的模型支付溢價。模型能力本身,在美國市場中更容易被直接視為一種“生產資料”。
相比之下,中國的大模型公司所面對的現實環境則明顯不同。一方面,國內企業級市場對成本高度敏感,模型能力的邊際提升,并不總能順暢轉化為價格溢價;另一方面,大量 toB 場景本身仍高度碎片化,對模型的需求更多集中在穩定性、可控性與交付效率上,而非單點的“最強智能”。
這使得模型在中國市場中,更像是一種被嵌入既有系統的基礎能力,而非可以獨立定價的生產力主體。
這種差異,并不僅體現在市場層面,也被進一步追溯到更底層的 Lab 文化上。
在姚順雨的觀察中,美國的大模型公司與研究機構,往往長期圍繞“前沿問題”運轉。研究團隊被鼓勵在較長周期內投入到高風險、高不確定性的方向中,即便短期內看不到明確的產品回報。這種文化,使得“把模型能力推到極限”本身,就具備持續獲得資源投入的正當性。
而在中國,大模型研發環境則更強調效率與反饋周期。或者用他的原話來說,“中國(的Lab)還是更喜歡做安全的事情。”
研究團隊往往需要在更短時間內回應明確的業務目標,模型能力的演進也更容易被拉回到“是否能落地、是否能規模化”的現實約束之中。這并不意味著技術投入不足,而是 Lab 與產業之間的邊界更為緊密,研究方向更容易受到應用場景的牽引。
此外,姚順雨還補充道,“中國對于刷榜或者數字更看重一些;而美國則并沒有那么看重,他們在意的有兩點,第一,什么是正確的事情;第二,什么是你自己能體驗出好或者不好的。”
這種 Lab 文化與市場結構的疊加效應,最終放大了中美在模型演進路徑上的分化:在美國,更強的模型能力本身,就足以支撐持續投入與溢價定價;而在中國,模型能力往往需要先證明自身的可用性,才能獲得下一步資源配置。這也在某種程度上解釋了,為何中美大模型的差距,越來越少被簡單理解為“誰領先誰落后”,而更像是兩種現實條件下,被迫走出的不同路線。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4825356.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.