![]()
大模型2.0時代,屬于“制藥廠 ”
文/林書
編輯/劉宇翔
Anthropic終于忍不住“龍蝦打洞”了。
美國時間4月4日15:00(北京時間4月5日03:00),Anthropic旗下Claude Code負責人Boris Cherny宣布Claude訂閱(Pro/Max)不再覆蓋OpenClaw等第三方平臺,用戶只能使用額外套餐或Claude API密鑰使用這些工具。
這意味著企業、初創團隊、開發者都無法再利用OpenClaw去近乎無限量套利Claude訂閱服務,被迫轉入更為昂貴的按量計費模式。
簡而言之就是,基于人類使用習慣模式的Anthropic 的訂閱服務,被OpenClaw 變成了7×24 小時自動運行的算力消耗,給系統帶來了“disproportionate stress”(不成比例的壓力),收入與成本倒掛。Anthropic的商業模式被挖得千瘡百孔,不堪重負。
此外,Anthropic還有一點不能忍的是,OpenClaw 遲早會將Anthropic“供應商化”。
OpenClaw 最新版更新支持多模型自動/手動切換,從之前的Claude 單點依賴(此前 60% 會話跑在Claude 上)轉向“模型池”(model pool)架構,用戶可以在 Claude、GPT-5.4、Gemini以及中國國產模型(如智譜、MiniMax)之間自由切換,不再鎖定單一供應商。
表面上看,這次更新是對Anthropic 和Google 的封禁的回應,通過多模型冗余確保服務連續性,避免過于依賴單一模型,受制于模型廠商的政策變動。但其實,即使沒有這次Anthropic的封禁,加入Open AI后,OpenClaw 創始人Peter Steinberger 也遲早會采取“模型池”模式。
因為一旦習慣使用OpenClaw后,用戶就在不知不覺中不會再在意用的是哪家的模型,更在意結果,OpenClaw 成了AI超級入口,而模型廠商則成了OpenClaw 背后的“供應商”。
顯然,這對于有著長遠目標的Anthropic 來說,是沒法接受的,與其坐以待斃,不如主動重拳出擊。
但對于智譜、MiniMax等中國國產模型來說,Anthropic“封殺”OpenClaw,以及OpenClaw的多模型切換功能,卻是一個重大機會。當Claude API 成本過高時,開發者可能會切換配置到智譜、MiniMax ,甚至不排除當作為主力模型使用,以規避訂閱轉API 的高昂成本。
畢竟,智譜、MiniMax的Token價格相對于Anthropic的,要便宜得多。
但Token便宜,并不是它們最大的優勢。
01
三強的崛起
2026年4月1日,智譜發布上市后的第一份年報,CEO張鵬在業績會上反復強調了兩個字:Token量。
這背后是一系列亮眼的表現:智譜2025年全年營收7.24億元,同比增長132%,是國內收入最大的獨立大模型公司;MaaS開放平臺的年度經常性收入(ARR)達到17億元,12個月暴漲60倍;API價格上調83%之后,調用量反而繼續攀升。
張鵬把這種罕見的“漲價放量”歸結為一個公式:AGI商業價值 = 智能上界× Token消耗規模。
模型的智能上限,決定你敢不敢漲價;Token消耗規模,決定漲價之后有沒有人買單。智譜兩個都做到了。
月之暗面的故事更具戲劇性。2026年1月27日,Kimi K2.5發布,僅僅一個月后,ARR突破1億美元,20天的收入超過2025年全年。3月中旬,公司完成新一輪融資,估值從43億美元飆升至180億美元——三個月翻了四倍。
更耐人尋味的是,Kimi的海外收入已經反超國內,海外API收入增長4倍,而楊植麟站上了英偉達GTC大會的演講臺,成為該會議上唯一一位中國大模型創始人,這無疑成了Kimi的高光時刻。
同樣地,MiniMax則用另一種方式證明了自己的存在感。2025年全年收入7904萬美元,同比增長159%。但真正讓行業側目的,是2026年前兩個月M2系列的API調用量——達到去年12月的六倍,其中來自“龍蝦”OpenClaw編程場景的Token消耗增長超過10倍。M2.5模型在SWE-Bench上拿到80.2%的得分,與Anthropic的Claude Opus 4.6幾乎持平,而價格僅為后者的十分之一。
如果把時鐘撥回兩年前,這三家公司正擠在同一間“ICU”里。2024年下半年,“AI六小龍”集體陷入困境,融資收緊、商業化遙遙無期、大廠環伺、“六小龍不如一條蟲”的嘲諷不絕于耳。彼時的DeepSeek剛剛憑借V3和R1震驚世界,風頭一時無兩,相比之下,智譜、Kimi和MiniMax更像是被大時代拋在身后的配角。
可短短一年之后,劇本完全翻轉。
這種翻轉歸功于“龍蝦”熱潮——2026年春節前后,OpenClaw作為開源AI Agent框架引爆了全球開發者社區,全球AI Token消耗從每周5.6萬億暴增到14.8萬億,三強恰好成了最大的“飼料供應商”。
與傳統單次對話不同,OpenClaw執行一個任務往往需要數十輪API調用,Token消耗成倍放大,這就意味著使用費用也急劇提高。Token貨幣化的結果就是,用戶迫切尋找更便宜的模型。而在OpenRouter平臺上,MiniMax和智譜的收費僅為海外競品如Claude Opus的1/16(輸入100萬Token約0.3 vs 5),這吸引了大量海外開發者。
所以自今年2月起,OpenClaw熱潮推動下,全球最大API聚合平臺OpenRouter 上中國模型調用量三周大漲127%,首次超越美國模型(5.16萬億 vs 2.7萬億Token),其中2026年Q1智譜的API調用量增長400%,就部分歸因于OpenClaw生態的放量。而MiniMax M2.5在OpenRouter平臺上曾連續兩周蟬聯全球調用量榜首,周調用量達1.63萬億Token。
但僅僅把智譜、MiniMax的翻盤全歸因于OpenClaw也并不公允,智譜和MiniMax的增長還得益于模型能力突破,智譜GLM-5在多項基準測試中登頂開源模型榜首,Coding和Agent能力突出;MiniMax M2專為編碼與智能體任務優化,也契合了Agent工作流需求。
旺盛的需求和模型能力提高,使得它們在一定程度上擁有了再定價權,今年3月智譜將API價格上調83%,但調用量依然供不應求增長400%,就說明了這點。
但同樣面對龍蝦的風口,六小龍中的另外幾條龍,表現又怎樣?
零一萬物已經放棄了通用大模型,宣布不再做單一大模型,而是采用模型開放策略,轉型做企業級部署服務,核心技術團隊在DeepSeek沖擊后分崩離析。百川智能的創始人王小川經歷了他所謂的“至暗時刻”——業務線收縮、高管離職、目標搖擺,最終押注AI醫療這個垂直賽道,基本退出了通用大模型的競爭。
同一個風口,有人飛升,有人墜落。差距出在哪?
答案藏在一個更深層的邏輯里:龍蝦的風口不是誰都能追,它考的是你的底模夠不夠強、工具鏈夠不夠深、開發者生態夠不夠厚。
而六小龍中的三強,恰恰是在龍蝦來臨之前,就已經在這三個維度上默默積累了足夠的勢能。
問題是:為什么偏偏是他們?
02
范式的轉變
要回答這個問題,必須先理解一件在2024年底悄然發生、卻深刻改變了整個行業走向的事——Ilya Sutskever在NeurIPS 2024上的那場演講。
這位OpenAI的聯合創始人、被尊為“AI宗師”的人物,在那場罕見的公開露面中說了一句話:我們所知道的預訓練,將毫無疑問地終結,我們已經觸及了數據的頂峰,不會再有更多了。
這句話在業界引發了一場深刻的路線分裂。
一派認為Scaling Law沒有撞墻,只是需要Scaling的對象變了——從互聯網原始數據轉向合成數據、推理軌跡、以及推理時的計算量。另一派則認為Transformer架構本身已觸及天花板,大模型需要一場從底層數學結構開始的架構革命。
對此,六小龍中的三強給出了自己的答案:都不選。或者說,兩個都選。
這就是所謂的“第三條路”——不是純粹地繼續堆數據、堆算力(老路已經走到頭了),也不是推倒重來搞一個全新架構(風險太大、周期太長),而是用架構層面的精準創新,去撬動新形式的Scaling。
Kimi從大模型底層三大模塊——優化器、注意力機制、殘差連接同時突破。
其MuonClip優化器引入二階梯度信息,通過牛頓-舒爾茨迭代和QK-Clip機制解決“Logits爆炸”問題,實現同等算力下更高模型質量或同等質量下大幅降低算力需求,提升Scaling效率。
Attention Residuals論文獲馬斯克點贊,因為其用softmax注意力實現“選擇性回憶”,使48B模型達到60B效果。
MiniMax路徑不同但信仰一致:創始人閆俊杰堅信Scaling Law及模態等價性,這構成其技術戰略的第一性原理。
MiniMax在各模態獨立驗證Scaling規律:語言模型側將線性注意力推進至工業級,使百萬長文本算力消耗降至傳統方案幾百分之一;多模態側發現Visual Tokenizer的Scaling Law,解決視頻生成投入產出問題,獲得結構性效率優勢。
作為這一策略的錯過,M2.5的230B總參數僅激活10B推理,SWE-Bench得分80.2%,價格為Claude Opus 4.6的十分之一,這源于MoE架構與推理優化帶來的成本優勢。
智譜走的路子,表面上是漲價后不跌反升的“飛輪驗證”,2026年一季度價格漲了83%,Token調用量卻增長400%。但真正的秘密在于三個維度的同時強化,形成了一個“多角形飛輪”,很難被競爭對手同時追趕。
在模型方面,GLM-5在編程、長文本、多模態上的突破,讓它成了Agent開發者的必選項。與此同時,智譜完成了與華為昇騰、摩爾線程等七大國產芯片的算子級優化,讓部署成本直接降低50%。這意味著國產芯片選擇智譜,從可選變成了必須,轉換成本有形化了。
而在數據閉環上,智譜不像大廠的數據分散在各處,開發者用GLM完成一個Agent任務,推理軌跡、糾錯過程全部被記錄,這種“真實任務數據”的價值,遠高于互聯網爬蟲或合成數據。模型越強,用戶越多,飛輪就這樣轉起來了。
三家公司的路徑各有不同,但有一個共同的底層邏輯:“第三條路”帶來的不僅僅是極致的性價比,而是在Token消耗量爆炸式增長后,仍然能維持任務質量的穩定。
龍蝦場景下,一個稍復雜的編程任務平均消耗350萬Token——是普通對話的數百倍。在這種級別的負載下,模型的推理穩定性、長上下文下的性能衰減控制、以及端到端的延遲管理,才是開發者選擇誰的真正標準。
換句話說,便宜只是入場券,穩定才是留下來的理由。
03
DeepSeek最大的挑戰
如果三強的崛起,代表了“第三條路”的勝利,那么另一個更尖銳的問題是:為什么與三強同為大模型企業出身的DeepSeek,沒有率先實現這樣的突破?
坦白說,DeepSeek在大模型1.0時代創造的成就,至今仍令人敬佩。
V3和R1以極低的訓練成本實現了SOTA級別的性能,MLA(多頭潛在注意力)和混合專家架構的組合,在當時堪稱驚艷。梁文鋒以極致的、勇猛的工程學思維,把每一塊GPU的性價比壓榨到了極致——這種“力出一孔”的能力,正是大模型1.0時代最重要的競爭力。
但1.0時代的競爭邏輯,和2.0時代有根本的不同。
到了2.0時代,問題變了。當Ilya宣告“我們所知道的預訓練將要終結”之后,行業面臨的不再是“怎么把模型做得更大”,而是“下一步往哪走?”
是繼續Scaling別的東西,還是徹底換架構?這是一個充滿不確定性的岔路口。
在這個岔路口上,DeepSeek(以下簡稱DS)遇到了兩個結構性的困難。
第一個困難來自商業化的缺失,導致其無法持續地Scaling。
DS至今沒有系統性的商業化運營,其API雖然被大量使用,但因為DS是開源的,因此大量企業把DS權重下載下來,私有化部署在自己的服務器上,這部分用戶的數據完全在企業內網里,DS的母體一個字也收不到,同時還有大量開發者通過阿里云、騰訊云、百度云等第三方平臺調用DS,數據留在了云廠商那里。
更關鍵的地方在于:DS免費或超低價的API定價,難以支撐數據工程的運轉成本,這意味著DS用戶越多越虧,用戶翻倍,虧損也翻倍,這使其無法像三強那樣,在龍蝦實戰中不斷迭代。
第二個困難更加微妙,也是制約DS架構創新的瓶頸。
DeepSeek的團隊至今不到140人,平均年齡只有28歲,成員幾乎清一色來自國內頂尖高校的應屆畢業生和在讀博士生。這個選擇并非無意為之,梁文鋒曾公開表達過他的人才哲學:“經驗并不意味著能力,反而可能限制創新。”
但這里有一個隱患,在2.0時代的架構創新需求下,架構層面的真正突破,往往需要的不只是聰明的年輕人,還需要見過不同范式的人之間的知識碰撞。
楊植麟在Google Brain見過Transformer如何從論文變成工業級系統;智譜創始人唐杰的團隊,不僅有著扎根清華的學術背景,也帶領KEG實驗室深耕了近二十年,發表了超過500篇頂尖論文。
這種“多層代際、多種背景”的知識密度,才使得架構革命與創新成為了可能。
從唯物主義的角度上說,技術創新的必要條件,不是只是天才的“靈光一閃”,更需要看知識、人才的密度、多樣性是否達到了一定的閾值和豐度。
說到底,DS的問題不是“技術不夠強”,而是它不能再用大模型1.0的思維打2.0的仗。
很多人都喜歡把訓練大模型叫做“煉丹”,這不是段子,而是一種精準的隱喻。
大模型訓練的本質,就是把海量數據(原料)投入神經網絡(爐子),經過漫長的參數調整(火候),最終期待涌現出一種難以預測的“智能”。你事先并不完全知道產出會是什么——調一下學習率,改一下Batch Size,模型的表現就可能陡然提升,這種高度依賴經驗與直覺的摸索過程,和古人在丹爐前的反復試探如出一轍。
1.0時代更講究“煉丹師”的個人洞見,一個天才型的創始人,帶著一小群精英,在丹爐前反復實驗,直到煉出驚世駭俗的成果。這在很長一段時間里是有效的。
但2.0時代需要的,更可能是“制藥廠”式的體系化創新。
什么叫制藥廠?它不依賴任何一個藥劑師的靈感,而是靠可復制的研發流程、可量化的質量標準、和持續不斷的臨床反饋來穩定地產出新藥。
在大模型2.0時代,持續的體系化創新能力,比任何一次單點技術突破都重要得多。誰能把“創新”從個人英雄主義變成組織級的穩定產出,誰就能在這個充滿不確定性的時代里掌握主動權。
以Kimi為例,3月16日,Kimi發布Attention Residuals論文,被馬斯克點贊,之后Reddit上已有開發者在復現。這背后反映的,實際上是其一種系統化、團隊化的知識積累體系。
絕大多數公司,從論文到產品的路徑是:核心論文→模型訓練→產品發布→用戶反饋→下一個核心論文。但Kimi打破了這個模式,Kimi 3月16日論文發表后,從論文idea到學術發表到產品實現到開源代碼,只用了不到3天的迭代周期。
這說明,Kimi把論文看作一個可視化的思想工具,用來快速獲得全球反饋的中間產品,而非要等到論文或產品完美后,再等待反饋。
論文的作者組成,還暴露了一個秘密:Guangyu Chen(陳廣宇)和其他作者加起來,一共35人,其中還有一位17歲的高中生,這在大模型論文里很罕見。
通常情況下,即使是OpenAI、DeepSeek發表的論文,作者也大多只有十幾到20位。
這說明Kimi的論文不是“精英研究團隊的產物”,而是“整個公司在這個方向上的集體知識總結”。
三強之所以能走出ICU,不是因為它們擁有比DeepSeek更聰明的工程師,而是因為其建立了一種更快的迭代速度、更密集的知識流轉、更體系化的創新機制。
大模型1.0時代屬于煉丹師,那是一個憑借個人洞見和技術魄力就能改變格局的英雄時代。但2.0時代,屬于制藥廠,屬于那些把創新變成流水線、把突破變成日常、把個人能力沉淀為組織能力的企業。
六小龍中的三強,正在做同樣的事。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.