網易首頁 > 網易號 > 正文申請入駐

走出ICU的“AI三小龍”，究竟做對了什么？

2026-04-09 18:55:00　來源: 最話Funtalk

北京舉報

分享至

大模型2.0時代，屬于“制藥廠 ”

文/林書

編輯/劉宇翔

Anthropic終于忍不住“龍蝦打洞”了。

美國時間4月4日15:00（北京時間4月5日03:00），Anthropic旗下Claude Code負責人Boris Cherny宣布Claude訂閱（Pro/Max）不再覆蓋OpenClaw等第三方平臺，用戶只能使用額外套餐或Claude API密鑰使用這些工具。

這意味著企業、初創團隊、開發者都無法再利用OpenClaw去近乎無限量套利Claude訂閱服務，被迫轉入更為昂貴的按量計費模式。

簡而言之就是，基于人類使用習慣模式的Anthropic 的訂閱服務，被OpenClaw 變成了7×24 小時自動運行的算力消耗，給系統帶來了“disproportionate stress”（不成比例的壓力），收入與成本倒掛。Anthropic的商業模式被挖得千瘡百孔，不堪重負。

此外，Anthropic還有一點不能忍的是，OpenClaw 遲早會將Anthropic“供應商化”。

OpenClaw 最新版更新支持多模型自動/手動切換，從之前的Claude 單點依賴（此前 60% 會話跑在Claude 上）轉向“模型池”（model pool）架構，用戶可以在 Claude、GPT-5.4、Gemini以及中國國產模型（如智譜、MiniMax）之間自由切換，不再鎖定單一供應商。

表面上看，這次更新是對Anthropic 和Google 的封禁的回應，通過多模型冗余確保服務連續性，避免過于依賴單一模型，受制于模型廠商的政策變動。但其實，即使沒有這次Anthropic的封禁，加入Open AI后，OpenClaw 創始人Peter Steinberger 也遲早會采取“模型池”模式。

因為一旦習慣使用OpenClaw后，用戶就在不知不覺中不會再在意用的是哪家的模型，更在意結果，OpenClaw 成了AI超級入口，而模型廠商則成了OpenClaw 背后的“供應商”。

顯然，這對于有著長遠目標的Anthropic 來說，是沒法接受的，與其坐以待斃，不如主動重拳出擊。

但對于智譜、MiniMax等中國國產模型來說，Anthropic“封殺”OpenClaw，以及OpenClaw的多模型切換功能，卻是一個重大機會。當Claude API 成本過高時，開發者可能會切換配置到智譜、MiniMax ，甚至不排除當作為主力模型使用，以規避訂閱轉API 的高昂成本。

畢竟，智譜、MiniMax的Token價格相對于Anthropic的，要便宜得多。

但Token便宜，并不是它們最大的優勢。

三強的崛起

2026年4月1日，智譜發布上市后的第一份年報，CEO張鵬在業績會上反復強調了兩個字：Token量。

這背后是一系列亮眼的表現：智譜2025年全年營收7.24億元，同比增長132%，是國內收入最大的獨立大模型公司；MaaS開放平臺的年度經常性收入（ARR）達到17億元，12個月暴漲60倍；API價格上調83%之后，調用量反而繼續攀升。

張鵬把這種罕見的“漲價放量”歸結為一個公式：AGI商業價值 = 智能上界× Token消耗規模。

模型的智能上限，決定你敢不敢漲價；Token消耗規模，決定漲價之后有沒有人買單。智譜兩個都做到了。

月之暗面的故事更具戲劇性。2026年1月27日，Kimi K2.5發布，僅僅一個月后，ARR突破1億美元，20天的收入超過2025年全年。3月中旬，公司完成新一輪融資，估值從43億美元飆升至180億美元——三個月翻了四倍。

更耐人尋味的是，Kimi的海外收入已經反超國內，海外API收入增長4倍，而楊植麟站上了英偉達GTC大會的演講臺，成為該會議上唯一一位中國大模型創始人，這無疑成了Kimi的高光時刻。

同樣地，MiniMax則用另一種方式證明了自己的存在感。2025年全年收入7904萬美元，同比增長159%。但真正讓行業側目的，是2026年前兩個月M2系列的API調用量——達到去年12月的六倍，其中來自“龍蝦”OpenClaw編程場景的Token消耗增長超過10倍。M2.5模型在SWE-Bench上拿到80.2%的得分，與Anthropic的Claude Opus 4.6幾乎持平，而價格僅為后者的十分之一。

如果把時鐘撥回兩年前，這三家公司正擠在同一間“ICU”里。2024年下半年，“AI六小龍”集體陷入困境，融資收緊、商業化遙遙無期、大廠環伺、“六小龍不如一條蟲”的嘲諷不絕于耳。彼時的DeepSeek剛剛憑借V3和R1震驚世界，風頭一時無兩，相比之下，智譜、Kimi和MiniMax更像是被大時代拋在身后的配角。

可短短一年之后，劇本完全翻轉。

這種翻轉歸功于“龍蝦”熱潮——2026年春節前后，OpenClaw作為開源AI Agent框架引爆了全球開發者社區，全球AI Token消耗從每周5.6萬億暴增到14.8萬億，三強恰好成了最大的“飼料供應商”。

與傳統單次對話不同，OpenClaw執行一個任務往往需要數十輪API調用，Token消耗成倍放大，這就意味著使用費用也急劇提高。Token貨幣化的結果就是，用戶迫切尋找更便宜的模型。而在OpenRouter平臺上，MiniMax和智譜的收費僅為海外競品如Claude Opus的1/16（輸入100萬Token約0.3 vs 5），這吸引了大量海外開發者。

所以自今年2月起，OpenClaw熱潮推動下，全球最大API聚合平臺OpenRouter 上中國模型調用量三周大漲127%，首次超越美國模型（5.16萬億 vs 2.7萬億Token），其中2026年Q1智譜的API調用量增長400%，就部分歸因于OpenClaw生態的放量。而MiniMax M2.5在OpenRouter平臺上曾連續兩周蟬聯全球調用量榜首，周調用量達1.63萬億Token。

但僅僅把智譜、MiniMax的翻盤全歸因于OpenClaw也并不公允，智譜和MiniMax的增長還得益于模型能力突破，智譜GLM-5在多項基準測試中登頂開源模型榜首，Coding和Agent能力突出；MiniMax M2專為編碼與智能體任務優化，也契合了Agent工作流需求。

旺盛的需求和模型能力提高，使得它們在一定程度上擁有了再定價權，今年3月智譜將API價格上調83%，但調用量依然供不應求增長400%，就說明了這點。

但同樣面對龍蝦的風口，六小龍中的另外幾條龍，表現又怎樣？

零一萬物已經放棄了通用大模型，宣布不再做單一大模型，而是采用模型開放策略，轉型做企業級部署服務，核心技術團隊在DeepSeek沖擊后分崩離析。百川智能的創始人王小川經歷了他所謂的“至暗時刻”——業務線收縮、高管離職、目標搖擺，最終押注AI醫療這個垂直賽道，基本退出了通用大模型的競爭。

同一個風口，有人飛升，有人墜落。差距出在哪？

答案藏在一個更深層的邏輯里：龍蝦的風口不是誰都能追，它考的是你的底模夠不夠強、工具鏈夠不夠深、開發者生態夠不夠厚。

而六小龍中的三強，恰恰是在龍蝦來臨之前，就已經在這三個維度上默默積累了足夠的勢能。

問題是：為什么偏偏是他們？

范式的轉變

要回答這個問題，必須先理解一件在2024年底悄然發生、卻深刻改變了整個行業走向的事——Ilya Sutskever在NeurIPS 2024上的那場演講。

這位OpenAI的聯合創始人、被尊為“AI宗師”的人物，在那場罕見的公開露面中說了一句話：我們所知道的預訓練，將毫無疑問地終結，我們已經觸及了數據的頂峰，不會再有更多了。

這句話在業界引發了一場深刻的路線分裂。

一派認為Scaling Law沒有撞墻，只是需要Scaling的對象變了——從互聯網原始數據轉向合成數據、推理軌跡、以及推理時的計算量。另一派則認為Transformer架構本身已觸及天花板，大模型需要一場從底層數學結構開始的架構革命。

對此，六小龍中的三強給出了自己的答案：都不選。或者說，兩個都選。

這就是所謂的“第三條路”——不是純粹地繼續堆數據、堆算力（老路已經走到頭了），也不是推倒重來搞一個全新架構（風險太大、周期太長），而是用架構層面的精準創新，去撬動新形式的Scaling。

Kimi從大模型底層三大模塊——優化器、注意力機制、殘差連接同時突破。

其MuonClip優化器引入二階梯度信息，通過牛頓-舒爾茨迭代和QK-Clip機制解決“Logits爆炸”問題，實現同等算力下更高模型質量或同等質量下大幅降低算力需求，提升Scaling效率。

Attention Residuals論文獲馬斯克點贊，因為其用softmax注意力實現“選擇性回憶”，使48B模型達到60B效果。

MiniMax路徑不同但信仰一致：創始人閆俊杰堅信Scaling Law及模態等價性，這構成其技術戰略的第一性原理。

MiniMax在各模態獨立驗證Scaling規律：語言模型側將線性注意力推進至工業級，使百萬長文本算力消耗降至傳統方案幾百分之一；多模態側發現Visual Tokenizer的Scaling Law，解決視頻生成投入產出問題，獲得結構性效率優勢。

作為這一策略的錯過，M2.5的230B總參數僅激活10B推理，SWE-Bench得分80.2%，價格為Claude Opus 4.6的十分之一，這源于MoE架構與推理優化帶來的成本優勢。

智譜走的路子，表面上是漲價后不跌反升的“飛輪驗證”，2026年一季度價格漲了83%，Token調用量卻增長400%。但真正的秘密在于三個維度的同時強化，形成了一個“多角形飛輪”，很難被競爭對手同時追趕。

在模型方面，GLM-5在編程、長文本、多模態上的突破，讓它成了Agent開發者的必選項。與此同時，智譜完成了與華為昇騰、摩爾線程等七大國產芯片的算子級優化，讓部署成本直接降低50%。這意味著國產芯片選擇智譜，從可選變成了必須，轉換成本有形化了。

而在數據閉環上，智譜不像大廠的數據分散在各處，開發者用GLM完成一個Agent任務，推理軌跡、糾錯過程全部被記錄，這種“真實任務數據”的價值，遠高于互聯網爬蟲或合成數據。模型越強，用戶越多，飛輪就這樣轉起來了。

三家公司的路徑各有不同，但有一個共同的底層邏輯：“第三條路”帶來的不僅僅是極致的性價比，而是在Token消耗量爆炸式增長后，仍然能維持任務質量的穩定。

龍蝦場景下，一個稍復雜的編程任務平均消耗350萬Token——是普通對話的數百倍。在這種級別的負載下，模型的推理穩定性、長上下文下的性能衰減控制、以及端到端的延遲管理，才是開發者選擇誰的真正標準。

換句話說，便宜只是入場券，穩定才是留下來的理由。

DeepSeek最大的挑戰

如果三強的崛起，代表了“第三條路”的勝利，那么另一個更尖銳的問題是：為什么與三強同為大模型企業出身的DeepSeek，沒有率先實現這樣的突破？

坦白說，DeepSeek在大模型1.0時代創造的成就，至今仍令人敬佩。

V3和R1以極低的訓練成本實現了SOTA級別的性能，MLA（多頭潛在注意力）和混合專家架構的組合，在當時堪稱驚艷。梁文鋒以極致的、勇猛的工程學思維，把每一塊GPU的性價比壓榨到了極致——這種“力出一孔”的能力，正是大模型1.0時代最重要的競爭力。

但1.0時代的競爭邏輯，和2.0時代有根本的不同。

到了2.0時代，問題變了。當Ilya宣告“我們所知道的預訓練將要終結”之后，行業面臨的不再是“怎么把模型做得更大”，而是“下一步往哪走？”

是繼續Scaling別的東西，還是徹底換架構？這是一個充滿不確定性的岔路口。

在這個岔路口上，DeepSeek（以下簡稱DS）遇到了兩個結構性的困難。

第一個困難來自商業化的缺失，導致其無法持續地Scaling。

DS至今沒有系統性的商業化運營，其API雖然被大量使用，但因為DS是開源的，因此大量企業把DS權重下載下來，私有化部署在自己的服務器上，這部分用戶的數據完全在企業內網里，DS的母體一個字也收不到，同時還有大量開發者通過阿里云、騰訊云、百度云等第三方平臺調用DS，數據留在了云廠商那里。

更關鍵的地方在于：DS免費或超低價的API定價，難以支撐數據工程的運轉成本，這意味著DS用戶越多越虧，用戶翻倍，虧損也翻倍，這使其無法像三強那樣，在龍蝦實戰中不斷迭代。

第二個困難更加微妙，也是制約DS架構創新的瓶頸。

DeepSeek的團隊至今不到140人，平均年齡只有28歲，成員幾乎清一色來自國內頂尖高校的應屆畢業生和在讀博士生。這個選擇并非無意為之，梁文鋒曾公開表達過他的人才哲學：“經驗并不意味著能力，反而可能限制創新。”

但這里有一個隱患，在2.0時代的架構創新需求下，架構層面的真正突破，往往需要的不只是聰明的年輕人，還需要見過不同范式的人之間的知識碰撞。

楊植麟在Google Brain見過Transformer如何從論文變成工業級系統；智譜創始人唐杰的團隊，不僅有著扎根清華的學術背景，也帶領KEG實驗室深耕了近二十年，發表了超過500篇頂尖論文。

這種“多層代際、多種背景”的知識密度，才使得架構革命與創新成為了可能。

從唯物主義的角度上說，技術創新的必要條件，不是只是天才的“靈光一閃”，更需要看知識、人才的密度、多樣性是否達到了一定的閾值和豐度。

說到底，DS的問題不是“技術不夠強”，而是它不能再用大模型1.0的思維打2.0的仗。

很多人都喜歡把訓練大模型叫做“煉丹”，這不是段子，而是一種精準的隱喻。

大模型訓練的本質，就是把海量數據（原料）投入神經網絡（爐子），經過漫長的參數調整（火候），最終期待涌現出一種難以預測的“智能”。你事先并不完全知道產出會是什么——調一下學習率，改一下Batch Size，模型的表現就可能陡然提升，這種高度依賴經驗與直覺的摸索過程，和古人在丹爐前的反復試探如出一轍。

1.0時代更講究“煉丹師”的個人洞見，一個天才型的創始人，帶著一小群精英，在丹爐前反復實驗，直到煉出驚世駭俗的成果。這在很長一段時間里是有效的。

但2.0時代需要的，更可能是“制藥廠”式的體系化創新。

什么叫制藥廠？它不依賴任何一個藥劑師的靈感，而是靠可復制的研發流程、可量化的質量標準、和持續不斷的臨床反饋來穩定地產出新藥。

在大模型2.0時代，持續的體系化創新能力，比任何一次單點技術突破都重要得多。誰能把“創新”從個人英雄主義變成組織級的穩定產出，誰就能在這個充滿不確定性的時代里掌握主動權。

以Kimi為例，3月16日，Kimi發布Attention Residuals論文，被馬斯克點贊，之后Reddit上已有開發者在復現。這背后反映的，實際上是其一種系統化、團隊化的知識積累體系。

絕大多數公司，從論文到產品的路徑是：核心論文→模型訓練→產品發布→用戶反饋→下一個核心論文。但Kimi打破了這個模式，Kimi 3月16日論文發表后，從論文idea到學術發表到產品實現到開源代碼，只用了不到3天的迭代周期。

這說明，Kimi把論文看作一個可視化的思想工具，用來快速獲得全球反饋的中間產品，而非要等到論文或產品完美后，再等待反饋。

論文的作者組成，還暴露了一個秘密：Guangyu Chen（陳廣宇）和其他作者加起來，一共35人，其中還有一位17歲的高中生，這在大模型論文里很罕見。

通常情況下，即使是OpenAI、DeepSeek發表的論文，作者也大多只有十幾到20位。

這說明Kimi的論文不是“精英研究團隊的產物”，而是“整個公司在這個方向上的集體知識總結”。

三強之所以能走出ICU，不是因為它們擁有比DeepSeek更聰明的工程師，而是因為其建立了一種更快的迭代速度、更密集的知識流轉、更體系化的創新機制。

大模型1.0時代屬于煉丹師，那是一個憑借個人洞見和技術魄力就能改變格局的英雄時代。但2.0時代，屬于制藥廠，屬于那些把創新變成流水線、把突破變成日常、把個人能力沉淀為組織能力的企業。

六小龍中的三強，正在做同樣的事。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.