去年,DeepSeek在春節(jié)前夕發(fā)布了R1模型,讓硅谷震撼,讓華爾街不安。它為中國大模型廠商重新埋頭研究與訓(xùn)練驗證了路徑,也開啟了中國開源模型陣營狂飆突進(jìn)的一年。
春節(jié)已經(jīng)成為新的一年的前哨戰(zhàn)。近期,Kimi、智譜、MiniMax與豆包,都先后趕在春節(jié)前,發(fā)布自己的旗艦?zāi)P汀M饨绮幻獯y,它們都擔(dān)心一旦遲到,在品牌形象與市場競爭中都落后一程。
前沿模型“智能”水平排名
![]()
(按照ArtificialAnalysis,目前美國最強模型來自Anthropic,中國來自智譜)
如今,壓力給到了DeepSeek。市場期待它繼續(xù)成為春節(jié)的英雄,以及承擔(dān)中國AI生態(tài)的“救世主”角色。它該如何回應(yīng)市場對它的期待,又或者,它必須回應(yīng)嗎?
DeepSeek確實正在醞釀些什么。全新長文本模型結(jié)構(gòu)測試正在中,支持最高100萬token上下文。它會是市場等待了DeepSeek-V4嗎?事實上,去年5月、8月、10月與12月,市場就這么期待過。最終,DeepSeek交付了DeepSeek-R1-0528、DeepSeek-V3.1、DeepSeek-V3.2-Exp與DeepSeek-V3.2。
期間,DeepSeek還嘗試了UE8M0 FP8、DSA、上下文光學(xué)壓縮、mHC與Engram等方向的探索。它們的核心思路之一就是“稀疏化”,讓“專家”、“精度”、“注意力”與“記憶”變得更為稀疏。人們相信在即將到來的V4上,能夠繼續(xù)找到這些改良的技術(shù)的影子。
然而,市場的聚光燈已經(jīng)轉(zhuǎn)向智能體(AI Agent),更確切地說,是智能體化(Agentic AI)。后者開始追求自主決策、長期任務(wù)規(guī)劃、智能體間交互,以及端到端執(zhí)行的新范式。Anthropic稱,AI已經(jīng)能寫出90%的代碼,再往前一步,就是完成90%端到端的軟件工程(SWE)。火爆的OpenClaw讓人相信,在獲得足夠權(quán)限后,Agentic應(yīng)用會變得多么強大與危險。
2026年的旗艦大模型,將主要是原生Agentic大模型。在美國,Anthropic的Claude Opus 4.6與OpenAI的GPT-5.3-Codex相繼上線,尤其是OpenAI推出1000token/秒的Codex-Spark,將編碼競爭推向白熱化。在國內(nèi),月之暗面的Kimi-K2.5、智譜的GLM-5、稀宇科技的MiniMax-M2.5,以及今天字節(jié)跳動的Doubao-Seed-2.0,都在宣傳自己的智能體能力。
其中,Kimi-K2.5引入了智能體集群(Agent Swarm)技術(shù),并提出并行智能體強化學(xué)習(xí)(PARL),準(zhǔn)確率更高,用時更少;GLM-5在編程能力上實現(xiàn)了與Claude Opus 4.5對齊,又提出異步智能體強化學(xué)習(xí)算法,使模型能夠持續(xù)從長程交互中學(xué)習(xí),以極少的人工干預(yù)自主完成 Agentic 長程規(guī)劃與執(zhí)行。MiniMax-M2.5則號稱是第一個不需要考慮使用成本可以無限使用的前沿模型,“1萬美元可以讓4個Agent連續(xù)工作一年”。
DeepSeek-V3.1早已宣告邁向Agent時代,但又會如何定義撲面而來的Agentic時代。它能否憑借推理效率、工具集成、記憶機制與極致經(jīng)濟性,在落地體驗中再度確立新的標(biāo)桿?
也許,DeepSeek未必還需要一個單獨的“R系列”。R象征推理與認(rèn)知,對標(biāo)OpenAI的o系列模型;而Agentic時代,更強調(diào)執(zhí)行與工程,更需要對標(biāo)OpenAI的Codex。DeepSeek原本就擁有Coder與Math系列模型,編碼與數(shù)理證明,都是通往AGI(通用人工智能)的“元能力”,它們二者共同構(gòu)成模型的自我改進(jìn)系統(tǒng),加速遞歸式進(jìn)化。
市場同樣期待DeepSeek繼續(xù)驗證國產(chǎn)算力生態(tài)協(xié)同的潛力。長期以來,它對此的探索主線,一直都是如何在有限的資源下通過架構(gòu)創(chuàng)新,最大程度上地提升訓(xùn)練與推理的效率。去年年底,DeepSeek-V3.2用新架構(gòu)DSA,在長上下文場景中實現(xiàn)了端到端的顯著加速;今年年初,Engram的條件記憶有望“成為下一代稀疏大模型中不可或缺的基礎(chǔ)建模范式”。
OpenAI的Codex-Spark證明,響應(yīng)速度至關(guān)重要,是創(chuàng)造價值的關(guān)鍵。它運行在Cerebras晶圓級引擎上,這又正是國內(nèi)推理生態(tài)所缺乏的。DeepSeek能否用“算法”換“算力”,抹平這種硬件級別的差距?
而且,從算法上著手,精簡步驟,不僅能夠提升響應(yīng)速度,尤其是部分必須高速精準(zhǔn)響應(yīng)的場景,還能夠減輕上下文的壓力。此前,中國開源模型常被詬病,“冗長思考”不受制約,消耗token過高,將逐步侵蝕成本優(yōu)勢。此前,DeepSeek提到,會在未來的工作中,聚焦于提升模型推理鏈的智能密度,以改善效率。
比推理更重要的是訓(xùn)練,預(yù)訓(xùn)練仍然是后訓(xùn)練的起點。英偉達(dá)的Blackwell架構(gòu)正在成為美國AI基礎(chǔ)設(shè)施中的訓(xùn)練主力,谷歌的TPUv7也將在Gemini 4的訓(xùn)練中發(fā)揮關(guān)鍵作用。即使H200能盡快在國內(nèi)部署,短期內(nèi)中國大模型訓(xùn)練的算力來源,也仍處于Hopper時代。目前,國內(nèi)AI芯片廠商的性能敘事仍主要圍繞Hopper架構(gòu)展開,而在大規(guī)模集群場景下的穩(wěn)定性與綜合效率表現(xiàn),尚未形成充分的實踐數(shù)據(jù)支持。
DeepSeek在論文中承認(rèn),由于訓(xùn)練算力不足,DeepSeek-V3.2在世界知識的覆蓋廣度上,仍落后于領(lǐng)先的專有閉源模型。該團隊計劃在后續(xù)迭代中,通過擴大預(yù)訓(xùn)練算力規(guī)模,來彌補這一知識差距。不必懷疑,當(dāng)DeepSeek-V4發(fā)布的時候,國產(chǎn)AI芯片會Day0深度全棧適配;但市場更期待它的預(yù)訓(xùn)練會基于國產(chǎn)AI芯片,并再一次改寫市場對英偉達(dá)敘事的定價。
人們欣賞DeepSeek精致的研究,市場也期待原生多模態(tài)的DeepSeek-V4。Gemini 3已經(jīng)是原生支持文本、圖像、音頻和視頻輸入的大模型,Kimi-2.5也強調(diào)文本與視覺的聯(lián)合優(yōu)化。要繼續(xù)對標(biāo)谷歌、OpenAI,似乎DeepSeek必須有所動作。
但是,技術(shù)創(chuàng)新必須站在可驗證的物理邊界上,而不是情緒邊界上。芯片、能源、網(wǎng)絡(luò),以及算法等整套生態(tài),決定了算力的上限。而算力正在限制中國開源模型進(jìn)一步追趕的后勁,在預(yù)訓(xùn)練和后訓(xùn)練方面已經(jīng)表現(xiàn)出來。任何“算法樂觀主義”,在特定時間內(nèi),都只能在這個邊界內(nèi)優(yōu)化。而AGI更是一項系統(tǒng)工程,遠(yuǎn)超單一大模型的參數(shù)規(guī)模或版本更新。
DeepSeek的使命是探索AGI。只做大模型是無法實現(xiàn)AGI的,尤其是只做語言大模型,它的局限性也越來越明顯。現(xiàn)在更接近現(xiàn)實的AGI形態(tài),是知行合一的,它有認(rèn)知能力、執(zhí)行能力、長期約束、現(xiàn)實反饋閉環(huán),等等。Claude大模型經(jīng)常被中國的開源模型集體刷榜碾壓,但它的收入以每年十倍的速度增長,在編程這一通用功能領(lǐng)域的突破,為通往AGI開辟了一條蹊徑。
或許,真正長期主義的期待,是允許DeepSeek繼續(xù)深度求索,而不是讓市場的所有焦慮與愿望,都在某一個時刻集中投射到同一個名字之上。在公司創(chuàng)始人梁文鋒看來,創(chuàng)新就是昂貴且低效的,有時候伴隨著浪費,它需要盡可能少的干預(yù)和管理,讓每個人有自由發(fā)揮的空間和試錯機會。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.