網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一文看懂DeepSeek與清北最新論文：劇透V4底層架構(gòu)，或改寫(xiě)大模型推理格局

2026-02-27 19:01:44　來(lái)源: 搜狐科技

北京舉報(bào)

分享至

出品｜搜狐科技

作者｜鄭松毅

編輯| 楊錦

就在全世界都盯著V4發(fā)布時(shí)，DeepSeek先給了波劇透。

數(shù)小時(shí)前，DeepSeek攜手北京大學(xué)、清華大學(xué)，共同發(fā)布了一篇足以改寫(xiě)大模型推理格局的技術(shù)論文，推出了面向大模型智能體的全新推理系統(tǒng)DualPath，瞬間引爆AI圈。

作為中國(guó)大模型產(chǎn)學(xué)研協(xié)同創(chuàng)新的標(biāo)桿之作，這篇論文跳出“拼參數(shù)、堆算力”的老路子，直擊當(dāng)下大模型核心痛點(diǎn)，敘述著中國(guó)大模型從“拼能力”到“拼效率”轉(zhuǎn)型的新方向。

雙路徑架構(gòu)攻I/O瓶頸，解“巧婦難為無(wú)米之炊”

眼下，大模型已邁入智能體時(shí)代，它要像人一樣思考、規(guī)劃，但一個(gè)長(zhǎng)期被忽視的難題，正在制約著它的發(fā)展——GPU算力始終沒(méi)能充分發(fā)揮出來(lái)，核心問(wèn)題就是I/O瓶頸在“拖后腿”。

換言之，今天大模型的痛點(diǎn)，已不是模型不夠聰明，而是跑得不夠快、成本下不來(lái)。DualPath的出現(xiàn)，就是為了解決這個(gè)癥結(jié)。

很多人會(huì)問(wèn)，什么是“I/O瓶頸”，又怎么拖后腿了？

這里可以簡(jiǎn)單比喻下：如果把大模型推理過(guò)程看作是廚子炒菜，GPU的角色就是手藝頂尖、手腳飛快的廚師；顯存/內(nèi)存/網(wǎng)絡(luò)可以看成廚房的通道、傳送帶；模型每生成一句話(huà)，要用到的歷史對(duì)話(huà)緩存（KV-Cache），就是大廚要用到的配菜、調(diào)料、半成品。而I/O，則是把食材從倉(cāng)庫(kù)運(yùn)到灶臺(tái)的全過(guò)程——搬運(yùn)、傳遞、輸送。

大廚再厲害，配菜送不上來(lái)，大廚就只能在灶臺(tái)前干等。換言之，GPU再?gòu)?qiáng)，如果數(shù)據(jù)傳不過(guò)來(lái)，它就只能空轉(zhuǎn)、浪費(fèi)等數(shù)據(jù)，這就是行業(yè)內(nèi)最致命的“I/O瓶頸”。

過(guò)去幾年，大模型越做越大，用戶(hù)越來(lái)越多，對(duì)話(huà)數(shù)據(jù)越來(lái)越長(zhǎng)，需要搬運(yùn)的食材——?dú)v史對(duì)話(huà)緩存（KV-Cache）也就越多。結(jié)果就是傳輸通道越來(lái)越擁擠，GPU利用率越來(lái)越低，成本越來(lái)越高。

而DeepSeek這次和清北合作提出的 DualPath雙路徑架構(gòu)，本質(zhì)就是修了兩條各具功能的專(zhuān)用傳輸通道，解決堵塞問(wèn)題。

具體來(lái)看，DualPath改變了傳統(tǒng)的存儲(chǔ)至預(yù)填充引擎（Storage-to-Prefill）單路徑加載模式，引入了存儲(chǔ)至解碼引擎（Storage-to-Decode）的第二條路徑。

傳統(tǒng)路徑下，緩存直接讀入預(yù)填充（PE）。而新路徑下，緩存先讀入解碼（DE）的緩沖池，再通過(guò)RDMA傳輸給預(yù)填充（PE）。通過(guò)兩條路徑間的動(dòng)態(tài)選擇，DualPath重新分配了網(wǎng)絡(luò)負(fù)載，緩解了預(yù)填充引擎?zhèn)鹊膸拤毫Α?/p>

我們可以把預(yù)填充引擎看作是主路徑，把解碼引擎看作是輔助路徑。主路徑負(fù)責(zé)準(zhǔn)備當(dāng)下大廚立刻要用的食材，保證伸手抓的時(shí)候就有，不耽誤火候。而輔助路徑負(fù)責(zé)趁不忙時(shí)，提前把食材運(yùn)來(lái)備好，不耽誤主通道工作，打好配合。

性能翻倍，與清北多次聯(lián)手破題

值得一提的是，這套理論并不只是實(shí)驗(yàn)室故事，而是真的在GPU集群上驗(yàn)證過(guò)了：DualPath將離線(xiàn)推理吞吐量最高提升1.87倍，在線(xiàn)服務(wù)吞吐量平均提升1.96倍，請(qǐng)求承載能力最高提升2.25倍。

業(yè)內(nèi)觀點(diǎn)認(rèn)為，這些亮眼數(shù)據(jù)的背后，是大模型服務(wù)成本的大幅降低，更是規(guī)?；涞啬芰Φ娘@著提升。對(duì)企業(yè)來(lái)說(shuō)，同樣的算力投入能獲得兩倍的服務(wù)產(chǎn)出，無(wú)疑會(huì)進(jìn)一步降低AI應(yīng)用門(mén)檻。對(duì)開(kāi)發(fā)者來(lái)說(shuō)，此前難以實(shí)現(xiàn)的長(zhǎng)上下文、多輪交互等功能，如今能穩(wěn)定落地，給智能體的創(chuàng)新應(yīng)用打開(kāi)了新空間。

事實(shí)上，這已不是三方的首次合作。

近半年來(lái)，DeepSeek已與北大、清華聯(lián)手推出了多項(xiàng)重磅成果：比如ACL 2025最佳論文中提出的原生稀疏注意力（NSA）技術(shù)，把長(zhǎng)文本處理速度提升了11倍；還有2026年1月發(fā)布的條件記憶（Engram）架構(gòu)，通過(guò)把“記憶”與“計(jì)算”拆分開(kāi)來(lái)，大幅降低了推理成本和內(nèi)存占用。

V4箭在弦上

巧合的是，就在這篇論文發(fā)布的同時(shí)，業(yè)內(nèi)對(duì)DeepSeek V4版本的發(fā)布猜測(cè)也達(dá)到了頂峰。

大家普遍認(rèn)為，這篇DualPath論文絕不是簡(jiǎn)單的技術(shù)發(fā)布，而是DeepSeek V4的底層架構(gòu)官宣。

從目前行業(yè)流傳的消息來(lái)看，DeepSeek V4的發(fā)布窗口已經(jīng)鎖定在未來(lái)一周，代號(hào)為“Sealion-lite”的V4輕量版，已經(jīng)在部分推理服務(wù)商處開(kāi)展閉門(mén)測(cè)試，華為等國(guó)內(nèi)芯片廠(chǎng)商也提前拿到了模型訪(fǎng)問(wèn)權(quán)限，完成了國(guó)產(chǎn)算力平臺(tái)的適配優(yōu)化。

種種信號(hào)表明，V4版本已經(jīng)進(jìn)入了發(fā)布前的最后倒計(jì)時(shí)。

關(guān)于DeepSeek V4的核心能力，業(yè)內(nèi)的猜測(cè)高度一致，并充滿(mǎn)期待。其中最受關(guān)注的是百萬(wàn)級(jí)上下文窗口——預(yù)計(jì)將從V3.2版本的128K tokens躍升至100萬(wàn)tokens，提升近8倍。相當(dāng)于模型能一次性讀完多部專(zhuān)業(yè)書(shū)籍、大型代碼庫(kù)，徹底解決了長(zhǎng)文本處理的痛點(diǎn)。

其次是原生多模態(tài)能力，V4預(yù)計(jì)將支持文本、圖像等多種格式，從流出的SVG生成示例來(lái)看，它在貼合提示詞、形狀準(zhǔn)確性和細(xì)節(jié)豐富度上，都比前代V3.2版本強(qiáng)了不少。

除此之外，智能體能力也是V4的核心亮點(diǎn)，讓模型能更高效地完成復(fù)雜任務(wù)。更值得一提的是，V4還打破行業(yè)慣例，把訪(fǎng)問(wèn)權(quán)限優(yōu)先給了國(guó)內(nèi)芯片廠(chǎng)商，助力國(guó)產(chǎn)化AI生態(tài)的構(gòu)建。

前兩日，美國(guó)AI巨頭Anthropic還在指控包括DeepSeek在內(nèi)的中國(guó)AI企業(yè)蒸餾抄襲，呼吁嚴(yán)控高端芯片出口。如今DeepSeek就向外展示了“靠人不如靠自己”的態(tài)度，連外媒都開(kāi)始擔(dān)憂(yōu)，英偉達(dá)股價(jià)也應(yīng)聲下跌。

接下來(lái)，就期待著新模型登場(chǎng)了。

運(yùn)營(yíng)編輯 |曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.