網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

代碼泄密！DeepSeek下一代“王炸”模型架構(gòu)曝光

2026-01-21 22:06:07　來(lái)源: 前沿科技學(xué)習(xí)分享圈

北京舉報(bào)

分享至

你有沒(méi)有遇到過(guò)這種情況？

一款A(yù)I模型剛發(fā)布沒(méi)多久，就被行業(yè)人士吹上了天，結(jié)果用了一段時(shí)間才發(fā)現(xiàn)，不過(guò)是換湯不換藥的小升級(jí)。

說(shuō)實(shí)話，我之前也是這樣看待AI模型迭代的。

直到今天看到DeepSeek的新模型代碼泄密，我才意識(shí)到，真正的技術(shù)革命可能要來(lái)了。

神秘的MODEL1

就在DeepSeek-R1發(fā)布一周年之際，來(lái)自DeepSeek的神秘新模型“MODEL1”悄然現(xiàn)身GitHub代碼庫(kù)。

多位社區(qū)開發(fā)者推測(cè)，MODEL1很可能正是DeepSeek內(nèi)測(cè)中的V3終極版本（V4模型），也有人猜測(cè)它可能代表一個(gè)完全獨(dú)立于V系列的新模型。

MODEL1：DeepSeek正在開發(fā)的下一代AI模型，采用全新架構(gòu)和推理機(jī)制，可能在性能上實(shí)現(xiàn)質(zhì)的飛躍。

全新的技術(shù)路徑

這一名稱不僅出現(xiàn)在SM90架構(gòu)相關(guān)的.cu內(nèi)核實(shí)例化文件中，還貫穿在多個(gè)針對(duì)FP8稀疏解碼路徑的模板定義與內(nèi)存布局注釋里。

更關(guān)鍵的是，據(jù)海外開發(fā)者推測(cè)，MODEL1的背后將是一整套新的推理機(jī)制、算子結(jié)構(gòu)與底層內(nèi)存配置，會(huì)與DeepSeek現(xiàn)有V3.2模型呈現(xiàn)出完全不同的技術(shù)路徑。

就像從功能手機(jī)直接跳到智能手機(jī)，MODEL1帶來(lái)的可能不是簡(jiǎn)單的性能提升，而是整個(gè)AI模型架構(gòu)的革命。

三大核心突破

1. 動(dòng)態(tài)Top-K稀疏推理

MODEL1引入了動(dòng)態(tài)Top-K稀疏推理邏輯，通過(guò)一個(gè)可變的topk_length指針，允許模型在推理時(shí)根據(jù)token或請(qǐng)求動(dòng)態(tài)決定參與計(jì)算的key數(shù)量。

這就像你去餐廳吃飯，服務(wù)員會(huì)根據(jù)你的口味偏好和當(dāng)前庫(kù)存，動(dòng)態(tài)調(diào)整菜單推薦，而不是每次都給你看完整的菜單。

這種設(shè)計(jì)大大提升了計(jì)算資源的精細(xì)調(diào)度能力，讓AI模型在處理復(fù)雜任務(wù)時(shí)更加高效。

2. 分離存儲(chǔ)的KV緩存區(qū)

MODEL1還引入了額外的KV緩存區(qū)，提供了將系統(tǒng)提示與用戶上下文分離存儲(chǔ)的可能。

這就像你有兩個(gè)筆記本，一個(gè)專門用來(lái)記錄重要的系統(tǒng)設(shè)置，另一個(gè)用來(lái)記錄日常的工作筆記。

這種設(shè)計(jì)為Agent架構(gòu)或多段上下文場(chǎng)景提供了更好的支持，讓AI模型在處理復(fù)雜任務(wù)時(shí)更加靈活。

3. 更嚴(yán)格的內(nèi)存對(duì)齊要求

MODEL1對(duì)底層內(nèi)存對(duì)齊和調(diào)度有更為嚴(yán)格的要求，其KV緩存的內(nèi)存stride必須是576B的整數(shù)倍，區(qū)別于V3.2的656B。

這就像你在搭積木，每個(gè)積木的尺寸都必須精確到毫米，這樣才能搭建出更加穩(wěn)固和復(fù)雜的結(jié)構(gòu)。

這種設(shè)計(jì)可能與其更復(fù)雜的運(yùn)行時(shí)行為與動(dòng)態(tài)緩存機(jī)制有關(guān)，讓AI模型在處理大規(guī)模數(shù)據(jù)時(shí)更加穩(wěn)定。

春節(jié)前后發(fā)布？

在更早的1月9日，外媒援引知情人士稱，DeepSeek將于2月中旬，也就是春節(jié)前后發(fā)布其下一代模型，主打編程能力，并在內(nèi)部測(cè)試中已經(jīng)在多個(gè)基準(zhǔn)上超越了Claude與GPT系列。

結(jié)合目前模型文件結(jié)構(gòu)已覆蓋64和128兩個(gè)頭維度、FP8稀疏解碼路徑已完成適配、內(nèi)存規(guī)范已強(qiáng)制定義等跡象來(lái)看，MODEL1很可能已接近訓(xùn)練完成或推理部署階段，正等待最終的權(quán)重凍結(jié)和測(cè)試驗(yàn)證。

開源格局將被改寫？

恰逢DeepSeek R1發(fā)布一周年，Hugging Face官方博客也發(fā)布了特別文章《One Year Since the “DeepSeek Moment”》，系統(tǒng)回顧了過(guò)去一年中國(guó)開源社區(qū)的集體爆發(fā)。

文章稱，R1模型的開源不僅降低了推理技術(shù)、生產(chǎn)部署與心理三個(gè)門檻，更推動(dòng)了國(guó)內(nèi)公司在開源方向上形成非協(xié)同但高度一致的戰(zhàn)略走向。

從百度、字節(jié)跳動(dòng)到月之暗面、智譜AI，各大機(jī)構(gòu)在過(guò)去一年中陸續(xù)加入Hugging Face并發(fā)布高質(zhì)量模型，在社區(qū)下載、點(diǎn)贊與引用榜單上頻頻登頂。

如今，距離R1發(fā)布僅一年，DeepSeek的“MODEL1”很有可能在系統(tǒng)架構(gòu)、執(zhí)行路徑與推理機(jī)制上展現(xiàn)出全面超越V3.2的能力。

如果接下來(lái)如傳聞所述在春節(jié)前后正式發(fā)布，DeepSeek或許將再次改寫國(guó)內(nèi)開源格局，也可能為全球前沿開源模型樹立新的標(biāo)桿。

一年前，DeepSeek R1的開源讓我們看到了中國(guó)AI模型的潛力。

一年后，MODEL1的曝光讓我們對(duì)中國(guó)AI模型的未來(lái)充滿期待。

真正的技術(shù)革命，從來(lái)不是簡(jiǎn)單的參數(shù)堆砌，而是架構(gòu)的創(chuàng)新和思維的突破。

你覺(jué)得MODEL1會(huì)帶來(lái)哪些改變？評(píng)論區(qū)聊聊～

如果對(duì)你有幫助，點(diǎn)個(gè)在看讓更多人看到吧

AI眼鏡處于爆發(fā)前夜，有很多值得體驗(yàn)的好產(chǎn)品

歡迎大家進(jìn)群一起交流使用心得！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.