你有沒(méi)有遇到過(guò)這種情況?
一款A(yù)I模型剛發(fā)布沒(méi)多久,就被行業(yè)人士吹上了天,結(jié)果用了一段時(shí)間才發(fā)現(xiàn),不過(guò)是換湯不換藥的小升級(jí)。
說(shuō)實(shí)話,我之前也是這樣看待AI模型迭代的。
直到今天看到DeepSeek的新模型代碼泄密,我才意識(shí)到,真正的技術(shù)革命可能要來(lái)了。
![]()
神秘的MODEL1
就在DeepSeek-R1發(fā)布一周年之際,來(lái)自DeepSeek的神秘新模型“MODEL1”悄然現(xiàn)身GitHub代碼庫(kù)。
多位社區(qū)開發(fā)者推測(cè),MODEL1很可能正是DeepSeek內(nèi)測(cè)中的V3終極版本(V4模型),也有人猜測(cè)它可能代表一個(gè)完全獨(dú)立于V系列的新模型。
MODEL1:DeepSeek正在開發(fā)的下一代AI模型,采用全新架構(gòu)和推理機(jī)制,可能在性能上實(shí)現(xiàn)質(zhì)的飛躍。全新的技術(shù)路徑
這一名稱不僅出現(xiàn)在SM90架構(gòu)相關(guān)的.cu內(nèi)核實(shí)例化文件中,還貫穿在多個(gè)針對(duì)FP8稀疏解碼路徑的模板定義與內(nèi)存布局注釋里。
更關(guān)鍵的是,據(jù)海外開發(fā)者推測(cè),MODEL1的背后將是一整套新的推理機(jī)制、算子結(jié)構(gòu)與底層內(nèi)存配置,會(huì)與DeepSeek現(xiàn)有V3.2模型呈現(xiàn)出完全不同的技術(shù)路徑。
就像從功能手機(jī)直接跳到智能手機(jī),MODEL1帶來(lái)的可能不是簡(jiǎn)單的性能提升,而是整個(gè)AI模型架構(gòu)的革命。
三大核心突破
![]()
1. 動(dòng)態(tài)Top-K稀疏推理
MODEL1引入了動(dòng)態(tài)Top-K稀疏推理邏輯,通過(guò)一個(gè)可變的topk_length指針,允許模型在推理時(shí)根據(jù)token或請(qǐng)求動(dòng)態(tài)決定參與計(jì)算的key數(shù)量。
這就像你去餐廳吃飯,服務(wù)員會(huì)根據(jù)你的口味偏好和當(dāng)前庫(kù)存,動(dòng)態(tài)調(diào)整菜單推薦,而不是每次都給你看完整的菜單。
這種設(shè)計(jì)大大提升了計(jì)算資源的精細(xì)調(diào)度能力,讓AI模型在處理復(fù)雜任務(wù)時(shí)更加高效。
![]()
2. 分離存儲(chǔ)的KV緩存區(qū)
MODEL1還引入了額外的KV緩存區(qū),提供了將系統(tǒng)提示與用戶上下文分離存儲(chǔ)的可能。
這就像你有兩個(gè)筆記本,一個(gè)專門用來(lái)記錄重要的系統(tǒng)設(shè)置,另一個(gè)用來(lái)記錄日常的工作筆記。
這種設(shè)計(jì)為Agent架構(gòu)或多段上下文場(chǎng)景提供了更好的支持,讓AI模型在處理復(fù)雜任務(wù)時(shí)更加靈活。
3. 更嚴(yán)格的內(nèi)存對(duì)齊要求
MODEL1對(duì)底層內(nèi)存對(duì)齊和調(diào)度有更為嚴(yán)格的要求,其KV緩存的內(nèi)存stride必須是576B的整數(shù)倍,區(qū)別于V3.2的656B。
這就像你在搭積木,每個(gè)積木的尺寸都必須精確到毫米,這樣才能搭建出更加穩(wěn)固和復(fù)雜的結(jié)構(gòu)。
這種設(shè)計(jì)可能與其更復(fù)雜的運(yùn)行時(shí)行為與動(dòng)態(tài)緩存機(jī)制有關(guān),讓AI模型在處理大規(guī)模數(shù)據(jù)時(shí)更加穩(wěn)定。
春節(jié)前后發(fā)布?
在更早的1月9日,外媒援引知情人士稱,DeepSeek將于2月中旬,也就是春節(jié)前后發(fā)布其下一代模型,主打編程能力,并在內(nèi)部測(cè)試中已經(jīng)在多個(gè)基準(zhǔn)上超越了Claude與GPT系列。
結(jié)合目前模型文件結(jié)構(gòu)已覆蓋64和128兩個(gè)頭維度、FP8稀疏解碼路徑已完成適配、內(nèi)存規(guī)范已強(qiáng)制定義等跡象來(lái)看,MODEL1很可能已接近訓(xùn)練完成或推理部署階段,正等待最終的權(quán)重凍結(jié)和測(cè)試驗(yàn)證。
開源格局將被改寫?
恰逢DeepSeek R1發(fā)布一周年,Hugging Face官方博客也發(fā)布了特別文章《One Year Since the “DeepSeek Moment”》,系統(tǒng)回顧了過(guò)去一年中國(guó)開源社區(qū)的集體爆發(fā)。
文章稱,R1模型的開源不僅降低了推理技術(shù)、生產(chǎn)部署與心理三個(gè)門檻,更推動(dòng)了國(guó)內(nèi)公司在開源方向上形成非協(xié)同但高度一致的戰(zhàn)略走向。
從百度、字節(jié)跳動(dòng)到月之暗面、智譜AI,各大機(jī)構(gòu)在過(guò)去一年中陸續(xù)加入Hugging Face并發(fā)布高質(zhì)量模型,在社區(qū)下載、點(diǎn)贊與引用榜單上頻頻登頂。
如今,距離R1發(fā)布僅一年,DeepSeek的“MODEL1”很有可能在系統(tǒng)架構(gòu)、執(zhí)行路徑與推理機(jī)制上展現(xiàn)出全面超越V3.2的能力。
如果接下來(lái)如傳聞所述在春節(jié)前后正式發(fā)布,DeepSeek或許將再次改寫國(guó)內(nèi)開源格局,也可能為全球前沿開源模型樹立新的標(biāo)桿。
一年前,DeepSeek R1的開源讓我們看到了中國(guó)AI模型的潛力。
一年后,MODEL1的曝光讓我們對(duì)中國(guó)AI模型的未來(lái)充滿期待。
真正的技術(shù)革命,從來(lái)不是簡(jiǎn)單的參數(shù)堆砌,而是架構(gòu)的創(chuàng)新和思維的突破。
你覺(jué)得MODEL1會(huì)帶來(lái)哪些改變?評(píng)論區(qū)聊聊~
如果對(duì)你有幫助,點(diǎn)個(gè)在看讓更多人看到吧
AI眼鏡處于爆發(fā)前夜,有很多值得體驗(yàn)的好產(chǎn)品
歡迎大家進(jìn)群一起交流使用心得!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.