<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      梁文鋒又掀桌?在省錢這件事上,DeepSeek給V4模型鋪墊好了

      0
      分享至



      出品|搜狐科技

      作者|常博碩

      編輯| 楊 錦

      V4發(fā)布前夕,DeepSeek的更新真是一個比一個重磅。

      元旦前,DeepSeek發(fā)了新架構(gòu)mHC,對深度學(xué)習(xí)的地基Resnet進(jìn)行了優(yōu)化,上周又把那篇R1的論文擴(kuò)寫了64頁,詳細(xì)公開了訓(xùn)練路徑,這次發(fā)的新論文還準(zhǔn)備修一修Transformer,順便在硬件上再省一筆。


      今天凌晨,DeepSeek在Github上甩出了一篇名為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》的論文,直指Transformer架構(gòu)讓模型反復(fù)思考,浪費(fèi)算力資源的缺陷,同時開源了論文中的“記憶模塊”Engram。


      這篇論文是DeepSeek和北京大學(xué)合作完成的,作者欄依然有梁文鋒本人署名。


      直擊Transformer缺陷

      2017年,谷歌一篇名為《Attention Is All You Need》的論文正式將Transformer這種深度學(xué)習(xí)架構(gòu)呈現(xiàn)在了大家眼前,證明了完全基于自注意力機(jī)制(Self-Attention)的模型在機(jī)器翻譯任務(wù)上優(yōu)于當(dāng)時的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。

      這篇論文是深度學(xué)習(xí)領(lǐng)域,尤其是自然語言處理(NLP)的重要轉(zhuǎn)折點(diǎn),也被看作是現(xiàn)代人工智能的奠基性論文,甚至成為了21世紀(jì)NLP領(lǐng)域被引用次數(shù)最多的論文之一。今天,我們能看到的絕大多數(shù)大語言模型也都是以Transformer作為核心架構(gòu)的。

      然而,DeepSeek他們發(fā)現(xiàn)Transformer并不是神,它有一個非常反人類的缺陷。它沒有真正的記憶模塊,它的記憶全是靠“算”出來的。

      在標(biāo)準(zhǔn)的Transformer架構(gòu)中,無論一句話多么常見、結(jié)構(gòu)多么固定,模型都會在每一層里反復(fù)計算token之間的關(guān)系。其實在人的語言和思維里,“固定搭配”這件事是很常見的,比如“中國四大…”后面就得接“發(fā)明”,英語里by the后面基本接的就是way。

      可是Transformer不是這么思考問題的,四大發(fā)明、by the way這種在人類看來固定搭配的詞組,在模型內(nèi)部,仍然被拆成多個token(詞元),即使這種組合關(guān)系在訓(xùn)練語料里已經(jīng)被見過成千上萬次,但模型還是每次都重新組合和理解。

      再復(fù)雜一點(diǎn)來說,比如你問大模型一個很簡單的問題:東漢末年的張仲景是誰?在現(xiàn)在的Transformer架構(gòu)下,模型的神經(jīng)網(wǎng)絡(luò)大腦就會開始動用幾百億參數(shù),再經(jīng)過幾十層的向量計算,最后說:“是醫(yī)圣”。

      DeepSeek團(tuán)隊就覺得,這太浪費(fèi)算力了,其實“張仲景是醫(yī)圣”這件事背下來就行。因為只要涉及計算,那肯定就是非常費(fèi)腦子的事,對于AI來說,費(fèi)的就是顯存。換句話說就是,太費(fèi)錢了!

      這次的論文提出的記憶模塊Engram解決的就是這個事,大模型并不是每一步都需要“算”。

      如今,為了更好地節(jié)省資源,MoE成為大模型主流架構(gòu),但MoE最核心、最本質(zhì)的架構(gòu)組件仍然是Transformer,缺少“查表”的能力。

      Engram很像是給大模型裝了一個外接的大字典,他們把“醫(yī)圣張仲景”“四大發(fā)明”這些固定的知識點(diǎn),通過N-gram機(jī)制做成了一個巨大的索引表。以后遇到新問題,能查表的查表,需要算的再算,兩件事分開干。


      DeepSeek設(shè)計了一個精妙的“門控機(jī)制”(Context-aware Gating)。模型會自己判斷,遇到“四大發(fā)明”“勾股定理”這種死知識,Engram模塊直接查表給答案,省時省力。

      遇到復(fù)雜的邏輯推理或閱讀理解,Engram就退后,讓Transformer的核心計算層(MoE)去深度思考。

      結(jié)果就是不僅省力,還變強(qiáng)了。論文中的實驗數(shù)據(jù)顯示,這種“查表+推理”的混合模式,比純粹靠堆參數(shù)的MoE模型更強(qiáng)。Engram在知識問答、代碼、數(shù)學(xué)和邏輯推理的能力都有提升。

      具體是怎么做到的呢?Engram有一些關(guān)鍵的設(shè)計點(diǎn)。

      Engram的核心邏輯是構(gòu)建一個巨大的、外掛式的N-gram嵌入表,并通過精細(xì)的機(jī)制將其無縫融合到Transformer主干中。

      首先是詞表壓縮,標(biāo)準(zhǔn)的分詞器往往會將語義相同但寫法微異的詞分配不同的ID,比如 “Apple”和“apple”,這就導(dǎo)致N-gram空間極其稀疏且存在冗余。Engram就把tokenizer的id做了壓縮,把同義詞合并,論文里提到128k詞表下能壓縮近23%。這就顯著提高了語義密度,使得N-gram查表更高效。

      Engram還采用了多頭哈希的方法。因為直接存儲所有可能的N-gram組合是不現(xiàn)實的,那么為了解決哈希沖突,Engram對每個N-gram階數(shù)n使用K個不同的哈希頭。每個頭使用獨(dú)立的哈希函數(shù)將N-gram映射到嵌入表的一個索引位置。


      最終的記憶向量是所有n階、所有K個頭檢索出的向量的拼接。

      由于查表得到的向量e是靜態(tài)的,且可能包含哈希沖突帶來的噪聲。如果直接加到模型里,會干擾上下文。所以Engram還設(shè)計了一套門控機(jī)制來“過濾”和“融合”這些信息。


      想掀硬件廠商的桌?

      傳統(tǒng)大模型有一個硬約束,參數(shù)要參與計算,得在GPU顯存里。過去幾年,大模型的發(fā)展默認(rèn)接受了一條前提:參數(shù)越多,模型越大越好,顯存就必須越大。

      現(xiàn)在的AI軍備競賽,本質(zhì)上是在拼HBM,也就是高帶寬顯存。

      無論是H100還是H200,最貴的往往是那塊容量有限且速度極快的HBM。所以,為了塞下幾千億參數(shù)的大模型,科技公司不得不買成千上萬張顯卡。

      同時受地緣政治與出口管制影響,中國市場能夠穩(wěn)定獲得的HBM資源愈發(fā)有限,價格也水漲船高。其實英偉達(dá)H20等對中國特供版的GPU,最關(guān)鍵的限制基本都落在HBM上,算力反而是次要被約束的。

      HBM目前產(chǎn)能基本和SK海力士、三星和美光鎖死,已經(jīng)是供不應(yīng)求,同時價格也非常昂貴,平均是普通內(nèi)存價格的7倍左右。

      在這樣的背景下,把模型全塞進(jìn)顯存這條路線,就越來越不可持續(xù)了。DeepSeek這篇論文證明了,其實不需要把所有參數(shù)都塞進(jìn)昂貴的顯存里。

      可以說,DeepSeek這次其實就是想要正面翻過這道墻。

      具體是怎么做到的呢?首先,Engram的記憶訪問是可預(yù)測的,它不像MoE那樣,必須算完這一層才知道下一層要去哪,數(shù)據(jù)必須都在GPU上待命。Engram的索引只由輸入token決定,在推理開始前就可以計算出來。

      這意味著系統(tǒng)可以提前把即將用到的記憶,從主機(jī)內(nèi)存異步搬到GPU。

      第二,大部分參數(shù)其實是“冷的”。自然語言天然遵循 Zipf 分布,極少數(shù)短語被反復(fù)使用,而絕大多數(shù)組合幾乎從不出現(xiàn)。Engram正好利用了這一點(diǎn),將高頻記憶放在顯存或主內(nèi)存,低頻記憶放在更便宜、更大的存儲中。

      在論文中,DeepSeek甚至把一個1000億參數(shù)規(guī)模的Engram記憶表,完整放在CPU里,僅在需要時預(yù)取,結(jié)果整個推理速度的損耗甚至低于3%。

      在算力和顯存都越來越貴、越來越稀缺的當(dāng)下,Engram給行業(yè)提供了一條比較現(xiàn)實的路徑,不是所有性能提升都必須用更貴的硬件來換。

      至此,稀疏化模型也進(jìn)入了計算+記憶的時代,如果即將推出的DeepSeek-V4真的把此前發(fā)布的mHC和這次發(fā)布的Engram落地,那將又是一次架構(gòu)范式的躍遷,讓我們拭目以待吧!



      運(yùn)營編輯 |曹倩審核|孟莎莎




      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      溥儀100w大洋出掉的翡翠青椒驚現(xiàn)蘇富比

      溥儀100w大洋出掉的翡翠青椒驚現(xiàn)蘇富比

      阿褲趣聞君
      2026-02-15 14:08:24
      澳門的賭臺,大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

      澳門的賭臺,大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

      原廣工業(yè)
      2026-02-28 00:58:20
      沐曦股份:2025年年度凈利潤約-7.81億元

      沐曦股份:2025年年度凈利潤約-7.81億元

      每日經(jīng)濟(jì)新聞
      2026-02-27 19:45:20
      告訴你一個殘酷的真相:父母存的錢,其實存的是孩子的選擇權(quán)!

      告訴你一個殘酷的真相:父母存的錢,其實存的是孩子的選擇權(quán)!

      戶外阿毽
      2026-02-20 18:21:02
      日本男籃不敵中國隊!日本媒體:不是裁判幫一把,日本隊會慘敗

      日本男籃不敵中國隊!日本媒體:不是裁判幫一把,日本隊會慘敗

      林子說事
      2026-02-27 13:12:58
      男子凌晨開車跑高速突然聽到“鷹眼”預(yù)警 車速急減后發(fā)現(xiàn)前方有事故現(xiàn)場

      男子凌晨開車跑高速突然聽到“鷹眼”預(yù)警 車速急減后發(fā)現(xiàn)前方有事故現(xiàn)場

      閃電新聞
      2026-02-27 00:07:07
      普京的征兵痛

      普京的征兵痛

      哲空空
      2026-02-27 11:40:23
      1.6L+CVT!日產(chǎn)新車官宣:3月3日,正式發(fā)布

      1.6L+CVT!日產(chǎn)新車官宣:3月3日,正式發(fā)布

      高科技愛好者
      2026-02-27 23:07:42
      一婚嫁給富商,二婚嫁給導(dǎo)演,三婚再嫁給富商,58歲的她怎樣了?

      一婚嫁給富商,二婚嫁給導(dǎo)演,三婚再嫁給富商,58歲的她怎樣了?

      小熊侃史
      2026-02-27 21:30:21
      這次荷蘭沒話說了,中方正式宣布:更換國內(nèi)供應(yīng)商,從此不再合作

      這次荷蘭沒話說了,中方正式宣布:更換國內(nèi)供應(yīng)商,從此不再合作

      書紀(jì)文譚
      2026-02-27 14:17:34
      SpaceX獵鷹9號火箭漲價10%:已超過5億元!

      SpaceX獵鷹9號火箭漲價10%:已超過5億元!

      快科技
      2026-02-27 12:38:36
      呼吸科主任提醒:馬上停止食用4類食物,吃得越久,肺結(jié)節(jié)越長

      呼吸科主任提醒:馬上停止食用4類食物,吃得越久,肺結(jié)節(jié)越長

      岐黃傳人孫大夫
      2026-02-26 22:10:03
      天津一燒烤店起火爆燃!現(xiàn)場傳出爆炸聲,當(dāng)?shù)鼗貞?yīng):火已撲滅,沒有人員傷亡,起火原因正在調(diào)查

      天津一燒烤店起火爆燃!現(xiàn)場傳出爆炸聲,當(dāng)?shù)鼗貞?yīng):火已撲滅,沒有人員傷亡,起火原因正在調(diào)查

      大象新聞
      2026-02-27 10:49:43
      澤連斯基:美國與俄羅斯竟給出相同的勸降——想停戰(zhàn)就放棄頓巴斯

      澤連斯基:美國與俄羅斯竟給出相同的勸降——想停戰(zhàn)就放棄頓巴斯

      老馬拉車莫少裝
      2026-02-22 12:25:15
      香港交易所:歡迎香港特區(qū)政府委任董事會成員

      香港交易所:歡迎香港特區(qū)政府委任董事會成員

      財聯(lián)社
      2026-02-27 17:42:07
      女神黎姿大年初七開工發(fā)紅包,笑容溫柔狀態(tài)絕,員工幸福感拉滿

      女神黎姿大年初七開工發(fā)紅包,笑容溫柔狀態(tài)絕,員工幸福感拉滿

      凡知
      2026-02-26 04:47:37
      女子假信佛與多位高僧發(fā)生不當(dāng)關(guān)系,秘密錄制5600段視頻。

      女子假信佛與多位高僧發(fā)生不當(dāng)關(guān)系,秘密錄制5600段視頻。

      特約前排觀眾
      2026-02-09 00:05:05
      2600公里杜蘭德線,終成巴阿沖突“火藥桶”

      2600公里杜蘭德線,終成巴阿沖突“火藥桶”

      民言民語
      2026-02-27 11:20:51
      卡里克:謝什科替補(bǔ)不是什么問題;我們不是踢的偽九號

      卡里克:謝什科替補(bǔ)不是什么問題;我們不是踢的偽九號

      懂球帝
      2026-02-27 22:30:10
      不要再為賀紅梅感到惋惜了,55歲升任高官的她,早已今非昔比

      不要再為賀紅梅感到惋惜了,55歲升任高官的她,早已今非昔比

      巧手曉廚娘
      2026-01-16 15:41:54
      2026-02-28 02:44:49
      搜狐科技 incentive-icons
      搜狐科技
      搜狐科技官方賬號
      4699文章數(shù) 9180關(guān)注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創(chuàng)融資神話

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

      財經(jīng)要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態(tài)度原創(chuàng)

      旅游
      健康
      藝術(shù)
      手機(jī)
      公開課

      旅游要聞

      蜜雪冰城主題樂園來了 選址已"出爐"!在河南總部

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      藝術(shù)要聞

      紫氣東來,好運(yùn)一整年!

      手機(jī)要聞

      榮耀600系列再次被確認(rèn):9000mAh+兩億像素,處理器有懸念!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版