<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      從DSA到Engram,一年來DeepSeek層層勾勒V4架構創新

      0
      分享至

      隨著開年DeepSeek加快了技術分享的節奏,市場再次期待DeepSeek-V4的橫空出世。不少人推測,它可能會在春節前后亮相。但與推出的時間相比,更大的懸念是,它將以何種程度的創新,將中國與美國在前沿模型的差距縮短到什么程度?它是否會基于中國的算力基礎設施來實現這一跨越。

      全球對前沿模型的探索,仍在尋找下一條行之有效的擴展路徑。DeepSeek也是如此。長期以來,它對此的探索主線,一直都是如何在有限的資源下通過架構創新,最大程度上地提升訓練與推理的效率。這既是一個數學問題,也是一個工程問題。

      過往論文正在揭示它的大致模樣。從V3到V3.1再到V3.2,DeepSeek先后嘗試了UE8M0 FP8、DSA、上下文光學壓縮、mHC與Engram。它們的核心思路之一就是“稀疏化”,讓“專家”、“精度”、“注意力”與“記憶”變得更為稀疏。法國AI研究實驗室Pleias聯合創始人Alexander Doria認為,DeepSeek-V4將是死磕“層效率”的典范,讓每一層神經網絡在架構中發揮最大的效率。

      DeepSeek最新的嘗試是Engram。它所要解決的正是“記憶”負擔的稀疏化,以推動模型規模繼續擴展。標準的Transformer架構缺乏原生的“記憶能力”,它根據概率預測下一個token,根據全局上下文進行復雜推理,消耗了多個早期注意力層和前饋網絡,浪費寶貴的資源去計算那些原本只需要簡單檢索的東西。


      如果說MoE是“條件計算”,通過路由器選擇稀疏性的激活少數幾個專家,在不顯著增加計算成本的前提下,大幅增加模型規模;那么,Engram就是“條件記憶”,通過稀疏查表操作,為固定知識檢索靜態嵌入。DeepSeek的論文將MoE與Engram稱為“互補性稀疏維度”。

      在Engram的幫助下,那些頻繁訪問的內容,可以緩存在HBM等更快的存儲層級中,而長尾的低頻內容則可以存放在SSD等速度較慢但容量更大的介質中。不過,與以往的RAG不同,Engram仍然是模型內部的參數化記憶,它必須參與預訓練,并直接集成到模型層中。當將1000億參數的Engram表,完全卸載到DRAM等內存中,端到端吞吐量下降不到3%。

      于是,“內存”與“計算”解耦了。而且這卓有成效。DeepSeek團隊發現,當大約20%至25%的參數預算分配給Engram時,模型性能最佳。在相同的激活參數與訓練token數量等條件下,Engram-27B的整體性能就要明顯優于純粹的稀疏模型MoE-27B。

      而且,研發團隊還發現,由于將大量計算資源“讓”給了復雜推理,它不僅在知識密集型任務上表現出色,而且在通用推理能力以及代碼與數學推理任務上同樣表現出色。同時,它釋放了注意力機制的容量,也提升了長上下文檢索能力。或許,法律、金融與醫療等“記憶密集”的垂直領域,將迎來更少幻覺與更強推理的模型應用。


      這對于國產算力基礎設施而言,也是一個好消息。Engram有效繞過了GPU的HBM限制,為激進的參數擴展鋪平了道路。論文最后寫道,“條件記憶將成為下一代稀疏大模型中不可或缺的基礎建模范式”。

      這已經不是DeepSeek第一次在論文中勾勒下一代模型的設計藍圖。幾乎其所有研究工作,都圍繞著架構層面的創新展開。許多問題也許早已被其他AI實驗室提出,甚至被反復嘗試卻無疾而終,而DeepSeek選擇將這些被擱置的方向重新拾起,在工程與數學層面加以重構與優化,借此持續縮小與美國前沿模型之間的差距。這些探索共同指向的是穩定而有效擴展的模型架構的實現路徑。

      最近的一次是跨年期間發布的流形約束超連接(mHC)。盡管超級連接(Hyper-Connections)可以為大模型訓練帶來非常快的收斂速度,某些設置下提升接近80%。但它缺乏擴展的穩定性,模型越大、層數越多,問題越嚴重。mHC可以確保每一層的計算仍然能穩定地轉化為有效表示。DeepSeek在論文中寫道,它“為大模型基礎架構的演進指明有前景的方向”。

      再一次則是去年10月,DeepSeek提出了DeepSeek-OCR模型,概念核心是“上下文光學壓縮”(Context Optical Compression),顯著提高了信息密度與計算效率,當時團隊就思考過通過逐級壓縮信息,直至邊際遺忘,或內化為更深層的表征。在論文的最后,DeepSeek團隊致辭說,這一思路“為構建一種理論上無限上下文長度的模型架構(unlimited context architectures)提供了新的可能”。

      早更一點,DeepSeek-V3.2-Exp最核心的實驗則是引入了名為DSA的新架構,這是探索細粒度稀疏機制,成本更低的同時幾乎不影響模型的輸出效果。DeepSeek官方將DSA稱為邁向下一代架構的“中間步驟”。這似乎在暗示下一次更新可能直接出現在V4上。

      要真正追平乃至超越Gemini-3,DeepSeek仍然需要提升模型的多模態能力。代碼與數學,多模態與自然語言本身,三者正是DeepSeek創始人梁文鋒押注的三個方向。在上一個跨年之交發布統一多模態理解與生成的自回歸框架Janus后,DeepSeek在這領域鮮少動作,它會成為下一代核心模型的一部分嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      3200元買了2000克積存金!北京銀行:扣回、沖正

      3200元買了2000克積存金!北京銀行:扣回、沖正

      經濟觀察報
      2026-03-03 00:18:20
      剛下飛機行李就沒了!杭州姑娘花10多萬去南極旅游卻崩潰:衣物全靠借

      剛下飛機行李就沒了!杭州姑娘花10多萬去南極旅游卻崩潰:衣物全靠借

      環球網資訊
      2026-03-03 08:53:57
      美伊沖突發酵!特朗普稱不排除派地面部隊,中國車企意外走紅,比亞迪“貼身接導彈”,2月海外爆賣10萬輛

      美伊沖突發酵!特朗普稱不排除派地面部隊,中國車企意外走紅,比亞迪“貼身接導彈”,2月海外爆賣10萬輛

      金融界
      2026-03-03 09:54:34
      外甥大年初二理發舅舅死了,舅媽向外甥索賠100萬,法院判決來了

      外甥大年初二理發舅舅死了,舅媽向外甥索賠100萬,法院判決來了

      江山揮筆
      2026-03-03 10:26:43
      伊朗宣示不會與美國談判,拉里賈尼:他們不可能打了伊朗就一走了之

      伊朗宣示不會與美國談判,拉里賈尼:他們不可能打了伊朗就一走了之

      環球網資訊
      2026-03-03 07:00:20
      無警報、無生還!伊朗一枚導彈直穿防空,炸死科威特港口6名美軍

      無警報、無生還!伊朗一枚導彈直穿防空,炸死科威特港口6名美軍

      Nee看
      2026-03-03 11:00:32
      以色列全境發布防空警報

      以色列全境發布防空警報

      環球網資訊
      2026-03-03 07:04:52
      薛之謙風波持續發酵,諸多黑料被扒,謝娜發聲補刀,胡彥斌躺槍

      薛之謙風波持續發酵,諸多黑料被扒,謝娜發聲補刀,胡彥斌躺槍

      娛文速遞
      2026-03-03 10:57:30
      蘋果宣布老款 iPhone 大降價,二手價格崩盤!

      蘋果宣布老款 iPhone 大降價,二手價格崩盤!

      XCiOS俱樂部
      2026-03-03 11:54:06
      祖國遭受戰亂,伊朗女足在奏國歌時集體保持緘默

      祖國遭受戰亂,伊朗女足在奏國歌時集體保持緘默

      懂球帝
      2026-03-03 10:15:09
      美國打伊朗到底圖什么?八成中國人以為是搶石油……

      美國打伊朗到底圖什么?八成中國人以為是搶石油……

      基本常識
      2026-03-02 23:53:16
      美軍一架F/A-18被擊落

      美軍一架F/A-18被擊落

      武器縱論
      2026-03-03 12:25:55
      美軍三架F-15E被擊落,到底誰干的?

      美軍三架F-15E被擊落,到底誰干的?

      樞密院十號
      2026-03-03 09:41:25
      韓國股市暴跌觸發熔斷

      韓國股市暴跌觸發熔斷

      界面新聞
      2026-03-03 11:26:20
      “斬首”哈梅內伊,內塔尼亞胡賭上身家性命?

      “斬首”哈梅內伊,內塔尼亞胡賭上身家性命?

      中國新聞周刊
      2026-03-02 22:13:45
      3月1日起全國執行!這些費用全取消,家家都能省!

      3月1日起全國執行!這些費用全取消,家家都能省!

      達文西看世界
      2026-03-02 15:40:41
      高官確認:伊朗不會退出世界杯!有權參加 在美國踢比賽也沒問題

      高官確認:伊朗不會退出世界杯!有權參加 在美國踢比賽也沒問題

      念洲
      2026-03-03 06:31:52
      打擊伊朗前美國中央司令部司令鼓勵5萬美軍官兵:保持無情的致命性!

      打擊伊朗前美國中央司令部司令鼓勵5萬美軍官兵:保持無情的致命性!

      互聯網大觀
      2026-03-03 13:20:18
      2026退稅正式開始!選對多退幾千元!

      2026退稅正式開始!選對多退幾千元!

      星哥說事
      2026-03-02 19:13:22
      前總統生死不明 伊朗人的“脊梁”會被打斷嗎?

      前總統生死不明 伊朗人的“脊梁”會被打斷嗎?

      看看新聞Knews
      2026-03-02 23:07:07
      2026-03-03 14:31:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      319文章數 62關注度
      往期回顧 全部

      科技要聞

      手機AI在MWC上卷出了新高度

      頭條要聞

      伊朗稱摧毀美空軍基地大樓:20架無人機和3枚導彈命中

      頭條要聞

      伊朗稱摧毀美空軍基地大樓:20架無人機和3枚導彈命中

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護夫:喊話薛之謙給張杰道歉

      財經要聞

      霍爾木茲海峽近乎停擺 布油直逼80美元

      汽車要聞

      長安汽車2月銷量151922輛 環比逆勢增長12.8%

      態度原創

      游戲
      親子
      數碼
      旅游
      公開課

      卡普空現已移除《生化危機4:重制版》新加密保護

      親子要聞

      自閉癥兒童空間方位分不清?別急!這樣教so easy

      數碼要聞

      NVIDIA新驅動解決風扇停轉問題:但悄悄限制RTX 50 GPU電壓!

      旅游要聞

      從“觀燈”到“玩燈” 達州“燈會+”激活夜經濟新動能

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版