<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      突破T級模型“內存墻”:協同壓縮框架將1.3TB MoE模型塞入128GB筆記本

      0
      分享至


      本文介紹的“協同壓縮”框架,首次成功將 T 級參數的 MoE 大模型部署到 128GB 內存的消費級 PC 上,實現了 >5 tokens/秒的本地推理。該工作由 Moxin AI 團隊完成,于 GOSIM HANGZHOU 2025 大會上由美國東北大學王言治教授進行了演講收錄。


      近年來, 混合專家(MoE)架 構已成為擴展大語言模型(LLMs)至數萬億參數的首選路徑。通過稀疏激活策略,MoE 模型在保持計算成本(FLOPs)相對較低的同時,實現了模型容量的巨大飛躍。

      然而,這種架構也帶來了新的系統挑戰,即“內存墻”悖論(Memory Wall):盡管推理時的計算是稀疏的,但模型的存儲卻是密集的。為了讓路由網絡(Gating)能從龐大的專家庫中進行選擇,所有專家的全量參數(如 DeepSeek-V3 的 1.3TB)都必須完整加載到內存中。這使得T級模型被牢牢限制在數據中心,邊緣部署(Edge Deployment)幾無可能。

      為了突破 128GB 這樣的消費級硬件內存限制,模型必須實現超過 10x 的極端壓縮率。傳統的單一壓縮策略在如此激進的目標下面臨失效:

      1. 激進剪枝(Pruning)的失效:為達到目標而裁剪掉(例如 90%)的專家,將導致模型知識的災難性損失和路由機制的紊亂,性能嚴重下降。

      2. 激進量化(Quantization)的失效:統一的極低比特量化(如 1.5-bit)會嚴重破壞權重精度。如下圖所示,強行量化到 1.5bpw 的 130GB 模型,其性能已完全崩潰,面對提問只會輸出亂碼。


      低比特量化模型輸出亂碼

      3. 傳統方案的局限:

      • 卸載(Offloading):僅靠權重卸載策略不足以滿足 128GB 的嚴格內存限制。

      • 主流框架的短板:GPTQ/AWQ 等量化方法缺乏對超低比特的支持(通常僅限 3/4-bit CUDA 核);同時,KTransformers 等基于 PyTorch 的框架缺乏對 Apple Silicon、AMD、Windows 等多樣化邊緣平臺的兼容性。

      單一策略無法解決這個系統性問題。為此,Moxin AI 團隊提出了一種全新的“協同壓縮”(Collaborative Compression)框架,旨在通過多階段、多策略的協同優化,在實現極限壓縮率的同時,保持模型的推理能力。

      核心方法:三階段協同壓縮框架

      該框架的核心思想是,壓縮不是一個單一的步驟,而是一個環環相扣的流程。團隊設計了一個由專家剪枝、激活調整與卸載、和混合精度量化三個階段組成的協同系統。


      第一階段:性能感知專家剪枝 (Performance-Aware Expert Pruning)

      傳統剪枝要么隨機移除,要么僅憑粗略指標。本框架則采用“性能感知”策略,對專家的貢獻度進行精細評估。

      具體而言,框架會分析專家的兩個關鍵指標:激活頻率 (Freq) 和路由得分 (Score)。通過加權公式 ( I = α × Freq + (1 - α) × Score ) 量化每個專家的實際貢獻度,從而智能地移除那些“貢獻最低”的專家,最大限度地保留模型的“核心智囊”。

      第二階段:硬件感知激活調整 (Hardware-Aware Activation Adjustment)

      這是確保剪枝后性能穩定的關鍵。在移除大量專家后,原始的路由機制如果保持不變,會導致嚴重的路由不匹配(Mismatch)。

      本框架專注于修復這種結構性損傷:它根據剪枝后保留的專家比例,按比例縮放路由器的激活參數(如num_experts_per_tok)。這一步驟使路由機制與新的、更精簡的專家集重新對齊,確保模型在結構大幅精簡后,依然能夠維持正確的邏輯通路。

      第三階段:混合精度量化 (Mixed-Precision Quantization)

      在模型結構精簡并確定卸載策略后,框架會進行最后、也是最關鍵的量化階段。這是一種非統一的、精細化的混合精度策略,其核心是 llama.cpp 等支持跨平臺(Apple, AMD, Intel)超低比特(IQ1/IQ2)的 GGUF 格式。

      1. 基準量化:首先,將精簡后的模型整體量化到一個極低的基準精度(如 IQ1M)。

      2. 敏感性分析:隨后,框架執行“張量級敏感性分析”(Tensor-Level Sensitivity Analysis)。它會遍歷模型的關鍵張量(尤其是 Attention 模塊和路由層),通過“試探性”地將其臨時升級到更高精度(如 Q8、Q4)來測量模型性能(如 PPL)的提升。

      3. 預算分配與回退:最后,在一個嚴格的全局內存預算(例如 103GB)內,框架會優先將“比特預算”分配給那些“敏感性最高”的張量。如果超出預算,則啟動“回退策略”(Back-off strategy),例如將低敏感度的張量降級,以確保模型大小絕對符合硬件限制。

      這套“剪枝-調整-量化”的協同策略,實現了在保留核心性能的前提下,對模型體積的極限壓縮。

      部署策略:動態權重卸載 (Dynamic Weight Offloading)

      為突破 128GB 內存瓶頸,框架引入了推理時的動態卸載機制。它能智能地將低頻專家張量卸載至 CPU,通過 CPU/GPU 協同計算平衡負載,在確保模型完整加載的同時帶來最高 25% 的加速。

      實驗結果與驗證

      團隊通過一系列實驗,驗證了該協同框架的有效性和優越性。

      1. 核心成果:實現 T 級模型的本地化部署

      最引人注目的成果是,團隊將 671B 參數的 DeepSeek-V3 模型(原始 1.3TB)壓縮至 103GB。

      這不是一次理論模擬。團隊成功在 128G B內存的商用 AI 筆記本(AMD RyzenAI Max + "StrixHalo")上實現了該模型的本地部署和運行,并獲得了 >5 tokens/秒的可用推理速度。據我們所知,這是 T 級參數的 MoE 模型首次在消費級 PC 硬件上成功運行。


      2. 性能對比 (1):103GB vs 140GB (DeepSeek-V3)

      壓縮不僅是為了“能跑”,更是為了“好用”。團隊將他們的 103GB 壓縮模型與標準的 140GB 統一低比特量化模型(llama.cpp IQ1_M)進行了基準對比。

      結果顯示(見下表),在 MMLU、GSM8K 等多項測試中,103GB 的協同壓縮模型全面超越了 140GB 的統一量化模型。特別是在 Big-Bench Hard (BBH) 推理任務上,140GB 模型的準確性出現顯著下降(24.68),而 103GB 模型依然保持了高水準的推理能力(73.83)。


      3. 性能對比 (2):130GB vs 230GB (DeepSeek-V3)

      協同壓縮框架的優勢在不同預算下同樣明顯。如下表所示,團隊的 130GB 混合精度模型,其性能與 230GB 的 Q2_K_L 模型(一個更高比特的量化)相比,在 CMMLU 和 GSM8K 上甚至更高,在其他基準上也極具競爭力。這顯示了在同等性能下,協同壓縮能節省近 100GB 的內存。


      4. 框架通用性:210GB (DeepSeek-R1) vs 233GB (Qwen3)

      為驗證該框架并非“特調”優化,團隊將其應用于另一款 671B 的 DeepSeek-R1 (0528) 推理模型。

      結果顯示,壓縮后的 210GB DeepSeek-R1 模型,在 AIME24、GPQA Diamond 和 GSM8K 等高級推理任務上,持續優于一個體積更大(233GB)的 8-bit Qwen3 MoE 模型。這證明了該協同壓縮框架具有強大的通用性。


      5. Kimi K2 Thinking 量化

      與此同時,在 Kimi K2 Thinking 模型發布后,Moxin AI 團隊迅速應用此框架,推出了 GGUF 量化版本。這展示了該工具鏈快速跟進業界最新 SOTA 模型的能力,不僅再次驗證了框架的通用性,也凸顯了其作為 T 級模型邊緣化部署工具的價值。


      總結與未來展望

      這項研究的意義在于,它為 T 級模型“下放”到邊緣設備提供了一條切實可行的技術路徑。MoE 模型的“內存墻”并非不可逾越,通過智能的、協同的壓縮策略,可以在消費級硬件的嚴格限制下,依然保留 SOTA 模型的核心智能。

      “協同壓縮”框架的成功,使得在本地設備上運行強大的、保護隱私的、無網絡延遲的 AI 應用成為可能。隨著 T 級 AI 正從數據中心走向每個人的桌面,一個真正由端側大模型驅動的個性化 AI 時代或將加速到來。

      目前,Moxin AI 團隊已將所有成果開源,包括論文和 GGUF 模型文件。

      資源鏈接

      • 閱讀完整論文:https://arxiv.org/abs/2509.25689

      • 下載 GGUF 模型 (Hugging Face):

      https://huggingface.co/collections/moxin-org/moxin-gguf( 投稿或尋求報道:zhanghy@csdn.net )


      【活動分享】2025 年是 C++ 正式發布以來的 40 周年,也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次,C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」現場,與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。

      本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題,共同構建了一個全面而立體的知識體系,確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師,還是技術管理者——都能在這里找到自己的坐標,收獲深刻的洞見與啟發。詳情參考官網:https://cpp-summit.org/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2025中國籃球名人堂名單:孫軍、王非領銜,鐘南山妻子李少芬入選

      2025中國籃球名人堂名單:孫軍、王非領銜,鐘南山妻子李少芬入選

      狼叔評論
      2025-12-25 16:23:05
      直接跌停!套利失敗,快樂消失了...

      直接跌停!套利失敗,快樂消失了...

      中國基金報
      2025-12-25 16:33:27
      為什么龐家敢硬剛南京博物館,龐家的底蘊你想不到

      為什么龐家敢硬剛南京博物館,龐家的底蘊你想不到

      鶴羽說個事
      2025-12-25 11:39:22
      46條中日航線取消才1天,就炸出一群“牛鬼蛇神”,鄭強說對了

      46條中日航線取消才1天,就炸出一群“牛鬼蛇神”,鄭強說對了

      除夕煙火燦爛
      2025-12-25 10:00:49
      只施壓泰國停火,卻縱容柬方埋雷?泰防長怒批:該國中立是幌子!

      只施壓泰國停火,卻縱容柬方埋雷?泰防長怒批:該國中立是幌子!

      朔方瞭望
      2025-12-24 16:35:47
      京東宣布加薪!2025年終獎投入同比漲幅超70%,采銷平均25薪,上不封頂

      京東宣布加薪!2025年終獎投入同比漲幅超70%,采銷平均25薪,上不封頂

      澎湃新聞
      2025-12-25 16:20:26
      中國首批赴俄游客遭“天價宰殺”,落地即“失聯”!

      中國首批赴俄游客遭“天價宰殺”,落地即“失聯”!

      微評社
      2025-12-25 11:45:30
      獨居老人凌晨去世,消失的手機在冰箱里,“臥室整潔”的細節引起家人懷疑……

      獨居老人凌晨去世,消失的手機在冰箱里,“臥室整潔”的細節引起家人懷疑……

      方圓
      2025-12-22 16:30:46
      圣誕大戰最后一次交手?KD:面對詹姆斯總是壓力大

      圣誕大戰最后一次交手?KD:面對詹姆斯總是壓力大

      體壇周報
      2025-12-25 11:40:12
      家中扒出大量“寶貝”后,南博前院長徐湖平被緊急帶走

      家中扒出大量“寶貝”后,南博前院長徐湖平被緊急帶走

      清書先生
      2025-12-25 13:39:42
      287萬粉絲網紅主播被曝曾因販毒等犯罪多次獲刑 本人回應:你自己去查,這是我隱私

      287萬粉絲網紅主播被曝曾因販毒等犯罪多次獲刑 本人回應:你自己去查,這是我隱私

      紅星新聞
      2025-12-25 18:05:31
      醫生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

      醫生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

      岐黃傳人孫大夫
      2025-12-24 09:08:19
      首批中國游客赴俄遭“天價宰殺”落地即“失聯”支付系統全面失靈

      首批中國游客赴俄遭“天價宰殺”落地即“失聯”支付系統全面失靈

      深度報
      2025-12-23 22:47:10
      準新車竟出“心臟病”,沃爾沃凸輪軸被控故障大爆發,只修不召回?!

      準新車竟出“心臟病”,沃爾沃凸輪軸被控故障大爆發,只修不召回?!

      新民周刊
      2025-12-25 08:25:19
      再見申京,火箭9換1交易方案,組史詩級雙巨頭,字母哥聯手KD沖冠

      再見申京,火箭9換1交易方案,組史詩級雙巨頭,字母哥聯手KD沖冠

      毒舌NBA
      2025-12-25 16:54:43
      經濟學家姚洋:制約中國生育率低的不是房價,而是教育

      經濟學家姚洋:制約中國生育率低的不是房價,而是教育

      觀察者網
      2025-12-23 13:42:06
      澳門博彩巨頭攜員工赴井岡山,學習革命精神

      澳門博彩巨頭攜員工赴井岡山,學習革命精神

      跟著老李看世界
      2025-12-25 13:02:12
      安徽一男子信訪被勸返收鎮干部4300元路費被判尋釁滋事罪,二審駁回上訴

      安徽一男子信訪被勸返收鎮干部4300元路費被判尋釁滋事罪,二審駁回上訴

      齊魯壹點
      2025-12-24 22:30:08
      如今“家喻戶曉”的明代畫家仇英,他在古代畫家中歷史地位如何?

      如今“家喻戶曉”的明代畫家仇英,他在古代畫家中歷史地位如何?

      老范談史
      2025-12-25 10:24:43
      突然爆雷!廣東總部“人去樓空”!

      突然爆雷!廣東總部“人去樓空”!

      東莞好生活
      2025-12-25 16:22:26
      2025-12-25 20:16:49
      CSDN incentive-icons
      CSDN
      成就一億技術人
      26209文章數 242203關注度
      往期回顧 全部

      科技要聞

      屠龍少年被"招安"!英偉達平安夜豪擲200億

      頭條要聞

      287萬粉絲網紅被指曾販毒 本人:你自己查 這是我隱私

      頭條要聞

      287萬粉絲網紅被指曾販毒 本人:你自己查 這是我隱私

      體育要聞

      單賽季11冠,羽壇“安洗瑩時代”真的來了

      娛樂要聞

      朱孝天把阿信好意當球踢!

      財經要聞

      時隔15月,人民幣升破7,三大推手曝光

      汽車要聞

      速來!智界在上海西岸準備了年末潮流盛典

      態度原創

      時尚
      本地
      房產
      數碼
      家居

      今年冬天最火的搭配竟然是它?從現在美到明年

      本地新聞

      這輩子要積多少德,下輩子才能投胎到德國當狗

      房產要聞

      太猛了!單月新增企業4.1萬家,又一波巨頭涌向海南!

      數碼要聞

      性能、能效、AI三位一體:天璣芯片重新定義旗艦平板體驗

      家居要聞

      經典彌新 品味浪漫居所

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线观看美女网站大全免费| 国产VA在线观看| 亚洲精品久久久蜜桃| jizz日本人妻| 国模免费视频| 久久人人爽人人爽人人片| 亚洲日韩国产精品第一页一区| 99久久婷婷国产综合精品青草五月 | 罗源县| 中文字幕无码色综合网| 午夜免费视频| 国产99视频精品免费视频6| 日韩综合| 文登市| 乱妇乱女熟妇熟女网站| 久久久无码精品亚洲日韩按摩| 国产波霸爆乳一区二区| 性欧美三级在线观看| 亚色网站| 日韩美女久久| 香蕉av777xxx色综合一区| 大香蕉在线视频99| 亚洲爽图| 国产91人妻人伦a8198v久| 国产成人精品一区二区三区| 中文字幕人成无码免费视频| 亚洲色a| 宝坻区| 亚洲无av码一区二区三区| 亚洲永久精品ww47| 亚洲欧美在线观看| 沁水县| 欧美综合自拍亚洲综合图| 亚洲国产综合自在线另类| 专区国产无码| 国产乱人伦精品| 久久久久女人精品毛片| 热久久美女精品天天吊色| 福利在线视频导航| 18禁止看的免费污网站| 国产无遮挡18禁网站免费|