
本文介紹的“協同壓縮”框架,首次成功將 T 級參數的 MoE 大模型部署到 128GB 內存的消費級 PC 上,實現了 >5 tokens/秒的本地推理。該工作由 Moxin AI 團隊完成,于 GOSIM HANGZHOU 2025 大會上由美國東北大學王言治教授進行了演講收錄。
![]()
近年來, 混合專家(MoE)架 構已成為擴展大語言模型(LLMs)至數萬億參數的首選路徑。通過稀疏激活策略,MoE 模型在保持計算成本(FLOPs)相對較低的同時,實現了模型容量的巨大飛躍。
然而,這種架構也帶來了新的系統挑戰,即“內存墻”悖論(Memory Wall):盡管推理時的計算是稀疏的,但模型的存儲卻是密集的。為了讓路由網絡(Gating)能從龐大的專家庫中進行選擇,所有專家的全量參數(如 DeepSeek-V3 的 1.3TB)都必須完整加載到內存中。這使得T級模型被牢牢限制在數據中心,邊緣部署(Edge Deployment)幾無可能。
為了突破 128GB 這樣的消費級硬件內存限制,模型必須實現超過 10x 的極端壓縮率。傳統的單一壓縮策略在如此激進的目標下面臨失效:
1. 激進剪枝(Pruning)的失效:為達到目標而裁剪掉(例如 90%)的專家,將導致模型知識的災難性損失和路由機制的紊亂,性能嚴重下降。
2. 激進量化(Quantization)的失效:統一的極低比特量化(如 1.5-bit)會嚴重破壞權重精度。如下圖所示,強行量化到 1.5bpw 的 130GB 模型,其性能已完全崩潰,面對提問只會輸出亂碼。
![]()
低比特量化模型輸出亂碼
3. 傳統方案的局限:
卸載(Offloading):僅靠權重卸載策略不足以滿足 128GB 的嚴格內存限制。
主流框架的短板:GPTQ/AWQ 等量化方法缺乏對超低比特的支持(通常僅限 3/4-bit CUDA 核);同時,KTransformers 等基于 PyTorch 的框架缺乏對 Apple Silicon、AMD、Windows 等多樣化邊緣平臺的兼容性。
單一策略無法解決這個系統性問題。為此,Moxin AI 團隊提出了一種全新的“協同壓縮”(Collaborative Compression)框架,旨在通過多階段、多策略的協同優化,在實現極限壓縮率的同時,保持模型的推理能力。
核心方法:三階段協同壓縮框架
該框架的核心思想是,壓縮不是一個單一的步驟,而是一個環環相扣的流程。團隊設計了一個由專家剪枝、激活調整與卸載、和混合精度量化三個階段組成的協同系統。
![]()
第一階段:性能感知專家剪枝 (Performance-Aware Expert Pruning)
傳統剪枝要么隨機移除,要么僅憑粗略指標。本框架則采用“性能感知”策略,對專家的貢獻度進行精細評估。
具體而言,框架會分析專家的兩個關鍵指標:激活頻率 (Freq) 和路由得分 (Score)。通過加權公式 ( I = α × Freq + (1 - α) × Score ) 量化每個專家的實際貢獻度,從而智能地移除那些“貢獻最低”的專家,最大限度地保留模型的“核心智囊”。
第二階段:硬件感知激活調整 (Hardware-Aware Activation Adjustment)
這是確保剪枝后性能穩定的關鍵。在移除大量專家后,原始的路由機制如果保持不變,會導致嚴重的路由不匹配(Mismatch)。
本框架專注于修復這種結構性損傷:它根據剪枝后保留的專家比例,按比例縮放路由器的激活參數(如num_experts_per_tok)。這一步驟使路由機制與新的、更精簡的專家集重新對齊,確保模型在結構大幅精簡后,依然能夠維持正確的邏輯通路。
第三階段:混合精度量化 (Mixed-Precision Quantization)
在模型結構精簡并確定卸載策略后,框架會進行最后、也是最關鍵的量化階段。這是一種非統一的、精細化的混合精度策略,其核心是 llama.cpp 等支持跨平臺(Apple, AMD, Intel)超低比特(IQ1/IQ2)的 GGUF 格式。
1. 基準量化:首先,將精簡后的模型整體量化到一個極低的基準精度(如 IQ1M)。
2. 敏感性分析:隨后,框架執行“張量級敏感性分析”(Tensor-Level Sensitivity Analysis)。它會遍歷模型的關鍵張量(尤其是 Attention 模塊和路由層),通過“試探性”地將其臨時升級到更高精度(如 Q8、Q4)來測量模型性能(如 PPL)的提升。
3. 預算分配與回退:最后,在一個嚴格的全局內存預算(例如 103GB)內,框架會優先將“比特預算”分配給那些“敏感性最高”的張量。如果超出預算,則啟動“回退策略”(Back-off strategy),例如將低敏感度的張量降級,以確保模型大小絕對符合硬件限制。
這套“剪枝-調整-量化”的協同策略,實現了在保留核心性能的前提下,對模型體積的極限壓縮。
部署策略:動態權重卸載 (Dynamic Weight Offloading)
為突破 128GB 內存瓶頸,框架引入了推理時的動態卸載機制。它能智能地將低頻專家張量卸載至 CPU,通過 CPU/GPU 協同計算平衡負載,在確保模型完整加載的同時帶來最高 25% 的加速。
實驗結果與驗證
團隊通過一系列實驗,驗證了該協同框架的有效性和優越性。
1. 核心成果:實現 T 級模型的本地化部署
最引人注目的成果是,團隊將 671B 參數的 DeepSeek-V3 模型(原始 1.3TB)壓縮至 103GB。
這不是一次理論模擬。團隊成功在 128G B內存的商用 AI 筆記本(AMD RyzenAI Max + "StrixHalo")上實現了該模型的本地部署和運行,并獲得了 >5 tokens/秒的可用推理速度。據我們所知,這是 T 級參數的 MoE 模型首次在消費級 PC 硬件上成功運行。
![]()
2. 性能對比 (1):103GB vs 140GB (DeepSeek-V3)
壓縮不僅是為了“能跑”,更是為了“好用”。團隊將他們的 103GB 壓縮模型與標準的 140GB 統一低比特量化模型(llama.cpp IQ1_M)進行了基準對比。
結果顯示(見下表),在 MMLU、GSM8K 等多項測試中,103GB 的協同壓縮模型全面超越了 140GB 的統一量化模型。特別是在 Big-Bench Hard (BBH) 推理任務上,140GB 模型的準確性出現顯著下降(24.68),而 103GB 模型依然保持了高水準的推理能力(73.83)。
![]()
3. 性能對比 (2):130GB vs 230GB (DeepSeek-V3)
協同壓縮框架的優勢在不同預算下同樣明顯。如下表所示,團隊的 130GB 混合精度模型,其性能與 230GB 的 Q2_K_L 模型(一個更高比特的量化)相比,在 CMMLU 和 GSM8K 上甚至更高,在其他基準上也極具競爭力。這顯示了在同等性能下,協同壓縮能節省近 100GB 的內存。
![]()
4. 框架通用性:210GB (DeepSeek-R1) vs 233GB (Qwen3)
為驗證該框架并非“特調”優化,團隊將其應用于另一款 671B 的 DeepSeek-R1 (0528) 推理模型。
結果顯示,壓縮后的 210GB DeepSeek-R1 模型,在 AIME24、GPQA Diamond 和 GSM8K 等高級推理任務上,持續優于一個體積更大(233GB)的 8-bit Qwen3 MoE 模型。這證明了該協同壓縮框架具有強大的通用性。
![]()
5. Kimi K2 Thinking 量化
與此同時,在 Kimi K2 Thinking 模型發布后,Moxin AI 團隊迅速應用此框架,推出了 GGUF 量化版本。這展示了該工具鏈快速跟進業界最新 SOTA 模型的能力,不僅再次驗證了框架的通用性,也凸顯了其作為 T 級模型邊緣化部署工具的價值。
![]()
總結與未來展望
這項研究的意義在于,它為 T 級模型“下放”到邊緣設備提供了一條切實可行的技術路徑。MoE 模型的“內存墻”并非不可逾越,通過智能的、協同的壓縮策略,可以在消費級硬件的嚴格限制下,依然保留 SOTA 模型的核心智能。
“協同壓縮”框架的成功,使得在本地設備上運行強大的、保護隱私的、無網絡延遲的 AI 應用成為可能。隨著 T 級 AI 正從數據中心走向每個人的桌面,一個真正由端側大模型驅動的個性化 AI 時代或將加速到來。
目前,Moxin AI 團隊已將所有成果開源,包括論文和 GGUF 模型文件。
資源鏈接
閱讀完整論文:https://arxiv.org/abs/2509.25689
下載 GGUF 模型 (Hugging Face):
https://huggingface.co/collections/moxin-org/moxin-gguf( 投稿或尋求報道:zhanghy@csdn.net )
【活動分享】2025 年是 C++ 正式發布以來的 40 周年,也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次,C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」現場,與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。
本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題,共同構建了一個全面而立體的知識體系,確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師,還是技術管理者——都能在這里找到自己的坐標,收獲深刻的洞見與啟發。詳情參考官網:https://cpp-summit.org/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.