網易首頁 > 網易號 > 正文申請入駐

突破T級模型“內存墻”：協同壓縮框架將1.3TB MoE模型塞入128GB筆記本

2025-11-21 19:02:20　來源: CSDN

北京舉報

分享至

本文介紹的“協同壓縮”框架，首次成功將 T 級參數的 MoE 大模型部署到 128GB 內存的消費級 PC 上，實現了 >5 tokens/秒的本地推理。該工作由 Moxin AI 團隊完成，于 GOSIM HANGZHOU 2025 大會上由美國東北大學王言治教授進行了演講收錄。

近年來，混合專家（MoE）架構已成為擴展大語言模型（LLMs）至數萬億參數的首選路徑。通過稀疏激活策略，MoE 模型在保持計算成本（FLOPs）相對較低的同時，實現了模型容量的巨大飛躍。

然而，這種架構也帶來了新的系統挑戰，即“內存墻”悖論（Memory Wall）：盡管推理時的計算是稀疏的，但模型的存儲卻是密集的。為了讓路由網絡（Gating）能從龐大的專家庫中進行選擇，所有專家的全量參數（如 DeepSeek-V3 的 1.3TB）都必須完整加載到內存中。這使得T級模型被牢牢限制在數據中心，邊緣部署（Edge Deployment）幾無可能。

為了突破 128GB 這樣的消費級硬件內存限制，模型必須實現超過 10x 的極端壓縮率。傳統的單一壓縮策略在如此激進的目標下面臨失效：

1. 激進剪枝（Pruning）的失效：為達到目標而裁剪掉（例如 90%）的專家，將導致模型知識的災難性損失和路由機制的紊亂，性能嚴重下降。

2. 激進量化（Quantization）的失效：統一的極低比特量化（如 1.5-bit）會嚴重破壞權重精度。如下圖所示，強行量化到 1.5bpw 的 130GB 模型，其性能已完全崩潰，面對提問只會輸出亂碼。

低比特量化模型輸出亂碼

3. 傳統方案的局限：

卸載（Offloading）：僅靠權重卸載策略不足以滿足 128GB 的嚴格內存限制。
主流框架的短板：GPTQ/AWQ 等量化方法缺乏對超低比特的支持（通常僅限 3/4-bit CUDA 核）；同時，KTransformers 等基于 PyTorch 的框架缺乏對 Apple Silicon、AMD、Windows 等多樣化邊緣平臺的兼容性。

單一策略無法解決這個系統性問題。為此，Moxin AI 團隊提出了一種全新的“協同壓縮”（Collaborative Compression）框架，旨在通過多階段、多策略的協同優化，在實現極限壓縮率的同時，保持模型的推理能力。

核心方法：三階段協同壓縮框架

該框架的核心思想是，壓縮不是一個單一的步驟，而是一個環環相扣的流程。團隊設計了一個由專家剪枝、激活調整與卸載、和混合精度量化三個階段組成的協同系統。

第一階段：性能感知專家剪枝 (Performance-Aware Expert Pruning)

傳統剪枝要么隨機移除，要么僅憑粗略指標。本框架則采用“性能感知”策略，對專家的貢獻度進行精細評估。

具體而言，框架會分析專家的兩個關鍵指標：激活頻率 (Freq) 和路由得分 (Score)。通過加權公式 ( I = α × Freq + (1 - α) × Score ) 量化每個專家的實際貢獻度，從而智能地移除那些“貢獻最低”的專家，最大限度地保留模型的“核心智囊”。

第二階段：硬件感知激活調整 (Hardware-Aware Activation Adjustment)

這是確保剪枝后性能穩定的關鍵。在移除大量專家后，原始的路由機制如果保持不變，會導致嚴重的路由不匹配（Mismatch）。

本框架專注于修復這種結構性損傷：它根據剪枝后保留的專家比例，按比例縮放路由器的激活參數（如num_experts_per_tok）。這一步驟使路由機制與新的、更精簡的專家集重新對齊，確保模型在結構大幅精簡后，依然能夠維持正確的邏輯通路。

第三階段：混合精度量化 (Mixed-Precision Quantization)

在模型結構精簡并確定卸載策略后，框架會進行最后、也是最關鍵的量化階段。這是一種非統一的、精細化的混合精度策略，其核心是 llama.cpp 等支持跨平臺（Apple, AMD, Intel）超低比特（IQ1/IQ2）的 GGUF 格式。

1. 基準量化：首先，將精簡后的模型整體量化到一個極低的基準精度（如 IQ1M）。

2. 敏感性分析：隨后，框架執行“張量級敏感性分析”(Tensor-Level Sensitivity Analysis)。它會遍歷模型的關鍵張量（尤其是 Attention 模塊和路由層），通過“試探性”地將其臨時升級到更高精度（如 Q8、Q4）來測量模型性能（如 PPL）的提升。

3. 預算分配與回退：最后，在一個嚴格的全局內存預算（例如 103GB）內，框架會優先將“比特預算”分配給那些“敏感性最高”的張量。如果超出預算，則啟動“回退策略”(Back-off strategy)，例如將低敏感度的張量降級，以確保模型大小絕對符合硬件限制。

這套“剪枝-調整-量化”的協同策略，實現了在保留核心性能的前提下，對模型體積的極限壓縮。

部署策略：動態權重卸載 (Dynamic Weight Offloading)

為突破 128GB 內存瓶頸，框架引入了推理時的動態卸載機制。它能智能地將低頻專家張量卸載至 CPU，通過 CPU/GPU 協同計算平衡負載，在確保模型完整加載的同時帶來最高 25% 的加速。

實驗結果與驗證

團隊通過一系列實驗，驗證了該協同框架的有效性和優越性。

1. 核心成果：實現 T 級模型的本地化部署

最引人注目的成果是，團隊將 671B 參數的 DeepSeek-V3 模型（原始 1.3TB）壓縮至 103GB。

這不是一次理論模擬。團隊成功在 128G B內存的商用 AI 筆記本（AMD RyzenAI Max + "StrixHalo"）上實現了該模型的本地部署和運行，并獲得了 >5 tokens/秒的可用推理速度。據我們所知，這是 T 級參數的 MoE 模型首次在消費級 PC 硬件上成功運行。

2. 性能對比 (1)：103GB vs 140GB (DeepSeek-V3)

壓縮不僅是為了“能跑”，更是為了“好用”。團隊將他們的 103GB 壓縮模型與標準的 140GB 統一低比特量化模型（llama.cpp IQ1_M）進行了基準對比。

結果顯示（見下表），在 MMLU、GSM8K 等多項測試中，103GB 的協同壓縮模型全面超越了 140GB 的統一量化模型。特別是在 Big-Bench Hard (BBH) 推理任務上，140GB 模型的準確性出現顯著下降（24.68），而 103GB 模型依然保持了高水準的推理能力（73.83）。

3. 性能對比 (2)：130GB vs 230GB (DeepSeek-V3)

協同壓縮框架的優勢在不同預算下同樣明顯。如下表所示，團隊的 130GB 混合精度模型，其性能與 230GB 的 Q2_K_L 模型（一個更高比特的量化）相比，在 CMMLU 和 GSM8K 上甚至更高，在其他基準上也極具競爭力。這顯示了在同等性能下，協同壓縮能節省近 100GB 的內存。

4. 框架通用性：210GB (DeepSeek-R1) vs 233GB (Qwen3)

為驗證該框架并非“特調”優化，團隊將其應用于另一款 671B 的 DeepSeek-R1 (0528) 推理模型。

結果顯示，壓縮后的 210GB DeepSeek-R1 模型，在 AIME24、GPQA Diamond 和 GSM8K 等高級推理任務上，持續優于一個體積更大（233GB）的 8-bit Qwen3 MoE 模型。這證明了該協同壓縮框架具有強大的通用性。

5. Kimi K2 Thinking 量化

與此同時，在 Kimi K2 Thinking 模型發布后，Moxin AI 團隊迅速應用此框架，推出了 GGUF 量化版本。這展示了該工具鏈快速跟進業界最新 SOTA 模型的能力，不僅再次驗證了框架的通用性，也凸顯了其作為 T 級模型邊緣化部署工具的價值。

總結與未來展望

這項研究的意義在于，它為 T 級模型“下放”到邊緣設備提供了一條切實可行的技術路徑。MoE 模型的“內存墻”并非不可逾越，通過智能的、協同的壓縮策略，可以在消費級硬件的嚴格限制下，依然保留 SOTA 模型的核心智能。

“協同壓縮”框架的成功，使得在本地設備上運行強大的、保護隱私的、無網絡延遲的 AI 應用成為可能。隨著 T 級 AI 正從數據中心走向每個人的桌面，一個真正由端側大模型驅動的個性化 AI 時代或將加速到來。

目前，Moxin AI 團隊已將所有成果開源，包括論文和 GGUF 模型文件。

資源鏈接

閱讀完整論文：https://arxiv.org/abs/2509.25689
下載 GGUF 模型 (Hugging Face)：

https://huggingface.co/collections/moxin-org/moxin-gguf（投稿或尋求報道：zhanghy@csdn.net ）

【活動分享】2025 年是 C++ 正式發布以來的 40 周年，也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次，C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」現場，與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。

本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題，共同構建了一個全面而立體的知識體系，確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師，還是技術管理者——都能在這里找到自己的坐標，收獲深刻的洞見與啟發。詳情參考官網：https://cpp-summit.org/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.