網易首頁 > 網易號 > 正文申請入駐

Mac跑MiniMax-M2.7，2條路徑對比

2026-04-18 15:43:21　來源: Ai學習的老章

北京舉報

分享至

今天聊一個很多 Mac 用戶關心的問題：MiniMax-M2.7 怎么在 Mac 上跑起來？

MiniMax-M2.7 是什么來頭？

先簡單回顧一下

M2.7 是 MiniMax 最新的開源大模型，MoE 架構，總參數 228.7B，每 token 激活約 10B 參數，192K 上下文

這貨最亮眼的幾個數據：

**SWE-Pro 56.22%**，和 GPT-5.3-Codex 打平
MLE Bench Lite 66.6%獎牌率，僅次于 Opus-4.6 和 GPT-5.4
原生支持 Agent Teams，多智能體協作
Always-reasoning 模式，始終開啟思考鏈

問題是——228B 參數，普通人怎么跑？答案是量化。但 MiniMax 的量化比一般模型坑多得多

為什么標準量化在 MiniMax 上翻車？

這是寫這篇文章最想說的一件事：標準 MLX 均勻量化在 MiniMax-M2.7 上完全失效——MMLU 直接降到 ~25%，基本等于隨機猜

原因在于 MoE 架構的路由器（Router Gate）

均勻量化連路由器一起壓了，導致 token 被分配到錯誤的專家上，整個模型就廢了

所以 Mac 用戶想跑 M2.7，目前只有兩條靠譜的路

路徑一：JANGTQ + MLX Studio（推薦！）

JANGTQ（JANG TurboQuant）是目前最小體積、最高質量的 M2.7 Apple Silicon 量化方案，來自 JANGQ-AI 團隊

核心思路：混合精度量化。路由專家 MLP（占 98% 參數）用 2-bit codebook + Hadamard 旋轉壓縮，而 Attention、共享專家、Router Gate 保持 8-bit 或 fp16。

硬核數據：

指標

數值

磁盤占用

56.5 GB

GPU 顯存

56.5 GB

MMLU（200題）

91.5%

速度（M3 Ultra）

~44 tok/s

你沒看錯——2-bit 量化，只要 56.5GB，MMLU 居然能打到 91.5%。對比標準 MLX 量化的 ~25%，這差距簡直是天壤之別

怎么跑：

最簡單的方式是用 MLX Studio（內置了 JANGTQ 運行時和 Metal 內核）：

命令行方式也行：

pip install jang-tools

from huggingface_hub import snapshot_download
from jang_tools.load_jangtq import load_jangtq_model
from mlx_lm import generate

 model_path = snapshot_download("JANGQ-AI/MiniMax-M2.7-JANGTQ")
model, tokenizer = load_jangtq_model(model_path)

 messages = [{"role": "user", "content": "用5句話解釋光合作用"}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
out = generate(model, tokenizer, prompt, max_tokens=600, verbose=True)

 # 剝離推理鏈獲取最終答案
if""in out:
    out = out.split("")[-1].strip()
print(out)

硬件要求：

機器

最低內存

預期速度

M3 Ultra / M2 Ultra

96 GB

~44 tok/s

M4 Max

96 GB

~35-40 tok/s

M4 Pro

64 GB

~25-30 tok/s（非常緊張）

64GB 的 M4 Pro 理論上能跑，但會很緊張

96GB 是比較舒服的起點

路徑二：LM Studio + GGUF（最省心）

如果你就想點幾下鼠標就開跑，LM Studio 是最簡單的選擇。

LM Studio 已經上線了 MiniMax-M2.7 的 GGUF 版本，基于 llama.cpp b8778 量化。

使用步驟：

下載安裝 LM Studio：https://lmstudio.ai/download
搜索minimax/minimax-m2.7
選擇量化版本下載
設置參數：Temperature=1.0（必須！）、Top K=40、Top P=0.95
開始對話

GGUF 來源是lmstudio-community/MiniMax-M2.7-GGUF。如果追求更好的量化質量，Unsloth 提供了 22 個 Dynamic 2.0 量化版本，逐層差異化量化，質量全面優于標準 imatrix。

但有個大問題：LM Studio 官方標注最低系統內存 138GB

兩條路徑，怎么選？
兩條路徑對比

維度

JANGTQ + MLX Studio

LM Studio / GGUF

最小磁盤

56.5 GB

~108 GB

最低內存

64 GB

138 GB

MMLU 質量

91.5%

~64-65%（4-bit）

速度(M3 Ultra)

~44 tok/s

待測

易用性

需安裝 jang-tools

開箱即用

生態兼容

MLX 生態

OpenAI 兼容 API

我的建議：

96GB 以下的 Mac→ 只能走 JANGTQ，別無選擇
128GB+ 且需要 OpenAI 兼容 API→ LM Studio / GGUF 更方便
追求最佳質量→ JANGTQ 碾壓，2-bit 打 4-bit，這個結果說實話我也很意外

?? 關鍵設置提醒

不管走哪條路，這幾個參數必須注意：

Temperature 必須設 1.0—— temp=0 會導致思考鏈死循環，模型會一直下去停不了
max_tokens ≥ 8192—— Always-reasoning 模型的思考過程需要足夠空間
內存必須大于模型文件大小—— 否則回退到硬盤卸載，速度斷崖式下降

總結

MiniMax-M2.7 在 Mac 上的本地部署，JANGTQ 是目前當之無愧的最優解——體積最小、質量最高。2-bit 量化能拿到 91.5% MMLU，這在我寫過的所有量化方案里都算炸裂級別的。

LM Studio 勝在省心和生態兼容，但內存門檻太高。

如果你手上有一臺 96GB+ 的 Mac，強烈建議先試試 JANGTQ

56.5GB 下載完就能跑，44 tok/s 的速度日常使用完全夠了。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.