今天聊一個很多 Mac 用戶關心的問題:MiniMax-M2.7 怎么在 Mac 上跑起來?
MiniMax-M2.7 是什么來頭?
先簡單回顧一下
M2.7 是 MiniMax 最新的開源大模型,MoE 架構,總參數 228.7B,每 token 激活約 10B 參數,192K 上下文
這貨最亮眼的幾個數據:
**SWE-Pro 56.22%**,和 GPT-5.3-Codex 打平
MLE Bench Lite 66.6%獎牌率,僅次于 Opus-4.6 和 GPT-5.4
原生支持 Agent Teams,多智能體協作
Always-reasoning 模式,始終開啟思考鏈
問題是——228B 參數,普通人怎么跑?答案是量化。但 MiniMax 的量化比一般模型坑多得多
為什么標準量化在 MiniMax 上翻車?
這是寫這篇文章最想說的一件事:標準 MLX 均勻量化在 MiniMax-M2.7 上完全失效——MMLU 直接降到 ~25%,基本等于隨機猜
原因在于 MoE 架構的路由器(Router Gate)
均勻量化連路由器一起壓了,導致 token 被分配到錯誤的專家上,整個模型就廢了
所以 Mac 用戶想跑 M2.7,目前只有兩條靠譜的路
路徑一:JANGTQ + MLX Studio(推薦!)
JANGTQ(JANG TurboQuant)是目前最小體積、最高質量的 M2.7 Apple Silicon 量化方案,來自 JANGQ-AI 團隊
核心思路:混合精度量化。路由專家 MLP(占 98% 參數)用 2-bit codebook + Hadamard 旋轉壓縮,而 Attention、共享專家、Router Gate 保持 8-bit 或 fp16。
![]()
硬核數據:
指標
數值
磁盤占用
56.5 GB
GPU 顯存
56.5 GB
MMLU(200題)
91.5%
速度(M3 Ultra)
~44 tok/s
你沒看錯——2-bit 量化,只要 56.5GB,MMLU 居然能打到 91.5%。對比標準 MLX 量化的 ~25%,這差距簡直是天壤之別
怎么跑:
最簡單的方式是用 MLX Studio(內置了 JANGTQ 運行時和 Metal 內核):
命令行方式也行:
pip install jang-tools
from huggingface_hub import snapshot_download
from jang_tools.load_jangtq import load_jangtq_model
from mlx_lm import generate
model_path = snapshot_download("JANGQ-AI/MiniMax-M2.7-JANGTQ")
model, tokenizer = load_jangtq_model(model_path)
messages = [{"role": "user", "content": "用5句話解釋光合作用"}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)
out = generate(model, tokenizer, prompt, max_tokens=600, verbose=True)# 剝離推理鏈獲取最終答案
if""in out:
out = out.split("")[-1].strip()
print(out)
硬件要求:
機器
最低內存
預期速度
M3 Ultra / M2 Ultra
96 GB
~44 tok/s
M4 Max
96 GB
~35-40 tok/s
M4 Pro
64 GB
~25-30 tok/s(非常緊張)
64GB 的 M4 Pro 理論上能跑,但會很緊張
96GB 是比較舒服的起點
路徑二:LM Studio + GGUF(最省心)
如果你就想點幾下鼠標就開跑,LM Studio 是最簡單的選擇。
LM Studio 已經上線了 MiniMax-M2.7 的 GGUF 版本,基于 llama.cpp b8778 量化。
使用步驟:
下載安裝 LM Studio:https://lmstudio.ai/download
搜索
minimax/minimax-m2.7選擇量化版本下載
設置參數:Temperature=1.0(必須!)、Top K=40、Top P=0.95
開始對話
GGUF 來源是lmstudio-community/MiniMax-M2.7-GGUF。如果追求更好的量化質量,Unsloth 提供了 22 個 Dynamic 2.0 量化版本,逐層差異化量化,質量全面優于標準 imatrix。
但有個大問題:LM Studio 官方標注最低系統內存 138GB
兩條路徑,怎么選?![]()
兩條路徑對比
維度
JANGTQ + MLX Studio
LM Studio / GGUF
最小磁盤
56.5 GB
~108 GB
最低內存
64 GB
138 GB
MMLU 質量
91.5%
~64-65%(4-bit)
速度(M3 Ultra)
~44 tok/s
待測
易用性
需安裝 jang-tools
開箱即用
生態兼容
MLX 生態
OpenAI 兼容 API
我的建議:
96GB 以下的 Mac→ 只能走 JANGTQ,別無選擇
128GB+ 且需要 OpenAI 兼容 API→ LM Studio / GGUF 更方便
追求最佳質量→ JANGTQ 碾壓,2-bit 打 4-bit,這個結果說實話我也很意外
不管走哪條路,這幾個參數必須注意:
Temperature 必須設 1.0—— temp=0 會導致思考鏈死循環,模型會一直
下去停不了max_tokens ≥ 8192—— Always-reasoning 模型的思考過程需要足夠空間
內存必須大于模型文件大小—— 否則回退到硬盤卸載,速度斷崖式下降
MiniMax-M2.7 在 Mac 上的本地部署,JANGTQ 是目前當之無愧的最優解——體積最小、質量最高。2-bit 量化能拿到 91.5% MMLU,這在我寫過的所有量化方案里都算炸裂級別的。
LM Studio 勝在省心和生態兼容,但內存門檻太高。
如果你手上有一臺 96GB+ 的 Mac,強烈建議先試試 JANGTQ
56.5GB 下載完就能跑,44 tok/s 的速度日常使用完全夠了。
.7
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.