今天這篇本來早上就該發的
MiniMax 凌晨發了 M2.5,一看數據就知道得寫,但這兩天實在有點累,拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句,恭喜,這次發的東西確實硬
有個事情官方沒說:M2.5 為 229B,激活只有 10B
![]()
https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json
但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。編程跟 Opus 4.6 基本持平,多語言編程直接拿了全行業最高。搜索和工具調用也到了頂尖水平
![]()
M2.5 核心 benchmark 一覽
第一梯隊里參數規模最小的旗艦模型。10B 激活參數打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比
看看經濟賬:M2.5 有兩個版本,能力完全一樣,速度和價格不同
快的叫 M2.5-Lightning,100 TPS,每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
慢的叫 M2.5,50 TPS,價格再砍一半,每百萬 token 輸入 0.3 美金、輸出 1.2 美金。
兩個版本都支持緩存,按輸出價格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20
![]()
換成更具象的數字:在以每秒輸出 100 個 token 的情況下,連續工作一小時只需要 1 美金,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美金。
1 萬美金,夠一個 Agent 連續跑 4 年
這個賬算得過來之后,很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測,M2.5 單任務的總成本只有 Opus 4.6 的 10%
編程 ![]()
編程 benchmark
有個細節挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為,動手寫代碼之前會先從架構師視角把功能、結構、UI 設計全部拆解規劃一遍。這個行為是涌現出來的,不是手動設計的
訓練覆蓋了 10 多種語言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超過 20 萬個真實環境上跑
能力不只是修 bug,從 0 到 1 的系統設計、1 到 10 的開發、10 到 90 的功能迭代、90 到 100 的 code review 和系統測試,全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目,包含 Server 端 API、業務邏輯、數據庫
MiniMax 把 VIBE benchmark 升級了一個 Pro 版,任務復雜度和領域覆蓋度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表現相當
![]()
VIBE Pro 對比
腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。換了腳手架照樣打
搜索和工具調用 ![]()
搜索 benchmark
MiniMax 自建了一個評測集叫 RISE(Realistic Interactive Search Evaluation),專門測真實專業任務上的搜索能力。邏輯是這樣的:人類專家做搜索任務的時候,用搜索引擎本身只占一小部分,大量工作是在專業網頁里深度探索。M2.5 在這類場景上表現很強
比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務上,M2.5 用更少的搜索輪次拿到了更好的結果,輪次消耗比 M2.1 少了大約 20%
模型學會了用更短的路徑逼近答案
辦公 ![]()
辦公場景對比
這塊 MiniMax 找了金融、法律、社科領域的資深從業者一起做訓練數據,把行業的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升
他們內部的 GDPval-MM 評測框架會同時評交付質量和 Agent 執行軌跡的專業性,還監控全流程 token 成本。對比主流模型平均勝率 59.0%
速度
M2.5 比 M2.1 完成 SWE-Bench 任務快了 37%
具體來說:端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘,跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務的 token 消耗從 3.72M 降到了 3.52M
變快了,還變省了
迭代速度
108 天,M2、M2.1、M2.5 三個版本
在 SWE-Bench Verified 上,M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡
![]()
M2 系列 vs 同行的進步速度,自己看斜率
MiniMax 說「行業最快的進步速度」,從這張圖看,不虛
Agent RL
技術層面簡單記幾個點
M2.5 的核心訓練框架叫 Forge,原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent,支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環境之間的泛化性很強
![]()
Forge 架構
算法上用的是他們去年初提出的 CISPO 算法保障 MoE 模型訓練穩定性,加上 Process Reward 做全鏈路監控,再用真實任務耗時作為 Reward 來平衡效果和速度。訓練側通過樹狀合并樣本實現了大約 40 倍加速
![]()
Agent RL 算法與 Reward 設計
MiniMax 說后續會單獨發一篇技術博客詳細講 RL scaling,到時候可以再看看
MiniMax 內部在用
MiniMax 內部已經全面上線 M2.5,覆蓋研發、產品、銷售、HR、財務
整體任務的 30% 由 M2.5 自主完成,編程場景里新提交代碼的 80% 由模型生成
產品側,MiniMax Agent 做了一套標準化的 Office Skills,在 MAX 模式下會根據文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業經驗結合起來創建可復用的「專家」(Expert),目前平臺上已經有超過 1 萬個用戶創建的 Expert
模型權重會在 HuggingFace 開源,支持本地部署
![]()
更多 benchmark 還沒完...但先碎覺
這兩天,國產模型扎堆發布,GLM-5、DeepSeek 更新、M2.5,春節前的密度有點離譜
以及....這些 AI 廠的春節發布,還沒完
然后...晚安...碎覺...
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.