網易首頁 > 網易號 > 正文申請入駐

MiniMax M2.5 發布：10B 激活參數，打進頭部模型

2026-02-13 23:33:24　來源: 賽博禪心

北京舉報

分享至

今天這篇本來早上就該發的

MiniMax 凌晨發了 M2.5，一看數據就知道得寫，但這兩天實在有點累，拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句，恭喜，這次發的東西確實硬

有個事情官方沒說：M2.5 為 229B，激活只有 10B

https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

但在SWE-Bench Verified 80.2%，Multi-SWE-Bench 51.3%（第一），BrowseComp 76.3%。編程跟 Opus 4.6 基本持平，多語言編程直接拿了全行業最高。搜索和工具調用也到了頂尖水平

M2.5 核心 benchmark 一覽

第一梯隊里參數規模最小的旗艦模型。10B 激活參數打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比

看看經濟賬：M2.5 有兩個版本，能力完全一樣，速度和價格不同

快的叫 M2.5-Lightning，100 TPS，每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
慢的叫 M2.5，50 TPS，價格再砍一半，每百萬 token 輸入 0.3 美金、輸出 1.2 美金。

兩個版本都支持緩存，按輸出價格算，M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20

換成更具象的數字：在以每秒輸出 100 個 token 的情況下，連續工作一小時只需要 1 美金，而在每秒輸出 50 個 token 的情況下，只需要 0.3 美金。

1 萬美金，夠一個 Agent 連續跑 4 年

這個賬算得過來之后，很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測，M2.5 單任務的總成本只有 Opus 4.6 的 10%

編程
編程 benchmark

有個細節挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為，動手寫代碼之前會先從架構師視角把功能、結構、UI 設計全部拆解規劃一遍。這個行為是涌現出來的，不是手動設計的

訓練覆蓋了 10 多種語言（Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby），在超過 20 萬個真實環境上跑

能力不只是修 bug，從 0 到 1 的系統設計、1 到 10 的開發、10 到 90 的功能迭代、90 到 100 的 code review 和系統測試，全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目，包含 Server 端 API、業務邏輯、數據庫

MiniMax 把 VIBE benchmark 升級了一個 Pro 版，任務復雜度和領域覆蓋度都拉高了不少。在 VIBE Pro 上，M2.5 跟 Opus 4.5 表現相當

VIBE Pro 對比

腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench，M2.5 是 79.7，Opus 4.6 是 78.9。在 OpenCode 上，M2.5 是 76.1，Opus 4.6 是 75.9。換了腳手架照樣打

搜索和工具調用
搜索 benchmark

MiniMax 自建了一個評測集叫 RISE（Realistic Interactive Search Evaluation），專門測真實專業任務上的搜索能力。邏輯是這樣的：人類專家做搜索任務的時候，用搜索引擎本身只占一小部分，大量工作是在專業網頁里深度探索。M2.5 在這類場景上表現很強

比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務上，M2.5 用更少的搜索輪次拿到了更好的結果，輪次消耗比 M2.1 少了大約 20%

模型學會了用更短的路徑逼近答案

辦公
辦公場景對比

這塊 MiniMax 找了金融、法律、社科領域的資深從業者一起做訓練數據，把行業的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升

他們內部的 GDPval-MM 評測框架會同時評交付質量和 Agent 執行軌跡的專業性，還監控全流程 token 成本。對比主流模型平均勝率 59.0%

速度

M2.5 比 M2.1 完成 SWE-Bench 任務快了 37%

具體來說：端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘，跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務的 token 消耗從 3.72M 降到了 3.52M

變快了，還變省了

迭代速度

108 天，M2、M2.1、M2.5 三個版本

在 SWE-Bench Verified 上，M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡

M2 系列 vs 同行的進步速度，自己看斜率

MiniMax 說「行業最快的進步速度」，從這張圖看，不虛

Agent RL

技術層面簡單記幾個點

M2.5 的核心訓練框架叫 Forge，原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent，支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環境之間的泛化性很強

Forge 架構

算法上用的是他們去年初提出的 CISPO 算法保障 MoE 模型訓練穩定性，加上 Process Reward 做全鏈路監控，再用真實任務耗時作為 Reward 來平衡效果和速度。訓練側通過樹狀合并樣本實現了大約 40 倍加速

Agent RL 算法與 Reward 設計

MiniMax 說后續會單獨發一篇技術博客詳細講 RL scaling，到時候可以再看看

MiniMax 內部在用

MiniMax 內部已經全面上線 M2.5，覆蓋研發、產品、銷售、HR、財務
整體任務的 30% 由 M2.5 自主完成，編程場景里新提交代碼的 80% 由模型生成

產品側，MiniMax Agent 做了一套標準化的 Office Skills，在 MAX 模式下會根據文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業經驗結合起來創建可復用的「專家」（Expert），目前平臺上已經有超過 1 萬個用戶創建的 Expert

模型權重會在 HuggingFace 開源，支持本地部署

更多 benchmark 還沒完...但先碎覺

這兩天，國產模型扎堆發布，GLM-5、DeepSeek 更新、M2.5，春節前的密度有點離譜

以及....這些 AI 廠的春節發布，還沒完

然后...晚安...碎覺...

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

喬布斯「反對」的觸屏 MacBook，為什么必然會來？

愛范兒 2026-02-25 20:34:13
8 跟貼 8
今年見！首款觸屏版MacBook Pro雖遲但到，蘋果終于要“變天”了

雷科技 2026-02-25 14:57:57
17 跟貼 17

觸屏MacBook要來了，蘋果做了個違背「祖訓」的決定

雷科技 2026-02-26 11:42:05
0 跟貼 0

馬年4大頂流模型會師阿里云Coding Plan開工！Token量大管飽

量子位 2026-02-25 23:10:53
3 跟貼 3
土耳其五代機完成迭代！三架原型機同時亮相，設計更加完善

精彩不容錯過 2026-02-23 18:54:45
40 跟貼 40

消費級顯卡可跑！剛剛，阿里Qwen3.5又開源3款新模型

機器之心Pro 2026-02-25 17:09:48
16 跟貼 16

你就這么明晃晃的把參數亮出來了

丙午動畫 2026-02-25 06:00:00
0 跟貼 0
別了，OpenClaw！19個頂尖AI夜襲硅谷，3萬刀金融終端變「廢鐵」

新智元 2026-02-26 11:56:23
0 跟貼 0

擴散模型成最快深度思考！告別自回歸每秒1009個tokens

量子位 2026-02-26 10:01:39
0 跟貼 0
MiniMax又來吃龍蝦肉了！OpenClaw真一鍵部署，還有上萬智能體

量子位 2026-02-25 23:52:50
16 跟貼 16
Minimax持續猛挖“龍蝦肉”

華爾街見聞官方 2026-02-26 12:33:33
1 跟貼 1
日本計劃部署導彈部隊距臺灣僅110公里中方強硬表態

環球網資訊 2026-02-26 06:54:33
4068 跟貼 4068
金字塔碳14檢測后，真相混亂到讓學界集體“瘋魔”

今墨緣 2026-02-26 02:01:49
0 跟貼 0
北大ProAct：首個雙系統「主動社交」智能體，不做提線木偶

新智元 2026-02-26 11:53:31
0 跟貼 0
《探索無限：大模型訓練的“猴子定理”啟示》

聲動時刻 2026-02-25 12:05:16
1 跟貼 1
21萬年費彭博終端機被AI復刻！Perplexity新Agent：調度19個模型

量子位 2026-02-26 11:54:24
0 跟貼 0
施工現場磚塊運輸過程，看著有點像模型，竟還有點好玩！

幽默小火山 2026-02-25 11:39:53
1 跟貼 1
李國杰院士：基于可判定性理論的人工智能系統安全風險分類

新智元 2026-02-26 08:10:06
0 跟貼 0
港股MINIMAX盤中一度漲超6%

每日經濟新聞 2026-02-26 10:45:06
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
阿里云推出低價AI編程套餐，集成四大頂級開源模型

華爾街見聞官方 2026-02-26 06:30:00
15 跟貼 15
上海樓市“新七條”落地當天：兩類群體咨詢升溫，有房東重新掛牌

澎湃新聞 2026-02-25 22:22:28
1113 跟貼 1113
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1619 跟貼 1619
Anthropic與軟件業合作智能體緩解市場憂慮

虎嗅APP 2026-02-26 06:20:34
0 跟貼 0
中華人民共和國和德意志聯邦共和國聯合新聞聲明

新華社 2026-02-25 21:46:25
654 跟貼 654
什么是汽車空氣動力學，看完就知道了，汽車曲線的影響效果！

笑場大魔王 2026-02-24 16:06:29
1 跟貼 1
斯坦福氛圍編程課火了！用AI搞定軟件開發全流程

量子位 2026-02-25 09:55:05
0 跟貼 0
三星存儲部門漫天要價，蘋果照單全收——三星手機部門被迫采用50%美光存儲芯片

華爾街見聞官方 2026-02-26 12:02:32
0 跟貼 0
“36斤活羊烤完剩6.9斤”，網友質疑店家約剔除5斤，有博主現場做實驗測重

大風新聞 2026-02-25 23:10:03
0 跟貼 0
小鵬第二代VLA將于3月2日發布大眾成首發客戶

太平洋汽車 2026-02-26 12:02:34
0 跟貼 0
從人性本能看東大人執著于生兒子的深層邏輯，一起來聽聽

酒馨香 2026-02-26 06:10:51
0 跟貼 0
上海為何越來越北方化？

虔青 2026-02-26 11:40:25
0 跟貼 0
記者觀察｜日本高價大米背后的民生難題

新華社 2026-02-25 15:55:24
1581 跟貼 1581
近百萬元存款被悄悄轉走！上海獨居老太毫無察覺，還說“我有兩套房，你可以搬來同住”

瀟湘晨報 2026-02-25 16:39:13
0 跟貼 0
“太恐怖，iPhone半夜自己給陌生人打47分鐘電話！”

都市快報橙柿互動 2026-02-25 11:28:41
73 跟貼 73
僅半年時間，國乒四朵金花的人生軌跡就已天差地別

娛樂小棧 2026-02-23 13:51:26
4 跟貼 4
美媒：比爾·蓋茨就其與愛潑斯坦關系向蓋茨基金會員工道歉

環球網資訊 2026-02-25 14:04:22
680 跟貼 680
時隔半年后再看國乒界的四朵金花，如今的命運軌跡早已是天差地別

娛樂小棧 2026-02-24 13:49:32
1 跟貼 1
360元一斤草莓企業稱用800斤牛奶兌水灌溉專家：噱頭

封面新聞 2026-02-26 01:37:14
291 跟貼 291
《凡人修仙傳》爆料，真人男主楊洋，竟是動畫建模“撞臉”來的？

國創漫話 2026-02-25 22:57:26
8 跟貼 8

手機 / 數碼

房產 / 家居

MiniMax M2.5 發布：10B 激活參數，打進頭部模型

三星Galaxy S26系列正式發布：影像全面升級，搭載防窺屏幕

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

從排球少女到冰壺女神，她在米蘭冬奧練出6塊腹肌

尼格買提撒貝寧滑雪被偶遇 17年老友情

短劇市場風云突變！有人投百萬賠得精光

單季營收681億凈利429億！英偉達再次炸裂

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態度原創

一整年都有新驚喜！上海迪士尼十周年慶典即將啟幕，三大娛樂演出煥新升級

從“不能出教室”到“必須動起來”：學校真的做得到嗎？

2025年百家金陵畫展 | 油畫作品選刊

三星Galaxy S26 Ultra手機支持2400萬像素直出

倫敦時裝周｜2026秋冬流行趨勢早知道

第五代宏光MINIEV煥新四門玩趣代步車來襲