![]()
編輯|張倩、Panda
Anthropic 的 Opus 4.6 剛發布,智商確實高到讓人頭皮發麻,但看著那個價格表,我的錢包也開始發麻了。
這就很尷尬了。Opus 4.6 的出現,直接在開發者圈子里制造了一場「智力焦慮」:模型好用是真好用,貴也是真貴。原版價格紋絲不動就算了,那個號稱「極速版」的家伙,每百萬輸出 Token 的成本居然從 25 美元直接飆到了 150 美元。
整整 6 倍的漲幅!看著 Token 計費表像風一樣自由地狂奔,本來想用 AI 釋放生產力的我,現在按回車鍵之前都得先在心里過一遍賬單。這哪里是請了個助手,簡直是供了個「吞金獸」。
這種「生產力稅」的存在,逼得打工人不得不進入一種尷尬的模式:一邊渴望頂級智力帶來的效率,一邊在按回車鍵時反復權衡賬單。難道高智力和高性價比,真的像魚和熊掌一樣不可兼得?難道我們這些普通打工人,就不配擁有「智力自由」?
就在大家捂著錢包嘆氣的時候,MiniMax 反手甩出了一個王炸:MiniMax M2.5
這個模型相當能打,無論是 coding 還是 agent 能力,都能與 Claude Opus 4.6 掰掰手腕,甚至在某些維度上掰贏了。
數據不會說謊:M2.5 在多語言任務 Multi-SWE-Bench 上拿下了行業第一;而在 SWE-Bench Verified 評測集上,基于 Droid 和 OpenCode 的實戰測試中,它的通過率(79.7% / 76.1%)更是雙雙反超了 Opus 4.6。
![]()
在 BrowseComp、Wide Search 等搜索和工具調用榜單的評測中,M2.5 也達到了行業頂尖的水平。
![]()
更具沖擊力的是它在 MiniMax 內部的真實表現:在 MiniMax 內部業務場景中,整體任務的 30% 由 M2.5 自主完成;而在編程場景中,M2.5 生成的代碼已占新提交代碼的 80%。
它不僅 Coding 和 Agent 能力硬剛 Claude Opus 4.6 不落下風,在專業的辦公領域更是「偷偷補過課」。為了讓模型真正懂行,MiniMax 拉來了金融、法律、社會科學等領域的資深從業者當「教官」,把行業隱性知識灌進模型。
在內部嚴苛的 Cowork Agent 評測(GDPval-MM) 中,M2.5 在 Word 排版、Excel 金融建模等高階場景下,對主流模型拿下了 59.0% 的平均勝率。這意味著它交付的不再是簡單的草稿,而是具備專業水準的「半成品」。
![]()
但最離譜的是,這樣一個全能選手,居然參數量只有 10B,是第一梯隊中參數規模最小的旗艦模型,不需要太昂貴的設備就能私有化部署。
好家伙,這哪是輔助駕駛啊,這分明是搶方向盤來了!
MiniMax M2.5 表現卓越,也為這家剛上市一個多月的公司的股價帶來了一波強勁上漲:
![]()
1 美元時薪的頂級打工人
這么小的體積,再加上「思考」鏈路的深度優化,M2.5 的吞吐量可以達到 100 TPS,推理速度可以達到 Opus 4.6 的 2 倍。在 SWE-Bench Verified 測試中,M2.5 的端到端任務運行耗時從平均 31.3 分鐘減少到了 22.8 分鐘,這一速度與 Claude Opus 4.6 基本持平。
在需要即時反饋的場景里,這種「跟手」的感覺簡直太爽了。更爽的是,你完全不需要有「每按一次回車就少喝一杯奶茶」的心理負擔。來看看這個顛覆性的定價:
在每秒輸出 100 個 token 的情況下,連續工作一小時只需要 1 美元,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美元。
1 美元就能雇傭一個頂級專家給你干一小時苦力!換算一下,1 萬美金可以讓 4 個 Agent 連續工作一年
這就很有意思了。以前我們不敢跑復雜 Agent,是因為怕跑著跑著就破產了;現在有了 M2.5,我們終于實現了 Agent 自由;讓 AI 24 小時持續上工,也不再是有余糧的地主家才能有的奢侈。
目前,M2.5 的 Vibe Coding 支持 PC 端、App 端、RN/Flutter 跨端甚至帶數據庫的前后端全棧開發,用起來非常方便,普通打工人可以隨時上手。
為了驗證這個「10B 戰神」是不是真的能在性能比肩旗艦的同時,把生產力成本打下來,我們準備了幾個真實的使用 Case。下面直接進入實測。
一手實測
MiniMax M2.5 真能成為打工人的得力助手嗎?
作為苦逼的媒體人,我們最怕的就是在那堆長達幾小時的圓桌論壇速記里「淘金」。大佬們聊嗨了往往也是車轱轆話來回說,我們要想提煉點干貨,眼睛都得看瞎。
這種臟活累活,我是不敢交給 Opus 的,太貴。但現在既然 M2.5 這么便宜,那就不客氣了。
我們決定搞個破壞性測試:直接把一堆巨大的 HTML 格式的速記文件「喂」給它,讓它不僅要提煉觀點,還要分析趨勢、找分歧,甚至還要做橫向對比。
你是一個專業的行業圓桌論壇速讀分析師。我會逐個上傳論壇速記 / 紀要文件,你的任務是:1)提取核心觀點,用 bullet points 列出每位發言人的關鍵論斷和論據;2)識別趨勢信號(正在形成共識的方向)和分歧點(存在爭議的立場或預測);3)標注任何提及的具體數據、產品名或時間節點。每處理完一篇,輸出一份結構化摘要。待我告知 "全部結束" 后,綜合所有文件,輸出一份總覽:橫向對比各場論壇的重復主題與獨特視角,提煉出 3-5 條跨論壇的強趨勢,以及 2-3 個值得持續觀察的核心分歧。保持簡潔,避免泛化總結,優先引用發言人原話或具體案例。
MiniMax M2.5 接到任務后,絲毫沒有「消化不良」。面對超大文件,它甚至自作主張地啟動了多個 Agent 并行開工(頗有一種「兄弟們一起上」的既視感):
![]()
15 分鐘后,幾十萬 Token 跑完,一份高質量報告出爐:
![]()
搞定了閱讀,再來試試寫代碼。
作為小編,我們每天都要跟排版做斗爭。雖然我們的排版規則不復雜(正文 15px、特定顏色加粗、版權信息居中……),但每次手動調也很煩。
既然官方宣稱 M2.5 具備「架構師思維」,能原生 Spec 行為。也就是說,不同于普通模型上來就盲目堆代碼,M2.5 在動手前會先像資深架構師一樣做規劃,主動拆解功能、結構和 UI。無論是 Rust、C++ 還是 Python,從 0-1 的系統設計到最后的 Code Review,它都能像老手一樣 Hold 住全場。那我們就讓它手搓一個「微信公眾號 Markdown 編輯器」。
需求很簡單:復制進來 →自動格式化 → 支持微調 → 一鍵復制帶樣式。
第一步,為了防止它「聽不懂人話」,我們先讓它把我的需求翻譯成更專業的提示詞。
可以看到,MiniMax M2.5 大體上正確地理解了我們的需求,但在版權信息處出現了一點幻覺,輕松修改后,我們只需一句提示詞就能實現它:「讀取 微信公眾號 Markdown 編輯器開發提示詞.md 文件并實現它」。
生成時長 2 分半,接杯水的功夫,M2.5 輕輕松松就實現了這個實用小工具。找篇文章試試效果:
![]()
仔細檢查了一下,我們給出的需求都得到了滿足。
作為一家專業的 AI 媒體,日常收集 AI 社區名人觀點的素材也是工作的一部分,但問題是有時候只顧著收集,并沒有真正將這些素材用起來,它們都沉睡在我們的資料庫中。借助 MiniMax M2.5 + Claude Code,我們可以輕松地挖掘我們的知識倉庫,真正利用起塵封的知識。
首先,打開我們的選題庫,發現早期的文件和最近的文件命名格式不統一,而 M2.5 可以輕松解決這個問題,就一句話的事兒:
接下來,M2.5 還可以為我們將這些 docx 文檔轉換成兼容 Obsidian 的 Markdown 格式。這里我們可以引入 Obsidian 創始人 Steph Ango 親自開源的 obsidian-skills,給 M2.5 一個參考手冊。我們的提示詞也很簡單:
基于 Skills,將文件夾中的所有文件都轉換成符合 Obsidian 規范的 Markdown 文件。
接下來我們可以將轉換好的文件放入一個 Obsidian 倉庫來進行管理,而 MiniMax M2.5 也可以跟隨我們一起。比如這里,我們可以讓 M2.5 提取選題中所有與 Andrej Karpathy 和吳恩達相關的選題:
可以看到,M2.5 找到了 5 個與 Andrej Karpathy 相關的選題,找到了 14 個與吳恩達相關的選題,并對選題進行了總結同時還標記了出處,而得益于 M2.5 10B 的輕量級參數規模,整個過程耗時不到 1 分鐘。
最后,我們還讓 M2.5 基于我們的選題文檔總結了近幾個月 AI 領域的發展趨勢,大家可以看看總結得是否正確:
![]()
M2.5 背后
108 天極速進化的秘密
在前面的測評中,M2.5 已經表現出明顯不同于普通模型的智能體能力。但比單次測評成績更令人細思極恐的,是 MiniMax 展現出的「進化速度」。
在過去短短 108 天里,MiniMax 陸續更新了 M2、M2.1 和 M2.5 三個版本!
![]()
這讓 M2 系列模型在編程領域最具代表性的 SWE-Bench Verified 榜單上,相比 Claude、GPT 和 Gemini 等頂級模型系列,保持了行業最快的進步速度 —— 這從上圖折線的斜率也能看出。
這種超越預期的迭代效率不是憑空出現的,也不是單純靠堆算力堆出來的。要理解它為什么能跑得這么快,就得看一眼它背后的訓練體系:原生 Agent RL 框架 Forge
![]()
智能體訓練的第一道坎,在于「語言模型」和「任務執行者」這兩個身份之間的鴻溝。大模型原生是自回歸 Token 預測器,它可以模擬很多形式,但并不是為持續交互和工具調用而生。為了解決這一問題,MiniMax 引入了 Forge 原生 Agent RL 框架。
Forge 在設計上通過引入中間層完全解耦了底層訓推引擎與 Agent,把「模型只負責處理 Token」這件事做到了極致。模型訓練和推理看到的都是同一種 Token 形態,不去理解什么工具調用、環境狀態這些復雜結構。而 Agent 那一側則通過標準的 OpenAI 接口和模型通信,專心處理環境交互和上下文管理。
這種徹底解耦的好處是:模型能力不會被綁定在某一個具體 Agent 產品上,它可以接入不同的工具體系和腳手架,實現更強的泛化。
更大的難題是長鏈路下的信用分配(Credit Assignment)。任務執行幾十步后才知道結果,模型很難回溯究竟是哪一步導致了失敗。MiniMax M2.5 引入了過程獎勵機制(Process Reward),對生成質量進行全鏈路監控,而不僅看最終成敗。同時,為對齊真實用戶體驗,他們將任務完成耗時也納入獎勵函數。這套獎勵設計讓模型在智能度與響應速度之間實現了可量化的最優權衡。
![]()
這些算法創新要真正跑起來,還得過工程這一關。智能體數據天然有大量公共前綴,如果每條樣本獨立訓練,同一段系統提示要反復計算數十遍。M2.5 將多條前綴相同的樣本合并為一棵前綴樹,通過樹狀合并訓練樣本策略,實現了約 40 倍的訓練加速。
另一項優化是強化學習的調度策略:智能體任務耗時差異巨大,簡單任務秒回,復雜任務需等待。MiniMax 優化了異步調度策略,平衡系統吞吐和樣本的 off-policyness,最終在系統吞吐量與訓練效率之間達成了平衡。
Intelligence with Everyone
回到開頭 Claude Opus 4.6 的定價話題。極速版 Opus 4.6 高達 150 美元的輸出價格足以說明,在真正的生產力環境中,值錢的不只是智力本身,速度等影響效率的因素如今也變得舉足輕重。打工人真正需要的,是一個智力、速度等各方面都優秀的「六邊形戰士」。
然而,頂級智力的高昂溢價正在制造一場隱形的技術分層:預算決定了你的 AI 助理是「滿血」還是「殘血」,是極速還是降速。在這一背景下,MiniMax M2.5 憑借 10B 級的輕巧規模承載了同級別的旗艦智力,不僅是當前市場的性價比標桿,更是將高階智能從「奢侈品」拉回到了「生產力工具」的范疇。
這更像是一場技術普惠,而非針對少數人的技術特權。此刻,MiniMax 所堅持的「服務普通人的 AI」「Intelligence with Everyone」具像化了。
如果把 M2.5 和 MiniMax 前段時間發布的桌面端 Agent 放在一起看,它的價值就更具像化了:一個是可以本地部署的超強大腦,一個是包含本地文件系統訪問、瀏覽器控制、代碼編輯器集成、后臺常駐運行等完善功能的腳手架。二者強強聯合,有望成為白領與程序員手中那個隨時待命、不計成本的「主力機」。
這種頂級智力的全民普惠,才是整個社會生產力提升的最強動力。
文中視頻鏈接:https://mp.weixin.qq.com/s/5zxoNnuxUfQk6dg4VsHFPw
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.