<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      MiniMax M2.5 發布:10B 激活參數,打進頭部模型

      0
      分享至

      今天這篇本來早上就該發的

      MiniMax 凌晨發了 M2.5,一看數據就知道得寫,但這兩天實在有點累,拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句,恭喜,這次發的東西確實硬

      有個事情官方沒說:M2.5 為 229B,激活只有 10B


      https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

      但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。編程跟 Opus 4.6 基本持平,多語言編程直接拿了全行業最高。搜索和工具調用也到了頂尖水平


      M2.5 核心 benchmark 一覽

      第一梯隊里參數規模最小的旗艦模型。10B 激活參數打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比

      看看經濟賬:M2.5 有兩個版本,能力完全一樣,速度和價格不同

      快的叫 M2.5-Lightning,100 TPS,每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
      慢的叫 M2.5,50 TPS,價格再砍一半,每百萬 token 輸入 0.3 美金、輸出 1.2 美金。

      兩個版本都支持緩存,按輸出價格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20


      換成更具象的數字:在以每秒輸出 100 個 token 的情況下,連續工作一小時只需要 1 美金,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美金。

      1 萬美金,夠一個 Agent 連續跑 4 年

      這個賬算得過來之后,很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測,M2.5 單任務的總成本只有 Opus 4.6 的 10%

      編程
      編程 benchmark

      有個細節挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為,動手寫代碼之前會先從架構師視角把功能、結構、UI 設計全部拆解規劃一遍。這個行為是涌現出來的,不是手動設計的

      訓練覆蓋了 10 多種語言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超過 20 萬個真實環境上跑

      能力不只是修 bug,從 0 到 1 的系統設計、1 到 10 的開發、10 到 90 的功能迭代、90 到 100 的 code review 和系統測試,全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目,包含 Server 端 API、業務邏輯、數據庫

      MiniMax 把 VIBE benchmark 升級了一個 Pro 版,任務復雜度和領域覆蓋度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表現相當


      VIBE Pro 對比

      腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。換了腳手架照樣打

      搜索和工具調用
      搜索 benchmark

      MiniMax 自建了一個評測集叫 RISE(Realistic Interactive Search Evaluation),專門測真實專業任務上的搜索能力。邏輯是這樣的:人類專家做搜索任務的時候,用搜索引擎本身只占一小部分,大量工作是在專業網頁里深度探索。M2.5 在這類場景上表現很強

      比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務上,M2.5 用更少的搜索輪次拿到了更好的結果,輪次消耗比 M2.1 少了大約 20%

      模型學會了用更短的路徑逼近答案

      辦公
      辦公場景對比

      這塊 MiniMax 找了金融、法律、社科領域的資深從業者一起做訓練數據,把行業的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升

      他們內部的 GDPval-MM 評測框架會同時評交付質量和 Agent 執行軌跡的專業性,還監控全流程 token 成本。對比主流模型平均勝率 59.0%

      速度

      M2.5 比 M2.1 完成 SWE-Bench 任務快了 37%

      具體來說:端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘,跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務的 token 消耗從 3.72M 降到了 3.52M

      變快了,還變省了

      迭代速度

      108 天,M2、M2.1、M2.5 三個版本

      在 SWE-Bench Verified 上,M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡


      M2 系列 vs 同行的進步速度,自己看斜率

      MiniMax 說「行業最快的進步速度」,從這張圖看,不虛

      Agent RL

      技術層面簡單記幾個點

      M2.5 的核心訓練框架叫 Forge,原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent,支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環境之間的泛化性很強


      Forge 架構

      算法上用的是他們去年初提出的 CISPO 算法保障 MoE 模型訓練穩定性,加上 Process Reward 做全鏈路監控,再用真實任務耗時作為 Reward 來平衡效果和速度。訓練側通過樹狀合并樣本實現了大約 40 倍加速


      Agent RL 算法與 Reward 設計

      MiniMax 說后續會單獨發一篇技術博客詳細講 RL scaling,到時候可以再看看

      MiniMax 內部在用

      MiniMax 內部已經全面上線 M2.5,覆蓋研發、產品、銷售、HR、財務
      整體任務的 30% 由 M2.5 自主完成,編程場景里新提交代碼的 80% 由模型生成

      產品側,MiniMax Agent 做了一套標準化的 Office Skills,在 MAX 模式下會根據文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業經驗結合起來創建可復用的「專家」(Expert),目前平臺上已經有超過 1 萬個用戶創建的 Expert

      模型權重會在 HuggingFace 開源,支持本地部署


      更多 benchmark 還沒完...但先碎覺

      這兩天,國產模型扎堆發布,GLM-5、DeepSeek 更新、M2.5,春節前的密度有點離譜

      以及....這些 AI 廠的春節發布,還沒完

      然后...晚安...碎覺...

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重磅!青島突然宣布,砸1.1萬億投入,一場前所未有的大動作正式啟動!

      重磅!青島突然宣布,砸1.1萬億投入,一場前所未有的大動作正式啟動!

      王二哥老搞笑
      2026-02-26 11:05:00
      央視發聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

      央視發聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

      黑哥講現代史
      2026-02-25 19:20:18
      默茨破防了!對華談2530億合作,轉身卻訓斥國民?

      默茨破防了!對華談2530億合作,轉身卻訓斥國民?

      回京歷史夢
      2026-02-26 12:20:56
      他是軍統正局長,一生暗中幫我黨,死后破例葬入八寶山,民族脊梁

      他是軍統正局長,一生暗中幫我黨,死后破例葬入八寶山,民族脊梁

      歷史人文2
      2026-02-24 16:10:55
      不管你承不承認,只有一個女兒家庭,父母晚年都逃不過這4個現狀

      不管你承不承認,只有一個女兒家庭,父母晚年都逃不過這4個現狀

      小影的娛樂
      2026-02-26 11:01:11
      炸鍋!國美才女淪陷海外,私密視頻被掛成人網,留學生集體背鍋?

      炸鍋!國美才女淪陷海外,私密視頻被掛成人網,留學生集體背鍋?

      戧詞奪理
      2026-02-23 15:32:24
      謝霆鋒經紀人深夜高調發文!2月22日凌晨,霍汶希內心激動藏不住

      謝霆鋒經紀人深夜高調發文!2月22日凌晨,霍汶希內心激動藏不住

      阿廢冷眼觀察所
      2026-02-23 18:56:52
      “土皇帝”禹作敏揚言:副總理隨便當,部長以下不接待,結局如何

      “土皇帝”禹作敏揚言:副總理隨便當,部長以下不接待,結局如何

      顧史
      2026-02-23 12:28:26
      史上最長國情咨文不要輕視川普這樣的人

      史上最長國情咨文不要輕視川普這樣的人

      海子侃生活
      2026-02-26 10:10:03
      痛心!廣東英德全網尋1歲娃兩天,最終塘中發現!已無生命體征

      痛心!廣東英德全網尋1歲娃兩天,最終塘中發現!已無生命體征

      社會日日鮮
      2026-02-26 09:02:46
      網紅暴力測試宇樹機器人,用斧頭劈成兩半,博眼球行為被網友唾棄

      網紅暴力測試宇樹機器人,用斧頭劈成兩半,博眼球行為被網友唾棄

      新游戲大妹子
      2026-02-26 12:45:26
      四年,俄羅斯仍不懂烏克蘭,烏克蘭人記性很好

      四年,俄羅斯仍不懂烏克蘭,烏克蘭人記性很好

      山河路口
      2026-02-25 16:59:27
      高市擺鴻門宴,劍指中國,21國赴會!令人痛心的是,東盟7國參加

      高市擺鴻門宴,劍指中國,21國赴會!令人痛心的是,東盟7國參加

      妙知
      2026-02-26 11:56:36
      近一米極樂鳥羽毛,6000萬寶石,揭秘尼泊爾最豪華的Shripech王冠

      近一米極樂鳥羽毛,6000萬寶石,揭秘尼泊爾最豪華的Shripech王冠

      珠寶匠
      2026-02-26 08:28:33
      特朗普官宣訪華求高規格接待,中方 4 天冷處理,10 架戰機露了美方底牌

      特朗普官宣訪華求高規格接待,中方 4 天冷處理,10 架戰機露了美方底牌

      微光物語
      2026-02-25 13:12:13
      經紀人:希望維爾茨加盟皇馬!德媒:曼聯切爾西有意多特蒙德中場

      經紀人:希望維爾茨加盟皇馬!德媒:曼聯切爾西有意多特蒙德中場

      足球偵探
      2026-02-26 11:55:08
      此消彼長!中國男籃公布名單,日本男籃有所削弱!

      此消彼長!中國男籃公布名單,日本男籃有所削弱!

      德譯洋洋
      2026-02-26 12:38:09
      德國總理應邀訪華,因出言不遜行程被壓縮!

      德國總理應邀訪華,因出言不遜行程被壓縮!

      談芯說科技
      2026-02-24 23:51:25
      哀悼!王守仁逝世

      哀悼!王守仁逝世

      中國基金報
      2026-02-25 19:46:17
      引狼入室!巴拿馬強占中國港口,威脅香港員工:不走就抓人!

      引狼入室!巴拿馬強占中國港口,威脅香港員工:不走就抓人!

      我心縱橫天地間
      2026-02-25 23:29:08
      2026-02-26 13:27:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      302文章數 44關注度
      往期回顧 全部

      數碼要聞

      三星Galaxy S26系列正式發布:影像全面升級,搭載防窺屏幕

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      頭條要聞

      特朗普自詡開啟美國"黃金時代" 遭美媒集體"打臉"

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      短劇市場風云突變!有人投百萬賠得精光

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態度原創

      旅游
      教育
      藝術
      手機
      時尚

      旅游要聞

      一整年都有新驚喜!上海迪士尼十周年慶典即將啟幕,三大娛樂演出煥新升級

      教育要聞

      從“不能出教室”到“必須動起來”:學校真的做得到嗎?

      藝術要聞

      2025年百家金陵畫展 | 油畫作品選刊

      手機要聞

      三星Galaxy S26 Ultra手機支持2400萬像素直出

      倫敦時裝周|2026秋冬流行趨勢早知道

      無障礙瀏覽 進入關懷版