網易首頁 > 網易號 > 正文申請入駐

一夜暴漲至2100億！開源新王MiniMax M2.5，革了Opus 4.6的命

2026-02-13 14:53:32　來源: 新智元

北京舉報

分享至

　　新智元報道

　　編輯：Aeneas 艾倫

　　【新智元導讀】開源模型新王 MiniMax M2.5 震撼降臨：M2.5 編碼性能逼平 Claude Opus 4.6，價格卻只有 1/20；1 美金 / 小時，這種尺寸和性能的模型，才能在算力短缺的時代不降智不卡頓，持續提供最好體驗，成為最終王者！

　　國產 AI 春節檔，徹底炸了。

　　就在昨夜，MiniMax M2.5 重磅登場。

　　就在今天，MiniMax 已經暴漲 16.2 %，總市值一度達到 2108 億港元，漲至歷史新高。

　　在關鍵的編碼基準測試中，M2.5 幾乎已完全縮小與 Claude Opus 4.6 這類全球最頂尖大模型的差距！

　　發布后，全球開發者社區再次震撼了。

　　它不光性能媲美 Opus 4.6，還是第一個超越 Claude Sonnet 的開源模型。

　　連 OpenClaw 之父，都趕來盛贊 MiniMax。

　　大家紛紛驚呼：MiniMax M2.5 性能跟 Claude Opus 4.6 幾乎相當，價格卻砍到了后者的 1/20，這個性價比，絕了！

　　M2.5，徹底打穿了模型的價格底線，只花 1 美元，就能以 100 TPS(Tokens Per Second)運行 1 小時。

　　MiniMax M2.5 一擊斃命，前端開發者的時代結束了！

　　開放權重模型和專有模型之間的差距，已經徹底消失！MiniMax M2.5 的性能已經和 SOTA 不相上下。

　　為什么 M2.5 這么強？

　　首先，它的智能體原生架構，是專為智能體生態深度優化。

　　另外，它還有極致的推理效率，得益于對思考鏈路的深度優化，它能支持 100 TPS 的超高吞吐量，推理速度達到 Claude Opus 4.6 的三倍。

　　可以說，直接刷新了全行業最優的性價比，打造了同性能級別模型中的價格標桿！

　　有人對比了 Claude Opus 4.6 和 MiniMax M2.5 的辦公速度，驚呼 M2.5 性能太強

　　不僅如此，在Excel、深度搜索、長文檔摘要核心生產力場景，都處于SOTA地位。

　　另外，因為激活參數量僅為 10B，它作為第一梯隊中參數最小的旗艦模型，在私有化部署、顯存占用及推理能效比上具有壓倒性優勢。

　　因為 M2.5 太火，為避免限速卡頓體驗，MiniMax 團隊火速擴容！

　　實測：代碼、辦公、深度搜索

　　全方位出色

　　我們實測后可以發現，MiniMax M2.5 在各類開發者工具中適配度都很高，在 Claude Code、Trae、VS Code 等 IDE 中都可簡單上手。

　　在代碼生成、調試協助、多輪上下文理解上，都能與現有開發流程輕松融合。

　　我們先來直接問一個最近很火的「洗車」難題，已經難倒了一眾國內外旗艦模型。鑒于這個問題太火了，為了避免模型已經被特意教會了這個邏輯陷阱的標準答案，我們采取了一個原創的變種問題：

　　我要去遛馬，大草原離我家蒙古包只有 5 米，我應該自己走著去大草原還是騎馬去？

　　據稱邏輯能力最強的新旗艦模型 Claude Opus 4.6，在這個新問題上還是折戟了。

　　而 MiniMax M2.5 則僅用 3 秒鐘就給出了正確答案，同時思路也是正確的，還令人忍俊不禁。

　　洗車測試，通過?

　　在將 MiniMax M2.5 API 接入 Claude Code 后，回答是相似的，同樣順利通過了「洗車測試」。

　　代碼實測

　　在 Claude Code 中，MiniMax M2.5 對代碼結構和工程上下文的理解非常穩定，能夠準確把握函數依賴、模塊邊界以及已有代碼風格，生成的補全和修改建議可直接落地，幾乎不需要額外返工。

　　對于復雜邏輯的拆解和重構場景，模型給出的思路也更加工程化，貼近真實開發者的使用習慣。

　　先用一道 LeetCode Hard 算法題熱熱手，看看最基本的編程能力咋樣。

　　給定兩個大小分別為 m 和 n 的正序（從小到大）數組 nums1 和 nums2 。請你找出并返回這兩個正序數組的中位數。

　　算法的時間復雜度應該為 O(log (m+n)) 。

　　直接將題面輸入給MiniMax M2.5。

　　僅僅 20 秒，MiniMax M2.5 就直接給出了答案。

　　MiniMax M2.5 手拿把掐，20 秒直接一發 AC，給出了時間復雜度最低的算法，并給出了解題思路，完全可以勝任編程學習路上的熱心學長助教！

　　而 Claude Opus 4.6 盡管也在極短時間內就給出了答案，但算法的時間復雜度和空間復雜度均要高于 MiniMax M2.5 給出的算法。

　　在 Trae 等 IDE 中，MiniMax M2.5 的表現同樣令人驚喜。

　　無論是需求理解、功能拆解，還是快速生成可運行的代碼原型，整體響應都非常流暢，配合工具鏈使用時幾乎沒有明顯「割裂感」。

　　這也意味著，開發者無需為適配模型額外調整工作方式，就可以直接將其納入現有生產流程。

　　比如，試著讓它生成一個高端預訂網站，展示一家豪華太空旅游機構，要求展示一段從平流層緩慢移動的高清地球曲率視頻。

　　接下來，下面展示 MiniMax M2.5 和 Claude Opus 4.6 在同一提示詞下生成的網站，你能猜出來分別是誰做的嗎？

　　在 3D 開發上，MiniMax M2.5 也很令人驚艷，它在僅用一個 HTML 文件的前提下，就實現了完整的 3D 卡丁車競速體驗，本身就非常高級，結構清晰，邏輯完整。

　　視覺上,它有那種經典街機賽車的味道——賽道比例舒服、鏡頭跟隨自然、漂移時的動態反饋很帶感，沖刺的節奏爽快。

　　整體風格雖然簡潔，但配色和場景層次感做得很好。作為瀏覽器原生3DF游戲來說，完成度和表現力都相當出色。

　　注意，如果只跑常規算法題，是測不出模型的工具級泛化能力的。為此，我們專門是設計了幾道不像刷題、但極像真實開發的代碼測試題。

　　比如下面這道題中，我們給了 M2.5 一段已有代碼，然后連續給了它三個任務——

　　在這個任務中，需要對同一段代碼連續進行代碼審查、代碼重構和架構設計，如果是弱泛化的模型，往往就往后的問題上就會跑偏。

　　可以看到，M2.5 讀完代碼后，敏銳地一眼看出這是 Java 的 Counter 類問題——count++ 操作不是原子的。

　　同時它也分析出，Python parse_logs 函數缺少錯誤處理、沒有類型提示、沒有驗證輸入等。

　　接著，它重構了代碼，還給出了日志規模擴大100倍的系統優化思路。

　　在我們的要求下，它實現了完整的優化代碼。

　　總的來說，整體使用下來的感受是：MiniMax M2.5 不只是「能寫代碼」，而是真正適合嵌入開發者工具體系中的模型。

　　這種對不同 IDE、代碼助手和開發平臺的良好適配能力，使其在真實開發場景中的實用價值進一步放大，也為其在 To B 和開發者生態中的落地提供了扎實基礎。

　　而且在使用中，它表現出了極強的泛化能力，在不同任務類型之間切換時，并不會明顯依賴場景約束，而是快速理解任務本身的核心目標。

　　在復雜問題拆解、多步驟推理場景中表現尤為突出，這種泛化能力，直接提升了模型在真實生產環境中的價值。

　　而且，10B 的小參數加上旗艦級的能力，讓每個人都能在本地跑一個旗艦級分析師。

　　辦公場景絲滑拿捏

　　除了編程能力比肩 Claude Opus 4.6 之外，MiniMax M2.5 在數字化辦公場景下，也有極強的應用能力。

　　比如，我們給它一份某公司按地區劃分的銷售額數據的表格，這個 Excel 可是個高難度版，存在不少隱藏坑和臟數據，比如日期格式不統一，銷售數量缺失或為負數，單價缺失，退貨訂單未自動清零等等。

　　我們把這張 Excel 表格直接丟給模型，請它完成數據清洗，進行跨表關聯，還要進行一系列分析匯總。

　　可以看到，M2.5 按照要求依次完成了數據清洗，解決了日期不一致、重復訂單、銷售數據異常、單價缺失等問題，然后完成了跨表關聯。

　　然后，它按要求計算出了銷售額和毛利，按地區、產品類別進行了匯總，給出毛利率最低的產品類別，還判斷出這個 Excel 表格不適合直接用于管理層匯報。

　　可以看到，這次測評中，模型完整、準確地完成了提示詞給出的任務，表現出扎實且系統化的 Excel 辦公能力。

　　更重要的是，它的分析結果具備明確的業務解釋與風險意識，說明 M2.5 對 Excel 的理解并非停留在函數記憶層面，而是真正具備貼近實際辦公與數據分析場景的綜合能力。

　　能清洗臟數據后給出合理建議，就意味著 AI 不再僅僅是工具，也開始成為負責任的數字化勞動力。

　　接下來是第二個Excel測試任務：

　　請它列出 2019 年至 2024 年(包括 2024 年)福布斯全球億萬富翁排名中每年排名前十的個人，需要用 Excel 表格呈現。

　　最終，M2.5 準確完成了這個任務，給出了如下這個 Excel。

　　要知道，很多人「會用 Excel」，但真正精通函數嵌套、VBA、Power Query、復雜財務模型的人比例并不高。

　　如果模型可以完成高階的 Excel 任務，就相當于給每個人配備了一個「高級數據分析師」。

　　這將大大降低專業門檻，實現生產力的躍升，甚至實現軟件生態的升級。

　　深度研究

　　接下來，我們測試 MiniMax M2.5 的深度研究能力。

　　我們要求它對最近大火的 OpenClaw 進行一次深度研究，要解釋清楚核心概念、技術細節，并且從前沿性、工程可行性、生態影響等多個角度進行評估。

　　在提示詞中我們特別強調，不允許編造事實，信息不足時要敢于承認。

　　要知道，這樣一個提示詞，會強制模型暴露出不確定性處理能力、推理鏈條和技術判斷，從而真正區分「會查資料的模型」和「會研究的模型」。

　　首先，模型進行了一番思考。

　　然后，它生成一份內容詳實、邏輯清晰的調查報告，讓人對OpenClaw的各方面情況一目了然。

　　可以看出，M2.5 在做深度研究時，不僅僅給出的是一種查資料型回答（信息密集，卻缺乏邏輯推進），而是體現出了一種研究型回答的特征——有問題意識、有分析路徑、有邏輯遞進。

　　很明顯，它建立了一個概念圖譜，進行結構化拆解后，構建了一個因果推理鏈。這種因果推理能力和批判性思考能力，都體現了這是一個真正「會研究」的模型。

　　可以預見，M2.5 如此強的深度研究能力，將讓每個人的研究效率指數級放大，改變整個知識生產節奏。

　　長文本研究

　　長文本處理能力已成為衡量 LLM 綜合實力的關鍵維度之一。

　　從早期的 4K、8K 上下文窗口，到如今動輒百萬 Token 級別的上下文支持，模型在「能裝多少」這件事上突飛猛進——但「裝得下」和「用得好」之間，依然存在巨大鴻溝。

　　我們選擇了讓 MiniMax M2.5 解讀著名高難度數學分析教材《數學分析原理》（Rudin 著，全書約 300 頁）來測試它的長文本研究能力。

　　教材精讀與直覺化改寫是一類對 LLM 綜合能力要求極高的任務：模型需要讀懂專業內容的數學本質，再用通俗語言重新表達——既不能丟失精度，也不能堆砌術語。

　　我們要求模型為每章提煉核心概念、給出直覺類比、指出常見誤區，輸出風格要求「像學長在咖啡館講課」。

　　提示詞：

　　你是一位擅長用直覺和類比來解釋數學的老師。我會給你一本數學分析教材（《數學分析原理》（Rudin 著））。

　　請你完成以下任務：

　　1. 找出每一章最核心的 1-3 個概念（不是羅列所有知識點，而是找到「如果只能記住一件事，應該記住什么」的那個東西）。

　　2. 用「說人話」的方式解釋每個核心概念：

　　- 先用一句大白話說清楚它到底在干什么、為什么要有它

　　- 再用一個日常生活的類比或畫面感的例子幫我建立直覺

　　- 最后用一兩句話點明它和前后章節的關系（它從哪里來，往哪里去）

　　3. 指出一個最常見的誤解或容易踩的坑。

　　要求：

　　假設讀者是剛接觸數學分析的大一學生，有高中數學基礎；

　　不要堆砌定義和定理，重點是「為什么」和「直覺是什么」；

　　如果涉及公式，先解釋公式在"說什么故事"，再寫公式本身；

　　語言風格：像一個很會講課的學長在咖啡館里給你講明白，而不是念教科書。

　　完整輸出結果如下：

　　MiniMax M2.5 展現了扎實的長文檔理解能力和不錯的科普寫作水平。

　　其一，數學內容的準確性與核心概念的提煉能力：每章核心概念的選取精準地抓住了 Rudin 全書主線，且能指出「調和級數發散」「偏導數存在不等于可微」等教學中反復強調的經典陷阱，說明模型確實理解了內容而非簡單摘抄。

　　其二，「說人話」的能力：「閱兵式」類比一致收斂、「按面額分類數錢」類比勒貝格積分等堪稱教科書級的好類比，既形象又未丟失數學要義，能切實幫助初學者跨越從直覺到嚴格定義的鴻溝。

　　其三，結構完整性與風格一致性：嚴格覆蓋了提示詞要求的五個模塊且語言風格始終保持「學長講課」的輕松感，末尾的全書邏輯鏈條總結圖更是有效地幫初學者建立了全局觀。

　　當然，我們經過仔細檢查也發現其中有極少數小錯誤，如：

　　f(x)=1/x 在 (0,1] 上沒有原函數.

　　模型仍存在進步空間。盡管如此，瑕不掩瑜。

　　它成功地從一本以嚴謹著稱的數學教材中提煉出了主線脈絡，并用較為準確的類比傳達了核心直覺。

　　對于「幫數學系大一新生建立全書的知識地圖進而輔助學習」這一目標，MiniMax M2.5 現在完全能夠勝任。

　　技術突破關鍵：Agent RL

　　為什么 MiniMax M2.5 會這么強？這是因為團隊圍繞著 Agent RL（智能體強化學習），構建了一整套完整的技術體系。

　　首先，在框架層面，團隊提出了原生 Agent RL 架構。

　　Forge 作為一個原生 Agent RL 框架，在設計上通過引入中間層完全解耦了底層訓推引擎與 Agent，支持任意 Agent 的接入，從而優化了模型在 Agent 腳手架和工具上的泛化。此外，還實現了約 40 倍的訓練加速。

　　在算法層面，團隊沿用了 MiniMax M1 提出的 CISPO 算法，以保障 MoE 模型在大規模強化學習訓練中的穩定性。

　　針對 Agent 場景長上下文帶來的信用分配難題，團隊引入了過程獎勵機制對完成質量進行全鏈路監控。此外，為深度對齊用戶體驗，團隊直接估計任務在真實環境下的耗時并作為獎勵函數，在模型效果與響應速度之間實現了更好的平衡。

　　整體來看，這套 Agent RL 技術體系不僅解決了長上下文強化學習中的穩定性與效率問題，更在架構、算法與工程層面形成閉環。

　　正是在這些技術基礎上，M2.5 實現了以上的驚艷表現。

　　當 M2.5 在各項核心任務上都能全面對齊 Claude Opus 4.6，這已經不再是一次簡單的「模型升級」，而是一個行業信號——頂級能力正在去稀缺化。

　　當能力趨同，真正拉開差距的，將是系統整合能力、產品化能力，以及對真實場景的理解深度。

　　對于行業來說，這是一個能力平權的時代；

　　對于企業來說，這是一個重新定義效率邊界的窗口；

　　對于開發者來說，這是一次前所未有的機會期。

　　參考資料：

　　MiniMax M2.5 發布：1美金/小時，真實世界工作王者

　　（MiniMax Agent 體驗 M2.5）https://agent.minimaxi.com/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

新智元

AI產業主平臺領航智能+時代

14564文章數 66632關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

藝術

家居

軍事航空

2026紐約秋冬時裝周，在春天開啟美的新故事！

本地新聞

手機 / 數碼

房產 / 家居

一夜暴漲至2100億！開源新王MiniMax M2.5，革了Opus 4.6的命

NVIDIA新卡皇RTX 5090 Ti再曝光：功耗直飆超700W！性能提升10%

在貝加爾湖遇難的3名中國游客身份已確認：系一家人

在貝加爾湖遇難的3名中國游客身份已確認：系一家人

冬奧第一"海王"？一人和13國選手都有關系

鏢人反超驚蟄無聲拿下單日票房第二！

一覺醒來，世界大變，特朗普改新打法了

智譜上市1月漲5倍，市值超越京東、快手

態度原創

2026紐約秋冬時裝周，在春天開啟美的新故事！

春花齊放2026：《駿馬奔騰迎新歲》

史洪生油畫作品

本真棲居 愛暖伴流年

硬核揭秘！福建艦“一馬當先”底氣何在

本真棲居愛暖伴流年