<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      一夜暴漲至2100億!開源新王MiniMax M2.5,革了Opus 4.6的命

      0
      分享至

        

        新智元報道

        編輯:Aeneas 艾倫

        【新智元導讀】開源模型新王 MiniMax M2.5 震撼降臨:M2.5 編碼性能逼平 Claude Opus 4.6,價格卻只有 1/20;1 美金 / 小時,這種尺寸和性能的模型,才能在算力短缺的時代不降智不卡頓,持續提供最好體驗,成為最終王者!

        國產 AI 春節檔,徹底炸了。

        就在昨夜,MiniMax M2.5 重磅登場。

        就在今天,MiniMax 已經暴漲 16.2 %,總市值一度達到 2108 億港元,漲至歷史新高。

        

        在關鍵的編碼基準測試中,M2.5 幾乎已完全縮小與 Claude Opus 4.6 這類全球最頂尖大模型的差距!

        

        發布后,全球開發者社區再次震撼了。

        

        它不光性能媲美 Opus 4.6,還是第一個超越 Claude Sonnet 的開源模型。

        

        連 OpenClaw 之父,都趕來盛贊 MiniMax。

        

        大家紛紛驚呼:MiniMax M2.5 性能跟 Claude Opus 4.6 幾乎相當,價格卻砍到了后者的 1/20,這個性價比,絕了!

        

        M2.5,徹底打穿了模型的價格底線,只花 1 美元,就能以 100 TPS(Tokens Per Second)運行 1 小時。

        MiniMax M2.5 一擊斃命,前端開發者的時代結束了!

        

        開放權重模型和專有模型之間的差距,已經徹底消失!MiniMax M2.5 的性能已經和 SOTA 不相上下。

        

        為什么 M2.5 這么強?

        首先,它的智能體原生架構,是專為智能體生態深度優化。

        另外,它還有極致的推理效率,得益于對思考鏈路的深度優化,它能支持 100 TPS 的超高吞吐量,推理速度達到 Claude Opus 4.6 的三倍。

        可以說,直接刷新了全行業最優的性價比,打造了同性能級別模型中的價格標桿!

        

        有人對比了 Claude Opus 4.6 和 MiniMax M2.5 的辦公速度,驚呼 M2.5 性能太強

        不僅如此,在Excel、深度搜索、長文檔摘要核心生產力場景,都處于SOTA地位。

        另外,因為激活參數量僅為 10B,它作為第一梯隊中參數最小的旗艦模型,在私有化部署、顯存占用及推理能效比上具有壓倒性優勢。

        

        因為 M2.5 太火,為避免限速卡頓體驗,MiniMax 團隊火速擴容!

        

        實測:代碼、辦公、深度搜索

        全方位出色

        我們實測后可以發現,MiniMax M2.5 在各類開發者工具中適配度都很高,在 Claude Code、Trae、VS Code 等 IDE 中都可簡單上手。

        在代碼生成、調試協助、多輪上下文理解上,都能與現有開發流程輕松融合。

        我們先來直接問一個最近很火的「洗車」難題,已經難倒了一眾國內外旗艦模型。鑒于這個問題太火了,為了避免模型已經被特意教會了這個邏輯陷阱的標準答案,我們采取了一個原創的變種問題:

        我要去遛馬,大草原離我家蒙古包只有 5 米,我應該自己走著去大草原還是騎馬去?

        據稱邏輯能力最強的新旗艦模型 Claude Opus 4.6,在這個新問題上還是折戟了。

        

        而 MiniMax M2.5 則僅用 3 秒鐘就給出了正確答案,同時思路也是正確的,還令人忍俊不禁。

        

        洗車測試,通過?

        在將 MiniMax M2.5 API 接入 Claude Code 后,回答是相似的,同樣順利通過了「洗車測試」。

        

        代碼實測

        在 Claude Code 中,MiniMax M2.5 對代碼結構和工程上下文的理解非常穩定,能夠準確把握函數依賴、模塊邊界以及已有代碼風格,生成的補全和修改建議可直接落地,幾乎不需要額外返工。

        對于復雜邏輯的拆解和重構場景,模型給出的思路也更加工程化,貼近真實開發者的使用習慣。

        先用一道 LeetCode Hard 算法題熱熱手,看看最基本的編程能力咋樣。

        給定兩個大小分別為 m 和 n 的正序(從小到大)數組 nums1 和 nums2 。請你找出并返回這兩個正序數組的 中位數 。

        算法的時間復雜度應該為 O(log (m+n)) 。

        直接將題面輸入給MiniMax M2.5。

        

        僅僅 20 秒,MiniMax M2.5 就直接給出了答案。

        

        MiniMax M2.5 手拿把掐,20 秒直接一發 AC,給出了時間復雜度最低的算法,并給出了解題思路,完全可以勝任編程學習路上的熱心學長助教!

        

        而 Claude Opus 4.6 盡管也在極短時間內就給出了答案,但算法的時間復雜度和空間復雜度均要高于 MiniMax M2.5 給出的算法。

        

        

        在 Trae 等 IDE 中,MiniMax M2.5 的表現同樣令人驚喜。

        無論是需求理解、功能拆解,還是快速生成可運行的代碼原型,整體響應都非常流暢,配合工具鏈使用時幾乎沒有明顯「割裂感」。

        這也意味著,開發者無需為適配模型額外調整工作方式,就可以直接將其納入現有生產流程。

        比如,試著讓它生成一個高端預訂網站,展示一家豪華太空旅游機構,要求展示一段從平流層緩慢移動的高清地球曲率視頻。

        

        接下來,下面展示 MiniMax M2.5 和 Claude Opus 4.6 在同一提示詞下生成的網站,你能猜出來分別是誰做的嗎?

        

        

        在 3D 開發上,MiniMax M2.5 也很令人驚艷,它在僅用一個 HTML 文件的前提下,就實現了完整的 3D 卡丁車競速體驗,本身就非常高級,結構清晰,邏輯完整。

        視覺上,它有那種經典街機賽車的味道——賽道比例舒服、鏡頭跟隨自然、漂移時的動態反饋很帶感,沖刺的節奏爽快。

        整體風格雖然簡潔,但配色和場景層次感做得很好。作為瀏覽器原生3DF游戲來說,完成度和表現力都相當出色。

        

        注意,如果只跑常規算法題,是測不出模型的工具級泛化能力的。為此,我們專門是設計了幾道不像刷題、但極像真實開發的代碼測試題。

        比如下面這道題中,我們給了 M2.5 一段已有代碼,然后連續給了它三個任務——

        

        在這個任務中,需要對同一段代碼連續進行代碼審查、代碼重構和架構設計,如果是弱泛化的模型,往往就往后的問題上就會跑偏。

        可以看到,M2.5 讀完代碼后,敏銳地一眼看出這是 Java 的 Counter 類問題——count++ 操作不是原子的。

        同時它也分析出,Python parse_logs 函數缺少錯誤處理、沒有類型提示、沒有驗證輸入等。

        接著,它重構了代碼,還給出了日志規模擴大100倍的系統優化思路。

        

        在我們的要求下,它實現了完整的優化代碼。

        

        總的來說,整體使用下來的感受是:MiniMax M2.5 不只是「能寫代碼」,而是真正適合嵌入開發者工具體系中的模型。

        這種對不同 IDE、代碼助手和開發平臺的良好適配能力,使其在真實開發場景中的實用價值進一步放大,也為其在 To B 和開發者生態中的落地提供了扎實基礎。

        而且在使用中,它表現出了極強的泛化能力,在不同任務類型之間切換時,并不會明顯依賴場景約束,而是快速理解任務本身的核心目標。

        在復雜問題拆解、多步驟推理場景中表現尤為突出,這種泛化能力,直接提升了模型在真實生產環境中的價值。

        而且,10B 的小參數加上旗艦級的能力,讓每個人都能在本地跑一個旗艦級分析師。

        辦公場景絲滑拿捏

        除了編程能力比肩 Claude Opus 4.6 之外,MiniMax M2.5 在數字化辦公場景下,也有極強的應用能力。

        比如,我們給它一份某公司按地區劃分的銷售額數據的表格,這個 Excel 可是個高難度版,存在不少隱藏坑和臟數據,比如日期格式不統一,銷售數量缺失或為負數,單價缺失,退貨訂單未自動清零等等。

        我們把這張 Excel 表格直接丟給模型,請它完成數據清洗,進行跨表關聯,還要進行一系列分析匯總。

        

        可以看到,M2.5 按照要求依次完成了數據清洗,解決了日期不一致、重復訂單、銷售數據異常、單價缺失等問題,然后完成了跨表關聯。

        然后,它按要求計算出了銷售額和毛利,按地區、產品類別進行了匯總,給出毛利率最低的產品類別,還判斷出這個 Excel 表格不適合直接用于管理層匯報。

        

        可以看到,這次測評中,模型完整、準確地完成了提示詞給出的任務,表現出扎實且系統化的 Excel 辦公能力。

        更重要的是,它的分析結果具備明確的業務解釋與風險意識,說明 M2.5 對 Excel 的理解并非停留在函數記憶層面,而是真正具備貼近實際辦公與數據分析場景的綜合能力。

        能清洗臟數據后給出合理建議,就意味著 AI 不再僅僅是工具,也開始成為負責任的數字化勞動力。

        接下來是第二個Excel測試任務:

        請它列出 2019 年至 2024 年(包括 2024 年)福布斯全球億萬富翁排名中每年排名前十的個人,需要用 Excel 表格呈現。

        

        最終,M2.5 準確完成了這個任務,給出了如下這個 Excel。

        

        要知道,很多人「會用 Excel」,但真正精通函數嵌套、VBA、Power Query、復雜財務模型的人比例并不高。

        如果模型可以完成高階的 Excel 任務,就相當于給每個人配備了一個「高級數據分析師」。

        這將大大降低專業門檻,實現生產力的躍升,甚至實現軟件生態的升級。

        深度研究

        接下來,我們測試 MiniMax M2.5 的深度研究能力。

        我們要求它對最近大火的 OpenClaw 進行一次深度研究,要解釋清楚核心概念、技術細節,并且從前沿性、工程可行性、生態影響等多個角度進行評估。

        在提示詞中我們特別強調,不允許編造事實,信息不足時要敢于承認。

        

        要知道,這樣一個提示詞,會強制模型暴露出不確定性處理能力、推理鏈條和技術判斷,從而真正區分「會查資料的模型」和「會研究的模型」。

        首先,模型進行了一番思考。

        

        然后,它生成一份內容詳實、邏輯清晰的調查報告,讓人對OpenClaw的各方面情況一目了然。

        

        可以看出,M2.5 在做深度研究時,不僅僅給出的是一種查資料型回答(信息密集,卻缺乏邏輯推進),而是體現出了一種研究型回答的特征——有問題意識、有分析路徑、有邏輯遞進。

        很明顯,它建立了一個概念圖譜,進行結構化拆解后,構建了一個因果推理鏈。這種因果推理能力和批判性思考能力,都體現了這是一個真正「會研究」的模型。

        可以預見,M2.5 如此強的深度研究能力,將讓每個人的研究效率指數級放大,改變整個知識生產節奏。

        長文本研究

        長文本處理能力已成為衡量 LLM 綜合實力的關鍵維度之一。

        從早期的 4K、8K 上下文窗口,到如今動輒百萬 Token 級別的上下文支持,模型在「能裝多少」這件事上突飛猛進——但「裝得下」和「用得好」之間,依然存在巨大鴻溝。

        我們選擇了讓 MiniMax M2.5 解讀著名高難度數學分析教材《數學分析原理》(Rudin 著,全書約 300 頁)來測試它的長文本研究能力。

        教材精讀與直覺化改寫是一類對 LLM 綜合能力要求極高的任務:模型需要讀懂專業內容的數學本質,再用通俗語言重新表達——既不能丟失精度,也不能堆砌術語。

        我們要求模型為每章提煉核心概念、給出直覺類比、指出常見誤區,輸出風格要求「像學長在咖啡館講課」。

        提示詞:

        你是一位擅長用直覺和類比來解釋數學的老師。我會給你一本數學分析教材(《數學分析原理》(Rudin 著))。

        請你完成以下任務:

        1. 找出每一章最核心的 1-3 個概念(不是羅列所有知識點,而是找到「如果只能記住一件事,應該記住什么」的那個東西)。

        2. 用「說人話」的方式解釋每個核心概念:

        - 先用一句大白話說清楚它到底在干什么、為什么要有它

        - 再用一個日常生活的類比或畫面感的例子幫我建立直覺

        - 最后用一兩句話點明它和前后章節的關系(它從哪里來,往哪里去)

        3. 指出一個最常見的誤解或容易踩的坑。

        要求:

        假設讀者是剛接觸數學分析的大一學生,有高中數學基礎;

        不要堆砌定義和定理,重點是「為什么」和「直覺是什么」;

        如果涉及公式,先解釋公式在"說什么故事",再寫公式本身;

        語言風格:像一個很會講課的學長在咖啡館里給你講明白,而不是念教科書。

        完整輸出結果如下:

        

        MiniMax M2.5 展現了扎實的長文檔理解能力和不錯的科普寫作水平。

        其一,數學內容的準確性與核心概念的提煉能力:每章核心概念的選取精準地抓住了 Rudin 全書主線,且能指出「調和級數發散」「偏導數存在不等于可微」等教學中反復強調的經典陷阱,說明模型確實理解了內容而非簡單摘抄。

        其二,「說人話」的能力:「閱兵式」類比一致收斂、「按面額分類數錢」類比勒貝格積分等堪稱教科書級的好類比,既形象又未丟失數學要義,能切實幫助初學者跨越從直覺到嚴格定義的鴻溝。

        其三,結構完整性與風格一致性:嚴格覆蓋了提示詞要求的五個模塊且語言風格始終保持「學長講課」的輕松感,末尾的全書邏輯鏈條總結圖更是有效地幫初學者建立了全局觀。

        當然,我們經過仔細檢查也發現其中有極少數小錯誤,如:

        f(x)=1/x 在 (0,1] 上沒有原函數.

        
      模型仍存在進步空間。盡管如此,瑕不掩瑜。

        它成功地從一本以嚴謹著稱的數學教材中提煉出了主線脈絡,并用較為準確的類比傳達了核心直覺。

        對于「幫數學系大一新生建立全書的知識地圖進而輔助學習」這一目標,MiniMax M2.5 現在完全能夠勝任。

        技術突破關鍵:Agent RL

        為什么 MiniMax M2.5 會這么強?這是因為團隊圍繞著 Agent RL(智能體強化學習),構建了一整套完整的技術體系。

        首先,在框架層面,團隊提出了原生 Agent RL 架構。

        Forge 作為一個原生 Agent RL 框架,在設計上通過引入中間層完全解耦了底層訓推引擎與 Agent,支持任意 Agent 的接入,從而優化了模型在 Agent 腳手架和工具上的泛化。此外,還實現了約 40 倍的訓練加速。

        

        在算法層面,團隊沿用了 MiniMax M1 提出的 CISPO 算法,以保障 MoE 模型在大規模強化學習訓練中的穩定性。

        針對 Agent 場景長上下文帶來的信用分配難題,團隊引入了過程獎勵機制對完成質量進行全鏈路監控。此外,為深度對齊用戶體驗,團隊直接估計任務在真實環境下的耗時并作為獎勵函數,在模型效果與響應速度之間實現了更好的平衡。

        

        整體來看,這套 Agent RL 技術體系不僅解決了長上下文強化學習中的穩定性與效率問題,更在架構、算法與工程層面形成閉環。

        正是在這些技術基礎上,M2.5 實現了以上的驚艷表現。

        當 M2.5 在各項核心任務上都能全面對齊 Claude Opus 4.6,這已經不再是一次簡單的「模型升級」,而是一個行業信號——頂級能力正在去稀缺化。

        當能力趨同,真正拉開差距的,將是系統整合能力、產品化能力,以及對真實場景的理解深度。

        對于行業來說,這是一個能力平權的時代;

        對于企業來說,這是一個重新定義效率邊界的窗口;

        對于開發者來說,這是一次前所未有的機會期。

        參考資料:

        MiniMax M2.5 發布:1美金/小時,真實世界工作王者

        (MiniMax Agent 體驗 M2.5)https://agent.minimaxi.com/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國隊爆冷又奪1金!冬奧獎牌榜:前十僅1支亞洲隊,韓國排名飆升

      中國隊爆冷又奪1金!冬奧獎牌榜:前十僅1支亞洲隊,韓國排名飆升

      何老師呀
      2026-02-21 05:47:30
      湛江媽祖事件后續,福建老板集體放話:以后絕不跟姓許的打交道!

      湛江媽祖事件后續,福建老板集體放話:以后絕不跟姓許的打交道!

      社會日日鮮
      2026-02-21 06:53:41
      湛江媽祖事件發酵升級!有網友稱,當地年輕人外出找工作都難了…

      湛江媽祖事件發酵升級!有網友稱,當地年輕人外出找工作都難了…

      火山詩話
      2026-02-21 12:06:43
      廣東將迎冷空氣+降雨!返程請注意

      廣東將迎冷空氣+降雨!返程請注意

      佛山發布
      2026-02-21 11:29:10
      貝加爾湖7名遇難中國游客遺體已被發現,目擊者:唯一幸存者在沉湖前最后一刻打開車門;司機為當地44歲男子,或涉違規私下接單

      貝加爾湖7名遇難中國游客遺體已被發現,目擊者:唯一幸存者在沉湖前最后一刻打開車門;司機為當地44歲男子,或涉違規私下接單

      每日經濟新聞
      2026-02-21 12:38:14
      發現一個悲哀現象:中國的長壽老人,幾乎都是子女用生命在托舉

      發現一個悲哀現象:中國的長壽老人,幾乎都是子女用生命在托舉

      談史論天地
      2026-02-21 08:33:48
      悲催!吉林網友哭訴,大年初四都沒有人來給父親拜年,電話都沒有

      悲催!吉林網友哭訴,大年初四都沒有人來給父親拜年,電話都沒有

      火山詩話
      2026-02-21 07:10:06
      姚晨帶兒女回老家探親過年,丟掉媽媽的過期藥品被“罵”了3天,中途還得防著我媽偷撿回來

      姚晨帶兒女回老家探親過年,丟掉媽媽的過期藥品被“罵”了3天,中途還得防著我媽偷撿回來

      大象新聞
      2026-02-21 13:44:11
      整個西方都炸了,中國男人,全球最高級的一群人

      整個西方都炸了,中國男人,全球最高級的一群人

      毛豆論道
      2026-02-20 20:49:13
      夫婦路邊散步撿到帆布袋,里面裝了20多個紅包共7萬多元,失主回應:是4個孩子的壓歲錢,廣東人:驚呆了......

      夫婦路邊散步撿到帆布袋,里面裝了20多個紅包共7萬多元,失主回應:是4個孩子的壓歲錢,廣東人:驚呆了......

      極目新聞
      2026-02-21 08:51:20
      柬埔寨向26國通報:驅逐涉案外籍人員8000余名 超21萬名外籍人員自行離境 已對包括陳志犯罪集團在內的500余起犯罪案件起訴

      柬埔寨向26國通報:驅逐涉案外籍人員8000余名 超21萬名外籍人員自行離境 已對包括陳志犯罪集團在內的500余起犯罪案件起訴

      每日經濟新聞
      2026-02-21 11:46:14
      微信出現這條杠,你已經不是對方好友了

      微信出現這條杠,你已經不是對方好友了

      朗威談星座
      2026-02-16 02:56:25
      澤連斯基的日常:凌晨3點開工、靠黑咖啡硬撐!戰爭讓他容貌巨變

      澤連斯基的日常:凌晨3點開工、靠黑咖啡硬撐!戰爭讓他容貌巨變

      老馬拉車莫少裝
      2026-02-21 00:16:58
      這個春節,買了恒科的眼淚都流干了

      這個春節,買了恒科的眼淚都流干了

      販財局
      2026-02-21 09:35:42
      震驚!小媽祖高興時的樣貌,才知被媽祖選中的孩子,果然與眾不同

      震驚!小媽祖高興時的樣貌,才知被媽祖選中的孩子,果然與眾不同

      火山詩話
      2026-02-20 08:24:21
      48歲歐陽夏丹父母雙亡獨自過年,一個人吃7道菜,大口吃飯不矯情

      48歲歐陽夏丹父母雙亡獨自過年,一個人吃7道菜,大口吃飯不矯情

      離離言幾許
      2026-02-20 23:38:28
      孫越訪談坦白:和岳云鵬私下不怎么聯系,成就如今的“德云一哥”

      孫越訪談坦白:和岳云鵬私下不怎么聯系,成就如今的“德云一哥”

      離離言幾許
      2026-02-21 09:26:48
      女子除夕夜通過監控看到父親對著空桌獨自吃餃子,第二天與弟弟驅車800公里回家,“回家后爸爸哭了”

      女子除夕夜通過監控看到父親對著空桌獨自吃餃子,第二天與弟弟驅車800公里回家,“回家后爸爸哭了”

      極目新聞
      2026-02-20 22:30:02
      華為完蛋的信號?鴻蒙6失敗,被迫退回鴻蒙4.3

      華為完蛋的信號?鴻蒙6失敗,被迫退回鴻蒙4.3

      雪中風車
      2026-02-21 13:36:38
      阿富汗是這個世界的好老師

      阿富汗是這個世界的好老師

      名人茍或
      2026-02-20 09:01:37
      2026-02-21 16:07:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14564文章數 66632關注度
      往期回顧 全部

      數碼要聞

      NVIDIA新卡皇RTX 5090 Ti再曝光:功耗直飆超700W!性能提升10%

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      時尚
      本地
      藝術
      家居
      軍事航空

      2026紐約秋冬時裝周,在春天開啟美的新故事!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      藝術要聞

      史洪生油畫作品

      家居要聞

      本真棲居 愛暖伴流年

      軍事要聞

      硬核揭秘!福建艦“一馬當先”底氣何在

      無障礙瀏覽 進入關懷版