網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

MiniMax發(fā)布M2.1大語言模型，大幅提升多語言編程能力

2025-12-24 17:44:04　來源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

中國人工智能初創(chuàng)公司MiniMax今日宣布發(fā)布M2.1模型，在現(xiàn)實(shí)世界復(fù)雜任務(wù)和智能體能力方面實(shí)現(xiàn)顯著性能提升，支持更多編程語言和辦公場(chǎng)景。

M2.1的核心亮點(diǎn)

M2.1的關(guān)鍵亮點(diǎn)包括在多種編程語言方面的編程技能大幅增強(qiáng)，涵蓋Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript等。在美學(xué)設(shè)計(jì)能力以及Web、Android和iOS用戶界面開發(fā)理解能力方面實(shí)現(xiàn)跳躍式提升。

M2.1相較于M2升級(jí)了系統(tǒng)性問題解決能力，不僅關(guān)注代碼執(zhí)行正確性，還注重遵循包含附加或復(fù)雜指導(dǎo)的指令。公司表示，這在真實(shí)辦公環(huán)境中提供了更高的可用性，即使是簡(jiǎn)單的規(guī)則也可能包含復(fù)雜的細(xì)微差別。

為實(shí)現(xiàn)這一目標(biāo)，公司不僅強(qiáng)調(diào)出色的編程能力，還增強(qiáng)了對(duì)話和寫作技能。該模型在日常對(duì)話、技術(shù)文檔編寫以及提供結(jié)構(gòu)化響應(yīng)方面表現(xiàn)出色。

開源智能體AI編碼代理公司Kilo Code Inc.的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Scott Breitenother表示："我們的用戶已經(jīng)開始依賴MiniMax提供前沿級(jí)編程輔助，成本僅為同類產(chǎn)品的一小部分。早期測(cè)試顯示，M2.1在從架構(gòu)編排到代碼審查和部署的各個(gè)方面都表現(xiàn)出色。"

性能評(píng)估與基準(zhǔn)測(cè)試

MiniMax M2于今年10月底發(fā)布。公司表示，M2.1相比其前身在能力方面表現(xiàn)出顯著改進(jìn)，特別是在多語言場(chǎng)景中。在這方面，它的表現(xiàn)超越了Anthropic公司的Claude Sonnet 4.5，接近Claude Opus 4.5（更大、更復(fù)雜的模型）。

作為評(píng)估的一部分，MiniMax建立了一個(gè)新的基準(zhǔn)：VIBE（視覺交互執(zhí)行基準(zhǔn)）。該測(cè)試套件涵蓋五個(gè)核心能力：Web、仿真、Android、iOS和后端開發(fā)。與其他基準(zhǔn)不同，VIBE采用智能體驗(yàn)證者語言配置。這使其能夠評(píng)估生成應(yīng)用程序的交互邏輯和視覺美學(xué)。

M2.1在VIBE基準(zhǔn)測(cè)試中表現(xiàn)出公司所稱的"杰出性能"，平均得分達(dá)到88.6分。它在VIBE-Web和VIBE-Android子集中表現(xiàn)特別出色，分別獲得91.5分和89.7分。

公司還針對(duì)Anthropic、谷歌、OpenAI和DeepSeek等大廠商，在編程和知識(shí)的綜合行業(yè)基準(zhǔn)測(cè)試中對(duì)新模型進(jìn)行了測(cè)試，包括MMLU-Pro、人類最后考試和Toolathon（針對(duì)AI智能體）等。

該模型在智能體工具使用、現(xiàn)實(shí)世界知識(shí)和復(fù)雜問題解決能力方面表現(xiàn)出一致的高性能。在HLE無工具測(cè)試中獲得22.0分，這是一個(gè)具有挑戰(zhàn)性的學(xué)術(shù)基準(zhǔn)，包含數(shù)千個(gè)涵蓋不同學(xué)科的研究生級(jí)別多模態(tài)問題。在同樣綜合的學(xué)科知識(shí)基準(zhǔn)MMLU上，該模型得分88分，與前沿模型相當(dāng)或緊隨其后。

該模型可通過MiniMax的應(yīng)用程序接口獲得，或從HuggingFace下載開放權(quán)重版本。目前頁面尚未開放。公司的旗艦服務(wù)MiniMax Agent基于新的MiniMax-2.1構(gòu)建。

Q&A

Q1：MiniMax M2.1模型支持哪些編程語言？

A：MiniMax M2.1支持多種主流編程語言，包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript等，在這些語言的編程技能方面實(shí)現(xiàn)了大幅增強(qiáng)。

Q2：VIBE基準(zhǔn)測(cè)試是什么？它如何評(píng)估模型性能？

A：VIBE是MiniMax建立的視覺交互執(zhí)行基準(zhǔn)，涵蓋Web、仿真、Android、iOS和后端開發(fā)五個(gè)核心能力。它采用智能體驗(yàn)證者語言配置，能夠評(píng)估生成應(yīng)用程序的交互邏輯和視覺美學(xué)，M2.1在此基準(zhǔn)上獲得88.6分的平均成績(jī)。

Q3：MiniMax M2.1與其他主流AI模型相比表現(xiàn)如何？

A：在多語言場(chǎng)景中，M2.1超越了Claude Sonnet 4.5，接近Claude Opus 4.5的性能。在MMLU基準(zhǔn)測(cè)試中獲得88分，與Anthropic、谷歌、OpenAI等公司的前沿模型相當(dāng)或緊隨其后。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.