![]()
中國人工智能初創(chuàng)公司MiniMax今日宣布發(fā)布M2.1模型,在現(xiàn)實(shí)世界復(fù)雜任務(wù)和智能體能力方面實(shí)現(xiàn)顯著性能提升,支持更多編程語言和辦公場(chǎng)景。
M2.1的核心亮點(diǎn)
M2.1的關(guān)鍵亮點(diǎn)包括在多種編程語言方面的編程技能大幅增強(qiáng),涵蓋Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript等。在美學(xué)設(shè)計(jì)能力以及Web、Android和iOS用戶界面開發(fā)理解能力方面實(shí)現(xiàn)跳躍式提升。
M2.1相較于M2升級(jí)了系統(tǒng)性問題解決能力,不僅關(guān)注代碼執(zhí)行正確性,還注重遵循包含附加或復(fù)雜指導(dǎo)的指令。公司表示,這在真實(shí)辦公環(huán)境中提供了更高的可用性,即使是簡(jiǎn)單的規(guī)則也可能包含復(fù)雜的細(xì)微差別。
為實(shí)現(xiàn)這一目標(biāo),公司不僅強(qiáng)調(diào)出色的編程能力,還增強(qiáng)了對(duì)話和寫作技能。該模型在日常對(duì)話、技術(shù)文檔編寫以及提供結(jié)構(gòu)化響應(yīng)方面表現(xiàn)出色。
開源智能體AI編碼代理公司Kilo Code Inc.的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Scott Breitenother表示:"我們的用戶已經(jīng)開始依賴MiniMax提供前沿級(jí)編程輔助,成本僅為同類產(chǎn)品的一小部分。早期測(cè)試顯示,M2.1在從架構(gòu)編排到代碼審查和部署的各個(gè)方面都表現(xiàn)出色。"
性能評(píng)估與基準(zhǔn)測(cè)試
MiniMax M2于今年10月底發(fā)布。公司表示,M2.1相比其前身在能力方面表現(xiàn)出顯著改進(jìn),特別是在多語言場(chǎng)景中。在這方面,它的表現(xiàn)超越了Anthropic公司的Claude Sonnet 4.5,接近Claude Opus 4.5(更大、更復(fù)雜的模型)。
作為評(píng)估的一部分,MiniMax建立了一個(gè)新的基準(zhǔn):VIBE(視覺交互執(zhí)行基準(zhǔn))。該測(cè)試套件涵蓋五個(gè)核心能力:Web、仿真、Android、iOS和后端開發(fā)。與其他基準(zhǔn)不同,VIBE采用智能體驗(yàn)證者語言配置。這使其能夠評(píng)估生成應(yīng)用程序的交互邏輯和視覺美學(xué)。
M2.1在VIBE基準(zhǔn)測(cè)試中表現(xiàn)出公司所稱的"杰出性能",平均得分達(dá)到88.6分。它在VIBE-Web和VIBE-Android子集中表現(xiàn)特別出色,分別獲得91.5分和89.7分。
公司還針對(duì)Anthropic、谷歌、OpenAI和DeepSeek等大廠商,在編程和知識(shí)的綜合行業(yè)基準(zhǔn)測(cè)試中對(duì)新模型進(jìn)行了測(cè)試,包括MMLU-Pro、人類最后考試和Toolathon(針對(duì)AI智能體)等。
該模型在智能體工具使用、現(xiàn)實(shí)世界知識(shí)和復(fù)雜問題解決能力方面表現(xiàn)出一致的高性能。在HLE無工具測(cè)試中獲得22.0分,這是一個(gè)具有挑戰(zhàn)性的學(xué)術(shù)基準(zhǔn),包含數(shù)千個(gè)涵蓋不同學(xué)科的研究生級(jí)別多模態(tài)問題。在同樣綜合的學(xué)科知識(shí)基準(zhǔn)MMLU上,該模型得分88分,與前沿模型相當(dāng)或緊隨其后。
該模型可通過MiniMax的應(yīng)用程序接口獲得,或從HuggingFace下載開放權(quán)重版本。目前頁面尚未開放。公司的旗艦服務(wù)MiniMax Agent基于新的MiniMax-2.1構(gòu)建。
Q&A
Q1:MiniMax M2.1模型支持哪些編程語言?
A:MiniMax M2.1支持多種主流編程語言,包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript等,在這些語言的編程技能方面實(shí)現(xiàn)了大幅增強(qiáng)。
Q2:VIBE基準(zhǔn)測(cè)試是什么?它如何評(píng)估模型性能?
A:VIBE是MiniMax建立的視覺交互執(zhí)行基準(zhǔn),涵蓋Web、仿真、Android、iOS和后端開發(fā)五個(gè)核心能力。它采用智能體驗(yàn)證者語言配置,能夠評(píng)估生成應(yīng)用程序的交互邏輯和視覺美學(xué),M2.1在此基準(zhǔn)上獲得88.6分的平均成績(jī)。
Q3:MiniMax M2.1與其他主流AI模型相比表現(xiàn)如何?
A:在多語言場(chǎng)景中,M2.1超越了Claude Sonnet 4.5,接近Claude Opus 4.5的性能。在MMLU基準(zhǔn)測(cè)試中獲得88分,與Anthropic、谷歌、OpenAI等公司的前沿模型相當(dāng)或緊隨其后。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.