網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

小米MiMo大模型：榜單排名亮眼，但真實(shí)含金量到底有多少？

2026-03-20 16:45:07　來源: 科技浮世繪

北京舉報(bào)

分享至

一直缺席大模型競爭的小米，在天才少女羅福莉的帶領(lǐng)下，終于正式發(fā)布了自研大模型 MiMo-V2 系列。

小米近日一口氣拿出 Pro 基座、Omni 全模態(tài)、TTS 語音三款模型，主打 Agent 智能體、長上下文與全模態(tài)理解。

在官方宣傳中，小米稱 MiMo-V2-Pro 參數(shù)規(guī)模與上下文長度都做到了當(dāng)前第一梯隊(duì)水平，迅速登頂 OpenRounter 榜單，并拿下 Artificial Analysis 綜合智能排行榜第八。

但一邊是被米粉調(diào)侃的“傳奇耐黑王”，一邊是因?yàn)闋I銷宣傳引起幾次大的爭議的事實(shí)，小米本次大模型宣傳也引發(fā)了爭論。

作為普通用戶，確實(shí)很難評(píng)價(jià)大模型的性能表現(xiàn)。出于謹(jǐn)慎，我們研究了下小米此次重點(diǎn)宣傳的榜單排名，一起看看這些排名成績有多少含金量？

技術(shù)實(shí)力排名，還是市場運(yùn)營成果？

小米官方在宣傳中，主要用兩套評(píng)價(jià)體系支撐 “國際先進(jìn)” 的定位：一套是 Artificial Analysis 綜合榜單，另一套是 OpenRouter 平臺(tái)的調(diào)用量排名。

我們先看 Artificial Analysis 榜單。小米 MiMo-V2-Pro 在此榜單中取得全球第八、國內(nèi)第二的成績，也是其 “國際一流” 說法的主要來源。

Artificial Analysis 榜單的評(píng)測方法簡潔明了，核心圍繞智能體能力、代碼、科學(xué)推理、通用智能四大維度，涵蓋 10 項(xiàng)高難度基準(zhǔn)，采用 “客觀題 + 主觀題” 結(jié)合的方式：

客觀題（如代碼運(yùn)行、數(shù)學(xué)推理、終端執(zhí)行）由機(jī)器自動(dòng)判分，確保準(zhǔn)確性。

主觀題（如文案生成、邏輯表達(dá)、文檔質(zhì)量）則由 AI 裁判（而非真人）進(jìn)行盲測打分，采用 Elo 評(píng)級(jí)方式對(duì)比模型表現(xiàn)。

但Artificial Analysis的關(guān)鍵問題是，AI 裁判并非完全中立 —— 它有固定的偏好（如偏愛結(jié)構(gòu)清晰、語氣正式的答案），廠商可針對(duì)性優(yōu)化模型輸出，對(duì)齊 AI 裁判的打分習(xí)慣，從而提升主觀題得分。

不過Artificial Analysis官方也對(duì)此做了多項(xiàng)限制，比如采用多 AI 裁判交叉驗(yàn)證、零樣本測試、高難度動(dòng)態(tài)題庫，大幅降低了針對(duì)性優(yōu)化的空間。

總體而言，這種針對(duì)性優(yōu)化的問題雖不嚴(yán)重，不會(huì)導(dǎo)致成績完全失真，但肯定存在優(yōu)化得當(dāng)使得模型排名可能比其真實(shí)綜合實(shí)力略高的情況。

再看被廣泛傳播的 OpenRouter 調(diào)用量第一榜單。

小米創(chuàng)辦人，董事長兼CEO雷軍發(fā)文稱，OpenRounter 是全球最大的大模型API聚合平臺(tái)，AI應(yīng)用開發(fā)者可以在這里調(diào)用自己想用的模型。這是對(duì)模型能力、速度和成本綜合實(shí)力考驗(yàn)。調(diào)用量越高，一般意味著開發(fā)者的認(rèn)可度越高。

但實(shí)際上，OpenRouter 排名核心指標(biāo)僅為 Token 總消耗量，并不直接反映模型質(zhì)量。

這種機(jī)制的人為影響因素非常明顯：新品上線常見的大額免費(fèi)額度、低價(jià)補(bǔ)貼、內(nèi)部測試流量、定向引流等，都能在短期內(nèi)顯著拉升調(diào)用數(shù)據(jù)。

更關(guān)鍵的是，平臺(tái)并未區(qū)分真實(shí)用戶與模型方發(fā)起的調(diào)用，廠商完全可以通過自身賬號(hào)批量主動(dòng)調(diào)用，直接抬高排名。

此次小米MiMo 以 Hunter Alpha 匿名上線即快速登頂，同期多款國產(chǎn)模型在該平臺(tái)出現(xiàn)異常暴漲的調(diào)用曲線，可能也側(cè)面印證了這類操作的普遍性。

而且調(diào)用量只代表被使用的規(guī)模，無法體現(xiàn)用戶滿意度、任務(wù)完成率與實(shí)際效果，更無法等同于模型能力的強(qiáng)弱。

因此 OpenRouter 的排名本質(zhì)更接近市場運(yùn)營結(jié)果，而非技術(shù)實(shí)力的客觀證明。

MiMo缺席的榜單

值得注意的是，筆者發(fā)現(xiàn)小米MiMo至今并未出現(xiàn)在LMSYS Chatbot Arena的盲測排名中。

筆者曾在之前的文章《國外的模型更好用？我們做了一下專項(xiàng)研究》中，介紹過為什么這個(gè)盲測更能說明真實(shí)性能。

作為業(yè)內(nèi)最貼近真實(shí)用戶體驗(yàn)、最難被干預(yù)的評(píng)測體系，LMSYS依靠海量真人匿名雙盲對(duì)決形成ELO排名，公信力顯著更高。

小米MiMo未上榜，可能大概率是因?yàn)槟Ｐ蛣偘l(fā)布、尚未提交參評(píng)，或暫時(shí)未接入社區(qū)評(píng)測平臺(tái)，并不直接代表模型能力不足。但小米MiMo確實(shí)缺少了最具說服力、最難以造假的第三方口碑佐證。

綜合來看，小米MiMo所主打宣傳的兩套評(píng)價(jià)體系，的確帶有明顯的營銷傾向，成績中存在可優(yōu)化、可運(yùn)營的空間，不能完全等同于模型的絕對(duì)實(shí)力。

但考慮到大模型的技術(shù)難度以及所謂“優(yōu)化榜單排名”的難度，即便剔除榜單水分，MiMo在架構(gòu)設(shè)計(jì)、能力方向與實(shí)際表現(xiàn)上依然具備扎實(shí)基礎(chǔ)，足以躋身國內(nèi)第一梯隊(duì)優(yōu)秀大模型行列，并非虛有其表。

更關(guān)鍵的是，MiMo從底層設(shè)計(jì)就重點(diǎn)強(qiáng)化了Agent智能體能力，而小米本身擁有手機(jī)、汽車、智能家居等完整的硬件生態(tài)。模型擅長的工具調(diào)用、多步規(guī)劃、跨設(shè)備執(zhí)行，恰好能與小米的全場景硬件深度結(jié)合。

并且，小米還有“超能力”，雷軍宣布，在AI領(lǐng)域，小米今年的研發(fā)和資本投入就將超過160億元。

榜單排名只是短期話題，模型與生態(tài)的協(xié)同落地，才是MiMo未來真正值得期待的長期價(jià)值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.