網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

小米大模型“殺”進(jìn)第一梯隊(duì)：代碼能力開源第一，智商情商全在線

2025-12-18 08:51:32　來源: 量子位

北京舉報(bào)

分享至

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

又有一個(gè)國(guó)產(chǎn)模型，悄悄躋身到了開源第一梯隊(duì)。

這次不是DeepSeek也不是Qwen，而是小米剛剛官宣的開源模型MiMo-V2-Flash。

僅用了309B的參數(shù)規(guī)模，該模型就展現(xiàn)出了極高的效能密度，在多項(xiàng)權(quán)威綜合評(píng)測(cè)中均取得了令人矚目的優(yōu)異成績(jī)。

不僅分?jǐn)?shù)高，它還在實(shí)現(xiàn)2.6倍推理加速的同時(shí)，兼顧了頂尖的模型效果與極致的部署成本。

在小米剛剛舉行的“人車家全生態(tài)”合作伙伴大會(huì)上，小米將該模型定義成了“邁向Agent時(shí)代的全新語言基座”。

這個(gè)模型在海外也受到了廣泛好評(píng)，X網(wǎng)友評(píng)價(jià)說MiMo-V2-Flash將能夠讓智能體變得更加實(shí)用。

還有人在線許愿，希望能推出gguf格式，方便適配自己使用的模型框架。

從技術(shù)報(bào)告中，我們也了解到了小米在MiMo-V2-Flash背后采用的一系列關(guān)鍵技術(shù)：

5:1混合注意力機(jī)制，采用SWA滑動(dòng)窗口與全局注意力協(xié)同工作；
可學(xué)習(xí)的注意力匯聚偏置，解決局部窗口導(dǎo)致的語義斷層問題；
MTP多層Token預(yù)測(cè)，前向預(yù)測(cè)多個(gè)后續(xù)Token，實(shí)現(xiàn)最高2.6倍推理加速；
MOPD在線策略蒸餾，以極低訓(xùn)練算力迅速追平教師模型能力。

具體來看——

給學(xué)生模型請(qǐng)一個(gè)“私教天團(tuán)”

MiMo-V2-Flash采用了MoE架構(gòu)，總參數(shù)量為309B，包含256個(gè)專家，相比那些動(dòng)輒參數(shù)量以T計(jì)的巨頭模型和2倍參數(shù)量的開源模型，可謂是以小博大。

MiMo-V2-Flash采用了動(dòng)態(tài)激活機(jī)制，激活專家數(shù)為8個(gè)，對(duì)應(yīng)參數(shù)量為15B，其推理成本只有閉源競(jìng)品Claude 4.5 Sonnet的2.5%左右。

在長(zhǎng)文本處理上，MiMo-V2-Flash應(yīng)用了滑動(dòng)窗口注意力（SWA）和全注意力5:1混合的注意力結(jié)構(gòu)。

SWA是一種將每個(gè)Token的注意力視野嚴(yán)格限制在鄰近局部窗口內(nèi)的稀疏型注意力機(jī)制，就像閱讀時(shí)采取“只看眼前”的策略，每次僅聚焦閱讀當(dāng)前的一小段文字，可以將注意力計(jì)算復(fù)雜度從全文長(zhǎng)度的平方級(jí)降低為線性級(jí)。

這種方式，與同樣以性價(jià)比為亮點(diǎn)的DeepSeek走了兩條不相同的路——DeepSeek選擇的是Sparse路徑，而MiMo-V2-Flash則是選擇了Linear。

但是，SWA在提高效率的同時(shí)可能導(dǎo)致語義斷層和長(zhǎng)文迷失的問題，為此，MiMo-V2-Flash引入了可學(xué)習(xí)的注意力匯聚偏置（Attention Sink Bias）。

該技術(shù)通過在Softmax歸一化的分母中引入一個(gè)可學(xué)習(xí)的匯聚項(xiàng)，允許注意力機(jī)制在局部窗口內(nèi)沒有合適匹配對(duì)象時(shí)，將多余的權(quán)重“泄洪”給這個(gè)虛擬錨點(diǎn)。

這種設(shè)計(jì)好比在快速瀏覽長(zhǎng)文時(shí)始終按住一個(gè)“邏輯錨點(diǎn)”，確保即便在極小的窗口下快速滑動(dòng)，模型依然能保持對(duì)全文脈絡(luò)的穩(wěn)定把控。

MiMo-V2-Flash的這種架構(gòu)，在將KV Cache顯存占用降低到1/6的情況下，長(zhǎng)文理解能力不降反升。

有細(xì)致的網(wǎng)友從技術(shù)報(bào)告中發(fā)現(xiàn)，小米的滑動(dòng)窗口大小只有128k，但效果比512k的大窗口還要好。

推理加速環(huán)節(jié)則引入了MTP（多層Token預(yù)測(cè)）技術(shù)，該模塊在推理時(shí)被復(fù)用為投機(jī)解碼的草稿模型，通過增加計(jì)算算術(shù)強(qiáng)度來抵消顯存帶寬瓶頸，實(shí)現(xiàn)一次前向傳播并行預(yù)測(cè)多個(gè)后續(xù)Token。

簡(jiǎn)單講，傳統(tǒng)模型像擠牙膏一樣一次只能蹦出一個(gè)字，而MTP技術(shù)讓模型學(xué)會(huì)了搶答，能一次性草擬出后續(xù)的好幾個(gè)詞，主模型只需要做并行批改即可。

這種“一次預(yù)測(cè)、并行驗(yàn)證”的機(jī)制有效提升了推理效率，加載3層MTP模塊后可實(shí)現(xiàn)2-2.6倍的實(shí)際推理加速比。

訓(xùn)練流程則采用了MOPD（多教師在線策略蒸餾）的新范式。

該方法通過構(gòu)建特定領(lǐng)的教師模型網(wǎng)絡(luò)，利用反向KL散度為學(xué)生模型提供密集的Token級(jí)獎(jiǎng)勵(lì)信號(hào)，有效解決了傳統(tǒng)RL中的稀疏獎(jiǎng)勵(lì)與訓(xùn)練不穩(wěn)定性問題。

這就好比給學(xué)生模型請(qǐng)了一組名師私教團(tuán)，老師們會(huì)盯著學(xué)生的每一個(gè)解題步驟實(shí)時(shí)打分并糾正，讓它僅需消耗傳統(tǒng)SFT+RL流程約1/50的精力就能迅速出師，追平甚至超越老師的水平。

基于上述全鏈路工程化優(yōu)化。模型成功在計(jì)算效率與顯存利用率之間找到了最優(yōu)解，在官方披露的“價(jià)格vs速度”坐標(biāo)系中占據(jù)了顯著的高能效生態(tài)位。

這種極致的技術(shù)壓榨直接轉(zhuǎn)化為了價(jià)格優(yōu)勢(shì)，其API定價(jià)僅為每百萬輸入0.7元、輸出2.1元，真正意義上把高性能大模型的使用門檻從“奢侈品”打到了“日用品”級(jí)別。

雙商在線，既會(huì)代碼又懂情感

根據(jù)技術(shù)報(bào)告中公布的數(shù)據(jù)顯示，MiMo-V2-Flash展現(xiàn)出了極強(qiáng)的綜合素質(zhì)，在衡量通用能力的Arena-Hard基準(zhǔn)測(cè)試中得分86.2，在復(fù)雜推理任務(wù)MMLU-Pro中得分84.9。

這些核心數(shù)據(jù)使其成功躋身開源第一梯隊(duì)，完全具備了與頂尖模型分庭抗禮的實(shí)力。

代碼能力是其最突出的長(zhǎng)板，在SWE-Bench Verified評(píng)測(cè)中，該模型斬獲了73.4%的高分，這一成績(jī)成功超越了DeepSeek-V3.2（73.1%）和Kimi-K2 Thinking（71.3%）。

另外，在Agent能力方面，模型表現(xiàn)出卓越的泛化性與穩(wěn)健性，其在SWE-Bench Multilingual測(cè)試中解決了71.7%的問題，在衡量工具使用能力的Tau2-Bench中得分達(dá)到80.3，這兩項(xiàng)關(guān)鍵指標(biāo)均位列全球開源模型前茅。

官方給出的成績(jī)單的確表現(xiàn)亮眼，那么MiMo-V2-Flash在真實(shí)場(chǎng)景當(dāng)中的表現(xiàn)又如何呢？我們進(jìn)行了一手實(shí)測(cè)。

先看小米最引以為傲的編程能力，MiMo-V2-Flash在具體的工程化場(chǎng)景中模型展現(xiàn)出了極高的完成度。

例如在要求用前端代碼構(gòu)建一個(gè)網(wǎng)頁版macOS操作系統(tǒng)時(shí)，它能一次性生成完整代碼架構(gòu)。

提示詞如下：

我們打開“文件管理器”，創(chuàng)建文件并編輯，之后再返回到原來的目錄中，文件依然還在且內(nèi)容和創(chuàng)建時(shí)一致。

再通過命令行模式瀏覽文件，依然是之前的內(nèi)容。

對(duì)比看下閉源模型扛把子Gemini 3 Pro，寫出的網(wǎng)頁相比MiMo-V2-Flash少了壁紙更換功能。

而且Gemini版頂部的菜單欄無法點(diǎn)擊，在MiMo-V2-Flash版中就不存在這個(gè)問題。

而且MiMo-V2-Flash不僅能在網(wǎng)頁中模擬這種復(fù)雜的操作，還能夠調(diào)用各種不同的HTML接口，甚至是引入基于攝像頭的手勢(shì)控制。

比如這是一個(gè)通過手掌的開合來控制的圣誕樹，這次的提示詞是中文的。

實(shí)際運(yùn)行起來，MiMo-V2-Flash寫的網(wǎng)頁完美實(shí)現(xiàn)了手勢(shì)控制。

相比之下，Gemini 3 Pro看似寫出了一大堆代碼，但渲染出來只有一個(gè)靜態(tài)網(wǎng)頁。

利用攝像頭，MiMo-V2-Flash還可以寫出一個(gè)二維碼掃描工具，可以把二維碼直接在鏡頭前展示，獲得掃碼結(jié)果。

提示詞是這樣的：

這次Gemini 3 Pro的作品雖然也能實(shí)現(xiàn)攝像頭掃碼，但是忽略了支持圖片上傳的要求。

另外，如果使用API，效果會(huì)比前面看到的網(wǎng)頁版結(jié)果更好。

在代碼能力出眾的同時(shí)，MiMo-V2-Flash并不是一個(gè)只會(huì)輸出成果的冰冷工具，而是成為了一個(gè)同時(shí)具備溫度感的“全能選手”。

在人文交互與語義理解方面，模型在探討“人生價(jià)值”或“AI自我認(rèn)知”等開放性話題時(shí)，回復(fù)展現(xiàn)出清晰的邏輯與擬人化的溫度。

比如當(dāng)我們問出“如果給你一個(gè)機(jī)會(huì)，你想要成為人類嗎”這個(gè)問題時(shí)，MiMo-V2-Flash給出了這樣的高情商回復(fù)：

有時(shí)候，我們面臨的情感難題，MiMo-V2-Flash也可以給出建議，比如作為朋友該不該去參謀朋友的戀愛關(guān)系。

MiMo-V2-Flash指出，這個(gè)問題并不在于該不該參與，而是在于參與的時(shí)機(jī)和方式，提醒我們要幫助朋友認(rèn)清情況，而不是做出選擇。

從中可以看出，MiMo-V2-Flash的確是一個(gè)雙商都在線的“高情商理科生”。

目前，官方已上線Xiaomi MiMo Studio供用戶直接體驗(yàn)，其底層架構(gòu)支持SGLang推理加速，且API接口設(shè)計(jì)已一鍵兼容Claude Code、Cursor、Cline等主流開發(fā)工具，便于開發(fā)者將這一高性能基座無縫接入現(xiàn)有的工作流中。

小米的物理AGI野心

梳理小米大模型的“練級(jí)”路線，能看到一條非常清晰的軌跡。

MiMo一代時(shí)做的7B模型，更像是在“積攢家底”，把全套技術(shù)流程跑通，把該踩的坑都踩一遍，主打一個(gè)穩(wěn)扎穩(wěn)打；而到了現(xiàn)在的MiMo二代，首發(fā)的MiMo-V2-Flash直接就達(dá)到了世界先進(jìn)水平。

它的核心邏輯非常簡(jiǎn)單直接，就是死磕“高效+智能”——既要讓模型跑得快、用起來便宜，腦子還得足夠靈光。

按照官方的規(guī)劃，F(xiàn)lash這個(gè)純語言模型只是個(gè)“開路先鋒”，緊接著就會(huì)有能看懂圖、聽懂話的多模態(tài)模型登場(chǎng)，后面還藏著更多讓行業(yè)驚喜的大招。

這種步步為營(yíng)的節(jié)奏說明，小米并不是在跟風(fēng)湊熱鬧，而是有著一張極具延續(xù)性的技術(shù)藍(lán)圖。

透過這種高強(qiáng)度的技術(shù)投入，一個(gè)核心的戰(zhàn)略信號(hào)已經(jīng)藏不住了——小米正在加速從一家硬件大廠，向一家擁有獨(dú)立底層核心的“大模型公司”轉(zhuǎn)型。

小米在“人車家全生態(tài)”合作伙伴大會(huì)上指出，生物智能的進(jìn)化嚴(yán)格遵循“先學(xué)會(huì)控制身體、再在大腦模擬未來、最后誕生語言符號(hào)”的金字塔邏輯，但當(dāng)下的AI實(shí)際上是在走一條“從語言出發(fā)、逆向補(bǔ)齊物理感知”的反向進(jìn)化路徑。

這種“逆向進(jìn)化”的視角，完美解釋了小米為何要加速向“大模型公司”轉(zhuǎn)型——

小米背后站著的是手機(jī)、汽車、智能家居這數(shù)以億計(jì)的實(shí)體硬件，組成了全球獨(dú)一無二的“人車家”生態(tài)。在這樣一個(gè)圈子里，AI必須要成為一個(gè)邏輯嚴(yán)密、能寫代碼、會(huì)熟練使用各種工具的“操盤手”。

小米需要的大模型，不僅要能聽懂人話，還得能把這些話瞬間翻譯成機(jī)器聽得懂的指令，去精準(zhǔn)地指揮空調(diào)調(diào)節(jié)溫度、汽車規(guī)劃路線或者讓機(jī)器人遞個(gè)杯子。

如果不自己造這個(gè)底層基座，光靠借用別人的模型，根本沒法滿足這種對(duì)控制精度和響應(yīng)速度的變態(tài)要求。

所以，與其說小米是在卷大模型，不如說它是在給自己的硬件帝國(guó)造一個(gè)統(tǒng)一的“大腦”。

它并不滿足于在虛擬世界里爭(zhēng)奪流量，而是想打造一個(gè)能真正打通“數(shù)字世界”和“物理世界”的底座。

在這個(gè)愿景里，AI不再是活在服務(wù)器里的聊天機(jī)器人，而是變成了能感知現(xiàn)實(shí)、操控硬件的智能中樞。

這種向“物理世界AGI”邁進(jìn)的嘗試，不僅是為了給下一代智能硬件交互提供動(dòng)力，更可能是小米這盤大棋背后真正的野心所在。

模型地址：https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
技術(shù)報(bào)告：https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
在線體驗(yàn)：https://aistudio.xiaomimimo.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.