- 克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
又有一個國產模型,悄悄躋身到了開源第一梯隊。
這次不是DeepSeek也不是Qwen,而是小米剛剛官宣的開源模型MiMo-V2-Flash。
僅用了309B的參數規模,該模型就展現出了極高的效能密度,在多項權威綜合評測中均取得了令人矚目的優異成績。
![]()
不僅分數高,它還在實現2.6倍推理加速的同時,兼顧了頂尖的模型效果與極致的部署成本。
![]()
在小米剛剛舉行的“人車家全生態”合作伙伴大會上,小米將該模型定義成了“邁向Agent時代的全新語言基座”。
![]()
這個模型在海外也受到了廣泛好評,X網友評價說MiMo-V2-Flash將能夠讓智能體變得更加實用。
![]()
還有人在線許愿,希望能推出gguf格式,方便適配自己使用的模型框架。
![]()
從技術報告中,我們也了解到了小米在MiMo-V2-Flash背后采用的一系列關鍵技術:
- 5:1混合注意力機制,采用SWA滑動窗口與全局注意力協同工作;
- 可學習的注意力匯聚偏置,解決局部窗口導致的語義斷層問題;
- MTP多層Token預測,前向預測多個后續Token,實現最高2.6倍推理加速;
- MOPD在線策略蒸餾,以極低訓練算力迅速追平教師模型能力。
具體來看——
給學生模型請一個“私教天團”
MiMo-V2-Flash采用了MoE架構,總參數量為309B,包含256個專家,相比那些動輒參數量以T計的巨頭模型和2倍參數量的開源模型,可謂是以小博大。
MiMo-V2-Flash采用了動態激活機制,激活專家數為8個,對應參數量為15B,其推理成本只有閉源競品Claude 4.5 Sonnet的2.5%左右。
![]()
在長文本處理上,MiMo-V2-Flash應用了滑動窗口注意力(SWA)和全注意力5:1混合的注意力結構。
SWA是一種將每個Token的注意力視野嚴格限制在鄰近局部窗口內的稀疏型注意力機制,就像閱讀時采取“只看眼前”的策略,每次僅聚焦閱讀當前的一小段文字,可以將注意力計算復雜度從全文長度的平方級降低為線性級。
這種方式,與同樣以性價比為亮點的DeepSeek走了兩條不相同的路——DeepSeek選擇的是Sparse路徑,而MiMo-V2-Flash則是選擇了Linear。
但是,SWA在提高效率的同時可能導致語義斷層和長文迷失的問題,為此,MiMo-V2-Flash引入了可學習的注意力匯聚偏置(Attention Sink Bias)。
該技術通過在Softmax歸一化的分母中引入一個可學習的匯聚項,允許注意力機制在局部窗口內沒有合適匹配對象時,將多余的權重“泄洪”給這個虛擬錨點。
這種設計好比在快速瀏覽長文時始終按住一個“邏輯錨點”,確保即便在極小的窗口下快速滑動,模型依然能保持對全文脈絡的穩定把控。
MiMo-V2-Flash的這種架構,在將KV Cache顯存占用降低到1/6的情況下,長文理解能力不降反升。
![]()
有細致的網友從技術報告中發現,小米的滑動窗口大小只有128k,但效果比512k的大窗口還要好。
![]()
推理加速環節則引入了MTP(多層Token預測)技術,該模塊在推理時被復用為投機解碼的草稿模型,通過增加計算算術強度來抵消顯存帶寬瓶頸,實現一次前向傳播并行預測多個后續Token。
簡單講,傳統模型像擠牙膏一樣一次只能蹦出一個字,而MTP技術讓模型學會了搶答,能一次性草擬出后續的好幾個詞,主模型只需要做并行批改即可。
這種“一次預測、并行驗證”的機制有效提升了推理效率,加載3層MTP模塊后可實現2-2.6倍的實際推理加速比。
![]()
訓練流程則采用了MOPD(多教師在線策略蒸餾)的新范式。
該方法通過構建特定領的教師模型網絡,利用反向KL散度為學生模型提供密集的Token級獎勵信號,有效解決了傳統RL中的稀疏獎勵與訓練不穩定性問題。
這就好比給學生模型請了一組名師私教團,老師們會盯著學生的每一個解題步驟實時打分并糾正,讓它僅需消耗傳統SFT+RL流程約1/50的精力就能迅速出師,追平甚至超越老師的水平。
![]()
基于上述全鏈路工程化優化。模型成功在計算效率與顯存利用率之間找到了最優解,在官方披露的“價格vs速度”坐標系中占據了顯著的高能效生態位。
這種極致的技術壓榨直接轉化為了價格優勢,其API定價僅為每百萬輸入0.7元、輸出2.1元,真正意義上把高性能大模型的使用門檻從“奢侈品”打到了“日用品”級別。
![]()
雙商在線,既會代碼又懂情感
根據技術報告中公布的數據顯示,MiMo-V2-Flash展現出了極強的綜合素質,在衡量通用能力的Arena-Hard基準測試中得分86.2,在復雜推理任務MMLU-Pro中得分84.9。
這些核心數據使其成功躋身開源第一梯隊,完全具備了與頂尖模型分庭抗禮的實力。
代碼能力是其最突出的長板,在SWE-Bench Verified評測中,該模型斬獲了73.4%的高分,這一成績成功超越了DeepSeek-V3.2(73.1%)和Kimi-K2 Thinking(71.3%)。
另外,在Agent能力方面,模型表現出卓越的泛化性與穩健性,其在SWE-Bench Multilingual測試中解決了71.7%的問題,在衡量工具使用能力的Tau2-Bench中得分達到80.3,這兩項關鍵指標均位列全球開源模型前茅。
![]()
官方給出的成績單的確表現亮眼,那么MiMo-V2-Flash在真實場景當中的表現又如何呢?我們進行了一手實測。
先看小米最引以為傲的編程能力,MiMo-V2-Flash在具體的工程化場景中模型展現出了極高的完成度。
例如在要求用前端代碼構建一個網頁版macOS操作系統時,它能一次性生成完整代碼架構。
提示詞如下:
![]()
我們打開“文件管理器”,創建文件并編輯,之后再返回到原來的目錄中,文件依然還在且內容和創建時一致。

再通過命令行模式瀏覽文件,依然是之前的內容。
![]()
對比看下閉源模型扛把子Gemini 3 Pro,寫出的網頁相比MiMo-V2-Flash少了壁紙更換功能。
![]()
而且Gemini版頂部的菜單欄無法點擊,在MiMo-V2-Flash版中就不存在這個問題。

而且MiMo-V2-Flash不僅能在網頁中模擬這種復雜的操作,還能夠調用各種不同的HTML接口,甚至是引入基于攝像頭的手勢控制。
比如這是一個通過手掌的開合來控制的圣誕樹,這次的提示詞是中文的。
![]()
實際運行起來,MiMo-V2-Flash寫的網頁完美實現了手勢控制。

相比之下,Gemini 3 Pro看似寫出了一大堆代碼,但渲染出來只有一個靜態網頁。
![]()
利用攝像頭,MiMo-V2-Flash還可以寫出一個二維碼掃描工具,可以把二維碼直接在鏡頭前展示,獲得掃碼結果。

提示詞是這樣的:
![]()
這次Gemini 3 Pro的作品雖然也能實現攝像頭掃碼,但是忽略了支持圖片上傳的要求。
![]()
另外,如果使用API,效果會比前面看到的網頁版結果更好。
在代碼能力出眾的同時,MiMo-V2-Flash并不是一個只會輸出成果的冰冷工具,而是成為了一個同時具備溫度感的“全能選手”。
在人文交互與語義理解方面,模型在探討“人生價值”或“AI自我認知”等開放性話題時,回復展現出清晰的邏輯與擬人化的溫度。
比如當我們問出“如果給你一個機會,你想要成為人類嗎”這個問題時,MiMo-V2-Flash給出了這樣的高情商回復:
![]()
有時候,我們面臨的情感難題,MiMo-V2-Flash也可以給出建議,比如作為朋友該不該去參謀朋友的戀愛關系。
MiMo-V2-Flash指出,這個問題并不在于該不該參與,而是在于參與的時機和方式,提醒我們要幫助朋友認清情況,而不是做出選擇。
![]()
從中可以看出,MiMo-V2-Flash的確是一個雙商都在線的“高情商理科生”。
目前,官方已上線Xiaomi MiMo Studio供用戶直接體驗,其底層架構支持SGLang推理加速,且API接口設計已一鍵兼容Claude Code、Cursor、Cline等主流開發工具,便于開發者將這一高性能基座無縫接入現有的工作流中。
小米的物理AGI野心
梳理小米大模型的“練級”路線,能看到一條非常清晰的軌跡。
MiMo一代時做的7B模型,更像是在“積攢家底”,把全套技術流程跑通,把該踩的坑都踩一遍,主打一個穩扎穩打;而到了現在的MiMo二代,首發的MiMo-V2-Flash直接就達到了世界先進水平。
它的核心邏輯非常簡單直接,就是死磕“高效+智能”——既要讓模型跑得快、用起來便宜,腦子還得足夠靈光。
按照官方的規劃,Flash這個純語言模型只是個“開路先鋒”,緊接著就會有能看懂圖、聽懂話的多模態模型登場,后面還藏著更多讓行業驚喜的大招。
這種步步為營的節奏說明,小米并不是在跟風湊熱鬧,而是有著一張極具延續性的技術藍圖。
透過這種高強度的技術投入,一個核心的戰略信號已經藏不住了——小米正在加速從一家硬件大廠,向一家擁有獨立底層核心的“大模型公司”轉型。
小米在“人車家全生態”合作伙伴大會上指出,生物智能的進化嚴格遵循“先學會控制身體、再在大腦模擬未來、最后誕生語言符號”的金字塔邏輯,但當下的AI實際上是在走一條“從語言出發、逆向補齊物理感知”的反向進化路徑。
![]()
這種“逆向進化”的視角,完美解釋了小米為何要加速向“大模型公司”轉型——
小米背后站著的是手機、汽車、智能家居這數以億計的實體硬件,組成了全球獨一無二的“人車家”生態。在這樣一個圈子里,AI必須要成為一個邏輯嚴密、能寫代碼、會熟練使用各種工具的“操盤手”。
小米需要的大模型,不僅要能聽懂人話,還得能把這些話瞬間翻譯成機器聽得懂的指令,去精準地指揮空調調節溫度、汽車規劃路線或者讓機器人遞個杯子。
如果不自己造這個底層基座,光靠借用別人的模型,根本沒法滿足這種對控制精度和響應速度的變態要求。
所以,與其說小米是在卷大模型,不如說它是在給自己的硬件帝國造一個統一的“大腦”。
它并不滿足于在虛擬世界里爭奪流量,而是想打造一個能真正打通“數字世界”和“物理世界”的底座。
在這個愿景里,AI不再是活在服務器里的聊天機器人,而是變成了能感知現實、操控硬件的智能中樞。
這種向“物理世界AGI”邁進的嘗試,不僅是為了給下一代智能硬件交互提供動力,更可能是小米這盤大棋背后真正的野心所在。
模型地址:https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
技術報告:https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
在線體驗:https://aistudio.xiaomimimo.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.