網易首頁 > 網易號 > 正文申請入駐

羅福莉攜小米MiMo-V2-Flash首次亮相：一次在推理與Agent上的下注｜甲子光年

2025-12-17 12:19:45　來源: 甲子光年

北京舉報

分享至

“真正的護城河，是科學的研究文化與方法，是將未知問題結合模型優勢轉化為可用產品的能力。”

作者｜王博

大模型正在進入一個新階段。

過去兩年，行業圍繞著參數規模、預訓練數據量與通用能力上限展開了激烈競爭。模型是否“更聰明”，是否能在標準基準上取得領先成績，幾乎構成了全部敘事核心。

在大模型進入第二個階段之后，一個越來越清晰的事實正在浮出水面：在以Agent為目標的應用場景中，效率本身開始成為能力的一部分。

正是在這樣的背景下，小米MiMo團隊在12月16日晚上發布并開源了MiMo-V2-Flash。團隊在官方博客中介紹，這是一款強大、高效且超快速的基座語言模型，在推理、編程和智能體場景中表現尤為出色，同時也是處理日常任務的優秀通用助手。

圖片來源：小米MiMo

從技術報告和官方博客給出的信息來看，小米MiMo團隊并沒有一味卷模型參數，而是圍繞“推理效率、長上下文與Agent能力”展開了系統性工程設計。

今天上午，小米MiMO大模型負責人羅福莉公開介紹了MiMo-V2-Flash并分享了其背后的研發故事。值得注意的是，這是DeepSeek前研究員羅福莉加入小米后，首次公開亮相。

羅福莉，圖片來源：「甲子光年」拍攝

臺上的羅福莉略顯緊張，雙手一直緊握翻頁器，但這位四川姑娘用帶有一點“川普”的口音堅定地說：“MiMo-V2-Flash是邁向Agent時代的全新語言基座。”

「甲子光年」認為，這不僅是一次重要的模型發布，也是一次觀察小米MiMo團隊技術取向的機會。將模型本身的技術選擇，與背后的人員與組織變化結合起來看，MiMo-V2-Flash的意義，已經超出了單一模型版本迭代。

1.模型形態：推理效率成為核心

MiMo-V2-Flash采用混合專家（Mixture-of-Experts，MoE）架構，總參數規模為309B，但在實際推理過程中，僅有約15B參數被激活。

在輕量化的模型架構之上，MiMo-V2-Flash仍然實現了更高水平的智能表現，在多項基準測試中獲得了不錯的成績。

例如，在AIME 2025數學競賽和GPQA-Diamond科學知識基準中，MiMo-V2-Flash躋身開源模型前二，展現出突出的推理能力。在衡量軟件工程能力的SWE-bench Verified以及多語言基準上，MiMo-V2-Flash位列所有開源模型第一，并且整體表現已可與全球頂級閉源模型比肩。

圖片來源：小米MiMo

其實在當前階段，MoE已逐漸成為很多模型研發團隊面向推理效率的現實選擇。隨著模型被頻繁調用、持續運行，單位時間內的計算成本與顯存占用，開始成為系統設計的硬約束。MiMo-V2-Flash的參數分布方式，明顯是在為高并發、長時間運行場景預留空間。

從這一點看，小米MiMo-V2-Flash定位更像是一款可以被嵌入系統、長期服務的推理引擎。

MiMo-V2-Flash支持最高256k的上下文長度，使其能夠完成跨數百輪Agent交互和工具調用的任務。與這一指標同樣重要的，是它實現這一能力的方式。

羅福莉介紹，團隊圍繞極致推理效率設計模型結構，主要有兩個方面創新：Hybrid SWA架構（混合滑動窗口注意力）和3層MTP推理。

羅福莉談圍繞極致推理效率設計模型結構，圖片來源：「甲子光年」拍攝

在注意力機制上，MiMo-V2-Flash采用了滑動窗口注意力與全局注意力相結合的混合注意力（hybrid attention）架構。滑動窗口注意力讓模型在大多數情況下只關注局部上下文，大幅降低長文本場景下的計算與顯存開銷；全局注意力則在關鍵層中保留對完整上下文的建模能力，用于校準整體語義與長程依賴。通過在效率與理解能力之間進行這種分工，模型得以在支持超長上下文的同時，仍保持可部署、可擴展的推理性能。

小米MiMo團隊將滑動窗口注意力與全局注意力交錯使用，采用128-token的激進滑動窗口設置，并以5:1的混合比例進行組合。

這一設計并不追求理論上的最優表達能力，而是針對KV Cache的顯存與計算成本進行了現實取舍。全局注意力在長上下文下的成本增長過快，而純滑動窗口又會削弱長程依賴。混合注意力的引入，使模型在長文本理解與工程可行性之間維持了相對平衡。

客觀來說，這類設計細節往往不容易在榜單中體現，卻直接決定了模型是否能在真實系統中被使用。

在推理效率層面，MiMo-V2-Flash引入了Multi-Token Prediction（MTP）模塊。這一模塊以輕量級結構嵌入模型體系，使模型在一次前向計算中并行預測多個token。

圖片來源：小米MiMo

羅福莉介紹：“MTP一開始是被提出來用于做推理加速的，后面DeepSeek將它用于提升基座模型的能力，我們也在訓練的時候去加入了MTP層進一步提升基座模型的潛能。微調的時候加入了更多層的MTP，用很少量的算力就提升了MTP層的接受率。”

根據技術報告，MTP在不顯著影響生成質量的前提下，可將推理速度提升最高約3倍。

這一設計的意義，并不局限于讓模型可以“更快輸出”，而在于改變了模型在復雜任務中的推理節奏。

在Agent場景中，模型往往需要經歷多輪規劃、判斷與執行。推理速度的提升，直接影響系統的響應能力，也影響Agent是否能夠被用于實時或準實時決策任務。MTP的引入，明顯可以服務于這一類使用情境。

2.訓練方法：全新的后訓練范式MOPD

在推理與Agent任務中，模型面臨的挑戰與傳統問答任務存在明顯差異。

錯誤不再只體現在“答錯一道題”，而會通過多步推理、長時序決策被不斷放大，最終影響系統整體行為。

傳統的監督微調或Off-policy蒸餾，更多是在“標準答案環境”中訓練模型。模型學到的，是在理想情況下該如何一步步走到正確結果，但在真實運行中，它更常面對的是中途走偏、信息不完整或需要反復試錯的情況。這種訓練環境與真實使用場景之間的差距，在復雜推理和頻繁工具調用的任務中會被進一步放大。

小米MiMo團隊在MiMo-V2-Flash的后訓練階段，創新提出了多教師在線策略蒸餾（Multi-Teacher Online Policy Distillation，MOPD）范式，正是針對這一問題提出的解決方案。

此前的蒸餾通常是給定輸入，由更大、更強的教師模型生成完整輸出，再由更小的學生模型去“模仿結果”。

但這在推理和Agent場景里會出現問題，比如學生模型只學“答案”，不學“過程”；學生模型在真實推理中走偏、犯錯，不按教師模型的路徑走。此外Agent場景中的工具調用、多輪決策、長時規劃，這些都不是“看一個標準答案”就能學會的。

而MOPD的核心思路，是讓學生模型先按照當前策略生成推理或Agent行為軌跡，再由多個教師模型在這些on-policy 軌跡上進行token級指導。

這種方式使學生模型學習的對象從理想化的“標準答案”，轉變成自身在真實狀態空間中的行為分布。

多教師機制進一步增強了約束的多樣性。不同教師模型在推理策略、工具使用、節奏控制等方面的差異，使學生模型獲得更豐富的參考信號，從而降低在復雜任務中的單一偏置風險。

羅福莉還分享了一件讓她意外的事情：“當學生模型很快超越教師模型的時候，能不能讓這個學生替換成教師，繼續自我迭代提升？”

根據官方博客，MOPD采用了解耦設計，支持靈活地集成新的教師模型和ORM，并自然而然地實現“教與學”的閉環迭代：通過蒸餾得到的學生模型可以演化為更強的教師模型，從而實現能力的持續自我提升。

值得一提的是，MOPD訓練穩定且極其高效——要達到教師模型的最高性能，僅需傳統SFT+RL流程不到1/50的計算資源。

圖片來源：小米MiMo

那么MOPD取代強化學習（RL）了嗎？

在MiMo-V2-Flash的訓練體系中，MOPD并未取代強化學習，而是與Agentic RL形成了協同結構。

MOPD提供的是一種相對平滑、穩定的中間訓練階段，用于在進入高噪聲的強化學習之前，對模型行為進行約束和塑形。這種設計降低了強化學習在長時序任務中可能出現的策略崩壞風險，也使模型在復雜環境中的探索更加可控。

這一組合，體現出小米MiMo團隊明顯的系統工程思維：將模型訓練視為多階段、不同目標函數逐步接管的過程，而不是一次性優化。

3.羅福莉與小米：一次面向Agent時代的下注

羅福莉身上有著太多的標簽。

她畢業于北大，是國際頂會常客，此前曾在阿里巴巴達摩院和DeepSeek工作，這次是她作為小米MiMO大模型負責人首次公開亮相。

羅福莉的職業經歷中，反復出現的主題是強化學習、復雜決策系統以及模型在真實環境中的穩定性問題。她關注的重點并不集中在模型的理論上限，而更多指向模型在錯誤空間中的表現，以及系統在長時間運行中的行為演化。

MiMo-V2-Flash在MOPD、Agentic RL、推理節奏與工程穩定性上的投入，或許會讓人覺得這是一款“工程味很重”的模型，但是這與羅福莉的技術取向可以說是高度一致。而從模型設計邏輯來看，這種一致性更像是路線選擇的自然結果，而非偶然疊加。

這既是她加入小米后發布的首個重要成果，也可能是小米大模型路線一次長期影響深遠的轉向。

對于小米這樣一個擁有操作系統、設備生態與多樣化應用場景的公司而言，這種以Agent能力為導向的模型設計，具有更高的戰略價值。推理效率、穩定性與可控性，直接決定了模型是否能夠被嵌入復雜系統。

而從行業視角看，MiMo-V2-Flash代表著大模型路線的一種分化趨勢：在預訓練Scaling逐漸逼近邊際收益的背景下，圍繞推理系統、Agent能力與工程可行性的探索，正在成為新的競爭維度。

這一方向并不依賴于極端的算力投入，而更強調系統設計、訓練方法與工程能力的協同。這種路線，也更貼近大模型在產業環境中的真實需求。

近期OpenAI前首席科學家伊利亞·蘇茨克維（Ilya Sutskever）接受采訪時提到，過去5年，在“算力+海量數據+大模型”上不斷擴張規模，確實推動了AI的快速發展。但這條“預訓練+scale”路徑正逼近極限——數據源有限，算力雖多，但再多 100 倍，也不一定帶來實質性質變。“我們正從規模時代（age of scaling）轉向研究時代（age of research）”伊利亞直言。

有趣的是，今天羅福莉表達了類似的觀點：“算力和數據也并非最終的護城河，真正的護城河，是科學的研究文化與方法，是將未知問題結合模型優勢轉化為可用產品的能力。”

在羅福莉看來，小米MiMo團隊是一個研究、產品、工程深度耦合的年輕團隊，“我們團隊里邊每個人都極度好奇、追求真理，乘著自由的風，滿懷著對這個世界極致的關懷，在一起去探索智能的邊界。”

這一次，以羅福莉為代表的小米MiMo團隊選擇在推理與Agent上明確下注。

“下一代智能體系統，不是一個‘語言模擬器’，而是一個真正理解我們世界、并與之共存的‘智能體’。”羅福莉說。

她認為，大模型本質上是用了算力的暴力美學，直接去攻克了最頂層的語言，但是它跳過了中間的非常多的步驟，比如對世界的感知、模擬，以及作為實體與環境產生交互。

“單純Scaling Up參數量不夠，”羅福莉說，“要讓大模型回到‘演化課堂’，補上它跳過的關鍵學習步驟。”

羅福莉談通往AGI之路，圖片來源：「甲子光年」拍攝

在MiMo-V2-Flash發布之前，羅福莉和MiMo有一次對話，她想讓MiMo”深入闡述物理世界導向：強調多模態和真實世界交互才是通往真正智能（AGI）的關鍵，而非僅靠文本。

MiMo的回答是：“智能根植于存在，而非符號。”

這個回答讓羅福莉有些意外，但也讓她充滿信心。

羅福莉與MiMo-V2-Flash對話，圖片來源：「甲子光年」拍攝

*甲子光年作者蘇霍伊對本文亦有貢獻

（封面圖來源：「甲子光年」拍攝）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.