<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      羅福莉攜小米MiMo-V2-Flash首次亮相:一次在推理與Agent上的下注|甲子光年

      0
      分享至



      “真正的護城河,是科學的研究文化與方法,是將未知問題結合模型優勢轉化為可用產品的能力。”

      作者|王博

      大模型正在進入一個新階段。

      過去兩年,行業圍繞著參數規模、預訓練數據量與通用能力上限展開了激烈競爭。模型是否“更聰明”,是否能在標準基準上取得領先成績,幾乎構成了全部敘事核心。

      在大模型進入第二個階段之后,一個越來越清晰的事實正在浮出水面:在以Agent為目標的應用場景中,效率本身開始成為能力的一部分。

      正是在這樣的背景下,小米MiMo團隊在12月16日晚上發布并開源了MiMo-V2-Flash。團隊在官方博客中介紹,這是一款強大、高效且超快速的基座語言模型,在推理、編程和智能體場景中表現尤為出色,同時也是處理日常任務的優秀通用助手。


      圖片來源:小米MiMo

      從技術報告和官方博客給出的信息來看,小米MiMo團隊并沒有一味卷模型參數,而是圍繞“推理效率、長上下文與Agent能力”展開了系統性工程設計。


      今天上午,小米MiMO大模型負責人羅福莉公開介紹了MiMo-V2-Flash并分享了其背后的研發故事。值得注意的是,這是DeepSeek前研究員羅福莉加入小米后,首次公開亮相。


      羅福莉,圖片來源:「甲子光年」拍攝

      臺上的羅福莉略顯緊張,雙手一直緊握翻頁器,但這位四川姑娘用帶有一點“川普”的口音堅定地說:“MiMo-V2-Flash是邁向Agent時代的全新語言基座。”

      「甲子光年」認為,這不僅是一次重要的模型發布,也是一次觀察小米MiMo團隊技術取向的機會。將模型本身的技術選擇,與背后的人員與組織變化結合起來看,MiMo-V2-Flash的意義,已經超出了單一模型版本迭代。

      1.模型形態:推理效率成為核心

      MiMo-V2-Flash采用混合專家(Mixture-of-Experts,MoE) 架構,總參數規模為309B,但在實際推理過程中,僅有約15B參數被激活。

      在輕量化的模型架構之上,MiMo-V2-Flash仍然實現了更高水平的智能表現,在多項基準測試中獲得了不錯的成績。

      例如,在AIME 2025數學競賽和GPQA-Diamond科學知識基準中,MiMo-V2-Flash躋身開源模型前二,展現出突出的推理能力。在衡量軟件工程能力的SWE-bench Verified以及多語言基準上,MiMo-V2-Flash位列所有開源模型第一,并且整體表現已可與全球頂級閉源模型比肩。


      圖片來源:小米MiMo

      其實在當前階段,MoE已逐漸成為很多模型研發團隊面向推理效率的現實選擇。隨著模型被頻繁調用、持續運行,單位時間內的計算成本與顯存占用,開始成為系統設計的硬約束。MiMo-V2-Flash的參數分布方式,明顯是在為高并發、長時間運行場景預留空間。

      從這一點看,小米MiMo-V2-Flash定位更像是一款可以被嵌入系統、長期服務的推理引擎。

      MiMo-V2-Flash支持最高256k的上下文長度,使其能夠完成跨數百輪Agent交互和工具調用的任務。與這一指標同樣重要的,是它實現這一能力的方式。

      羅福莉介紹,團隊圍繞極致推理效率設計模型結構,主要有兩個方面創新:Hybrid SWA架構(混合滑動窗口注意力)和3層MTP推理。


      羅福莉談圍繞極致推理效率設計模型結構,圖片來源:「甲子光年」拍攝

      在注意力機制上,MiMo-V2-Flash采用了滑動窗口注意力與全局注意力相結合的混合注意力(hybrid attention)架構。滑動窗口注意力讓模型在大多數情況下只關注局部上下文,大幅降低長文本場景下的計算與顯存開銷;全局注意力則在關鍵層中保留對完整上下文的建模能力,用于校準整體語義與長程依賴。通過在效率與理解能力之間進行這種分工,模型得以在支持超長上下文的同時,仍保持可部署、可擴展的推理性能。

      小米MiMo團隊將滑動窗口注意力與全局注意力交錯使用,采用128-token的激進滑動窗口設置,并以5:1的混合比例進行組合。

      這一設計并不追求理論上的最優表達能力,而是針對KV Cache的顯存與計算成本進行了現實取舍。全局注意力在長上下文下的成本增長過快,而純滑動窗口又會削弱長程依賴。混合注意力的引入,使模型在長文本理解與工程可行性之間維持了相對平衡。

      客觀來說,這類設計細節往往不容易在榜單中體現,卻直接決定了模型是否能在真實系統中被使用。

      在推理效率層面,MiMo-V2-Flash引入了Multi-Token Prediction(MTP)模塊。這一模塊以輕量級結構嵌入模型體系,使模型在一次前向計算中并行預測多個token。


      圖片來源:小米MiMo

      羅福莉介紹:“MTP一開始是被提出來用于做推理加速的,后面DeepSeek將它用于提升基座模型的能力,我們也在訓練的時候去加入了MTP層進一步提升基座模型的潛能。微調的時候加入了更多層的MTP,用很少量的算力就提升了MTP層的接受率。”

      根據技術報告,MTP在不顯著影響生成質量的前提下,可將推理速度提升最高約3倍。

      這一設計的意義,并不局限于讓模型可以“更快輸出”,而在于改變了模型在復雜任務中的推理節奏。

      在Agent場景中,模型往往需要經歷多輪規劃、判斷與執行。推理速度的提升,直接影響系統的響應能力,也影響Agent是否能夠被用于實時或準實時決策任務。MTP的引入,明顯可以服務于這一類使用情境。

      2.訓練方法:全新的后訓練范式MOPD

      在推理與Agent任務中,模型面臨的挑戰與傳統問答任務存在明顯差異。

      錯誤不再只體現在“答錯一道題”,而會通過多步推理、長時序決策被不斷放大,最終影響系統整體行為。

      傳統的監督微調或Off-policy蒸餾,更多是在“標準答案環境”中訓練模型。模型學到的,是在理想情況下該如何一步步走到正確結果,但在真實運行中,它更常面對的是中途走偏、信息不完整或需要反復試錯的情況。這種訓練環境與真實使用場景之間的差距,在復雜推理和頻繁工具調用的任務中會被進一步放大。

      小米MiMo團隊在MiMo-V2-Flash的后訓練階段,創新提出了多教師在線策略蒸餾(Multi-Teacher Online Policy Distillation,MOPD)范式,正是針對這一問題提出的解決方案。

      此前的蒸餾通常是給定輸入,由更大、更強的教師模型生成完整輸出,再由更小的學生模型去“模仿結果”。

      但這在推理和Agent場景里會出現問題,比如學生模型只學“答案”,不學“過程”;學生模型在真實推理中走偏、犯錯,不按教師模型的路徑走。此外Agent場景中的工具調用、多輪決策、長時規劃, 這些都不是“看一個標準答案”就能學會的。

      而MOPD的核心思路,是讓學生模型先按照當前策略生成推理或Agent行為軌跡,再由多個教師模型在這些on-policy 軌跡上進行token級指導。

      這種方式使學生模型學習的對象從理想化的“標準答案”,轉變成自身在真實狀態空間中的行為分布。

      多教師機制進一步增強了約束的多樣性。不同教師模型在推理策略、工具使用、節奏控制等方面的差異,使學生模型獲得更豐富的參考信號,從而降低在復雜任務中的單一偏置風險。

      羅福莉還分享了一件讓她意外的事情:“當學生模型很快超越教師模型的時候,能不能讓這個學生替換成教師,繼續自我迭代提升?”

      根據官方博客,MOPD采用了解耦設計,支持靈活地集成新的教師模型和ORM,并自然而然地實現“教與學”的閉環迭代:通過蒸餾得到的學生模型可以演化為更強的教師模型,從而實現能力的持續自我提升。

      值得一提的是,MOPD訓練穩定且極其高效——要達到教師模型的最高性能,僅需傳統SFT+RL流程不到1/50的計算資源。


      圖片來源:小米MiMo

      那么MOPD取代強化學習(RL)了嗎?

      在MiMo-V2-Flash的訓練體系中,MOPD并未取代強化學習,而是與Agentic RL形成了協同結構。

      MOPD提供的是一種相對平滑、穩定的中間訓練階段,用于在進入高噪聲的強化學習之前,對模型行為進行約束和塑形。這種設計降低了強化學習在長時序任務中可能出現的策略崩壞風險,也使模型在復雜環境中的探索更加可控。

      這一組合,體現出小米MiMo團隊明顯的系統工程思維:將模型訓練視為多階段、不同目標函數逐步接管的過程,而不是一次性優化。

      3.羅福莉與小米:一次面向Agent時代的下注

      羅福莉身上有著太多的標簽。

      她畢業于北大,是國際頂會常客,此前曾在阿里巴巴達摩院和DeepSeek工作,這次是她作為小米MiMO大模型負責人首次公開亮相。

      羅福莉的職業經歷中,反復出現的主題是強化學習、復雜決策系統以及模型在真實環境中的穩定性問題。她關注的重點并不集中在模型的理論上限,而更多指向模型在錯誤空間中的表現,以及系統在長時間運行中的行為演化。

      MiMo-V2-Flash在MOPD、Agentic RL、推理節奏與工程穩定性上的投入,或許會讓人覺得這是一款“工程味很重”的模型,但是這與羅福莉的技術取向可以說是高度一致。而從模型設計邏輯來看,這種一致性更像是路線選擇的自然結果,而非偶然疊加。

      這既是她加入小米后發布的首個重要成果,也可能是小米大模型路線一次長期影響深遠的轉向。

      對于小米這樣一個擁有操作系統、設備生態與多樣化應用場景的公司而言,這種以Agent能力為導向的模型設計,具有更高的戰略價值。推理效率、穩定性與可控性,直接決定了模型是否能夠被嵌入復雜系統。

      而從行業視角看,MiMo-V2-Flash代表著大模型路線的一種分化趨勢:在預訓練Scaling逐漸逼近邊際收益的背景下,圍繞推理系統、Agent能力與工程可行性的探索,正在成為新的競爭維度。

      這一方向并不依賴于極端的算力投入,而更強調系統設計、訓練方法與工程能力的協同。這種路線,也更貼近大模型在產業環境中的真實需求。

      近期OpenAI前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)接受采訪時提到,過去5年,在“算力+海量數據+大模型”上不斷擴張規模,確實推動了AI的快速發展。但這條“預訓練+scale”路徑正逼近極限——數據源有限,算力雖多,但再多 100 倍,也不一定帶來實質性質變。“我們正從規模時代(age of scaling)轉向研究時代(age of research)”伊利亞直言。

      有趣的是,今天羅福莉表達了類似的觀點:“算力和數據也并非最終的護城河,真正的護城河,是科學的研究文化與方法,是將未知問題結合模型優勢轉化為可用產品的能力。”

      在羅福莉看來,小米MiMo團隊是一個研究、產品、工程深度耦合的年輕團隊,“我們團隊里邊每個人都極度好奇、追求真理,乘著自由的風,滿懷著對這個世界極致的關懷,在一起去探索智能的邊界。”

      這一次,以羅福莉為代表的小米MiMo團隊選擇在推理與Agent上明確下注。

      “下一代智能體系統,不是一個‘語言模擬器’,而是一個真正理解我們世界、并與之共存的‘智能體’。”羅福莉說。

      她認為,大模型本質上是用了算力的暴力美學,直接去攻克了最頂層的語言,但是它跳過了中間的非常多的步驟,比如對世界的感知、模擬,以及作為實體與環境產生交互。

      “單純Scaling Up參數量不夠,”羅福莉說,“要讓大模型回到‘演化課堂’,補上它跳過的關鍵學習步驟。”


      羅福莉談通往AGI之路,圖片來源:「甲子光年」拍攝

      在MiMo-V2-Flash發布之前,羅福莉和MiMo有一次對話,她想讓MiMo”深入闡述物理世界導向:強調多模態和真實世界交互才是通往真正智能(AGI)的關鍵,而非僅靠文本。

      MiMo的回答是:“智能根植于存在,而非符號。”

      這個回答讓羅福莉有些意外,但也讓她充滿信心。


      羅福莉與MiMo-V2-Flash對話,圖片來源:「甲子光年」拍攝

      *甲子光年作者蘇霍伊對本文亦有貢獻

      (封面圖來源:「甲子光年」拍攝)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      幫周星馳賺20億后,她嫁給大16歲百億富豪,如今是三個孩子的后媽

      幫周星馳賺20億后,她嫁給大16歲百億富豪,如今是三個孩子的后媽

      民間平哥
      2025-12-26 21:53:38
      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      特朗普還沒啟程訪華,中國突然公布黃金庫存,美國霸權地位已不保

      花花娛界
      2025-12-25 20:36:30
      “父母窮,孩子連穿粉色棉襖的資格都沒有”,家長直言:厭惡女兒

      “父母窮,孩子連穿粉色棉襖的資格都沒有”,家長直言:厭惡女兒

      妍妍教育日記
      2025-12-26 17:57:01
      裁判造關鍵爭議!幾乎掀翻廣東男籃,高詩巖自責1幕,令人動容!

      裁判造關鍵爭議!幾乎掀翻廣東男籃,高詩巖自責1幕,令人動容!

      話體壇
      2025-12-26 22:21:08
      王勵勤人事調整展現高超手腕!秦志戩由乒協回國乒,有望任總教練

      王勵勤人事調整展現高超手腕!秦志戩由乒協回國乒,有望任總教練

      不寫散文詩
      2025-12-25 20:22:00
      中日游客雙向奔赴,日本人不歡迎中國游客,中國游客也不想去日本

      中日游客雙向奔赴,日本人不歡迎中國游客,中國游客也不想去日本

      扶蘇聊歷史
      2025-12-26 11:09:04
      14場0進球!皇馬巨星罕見進球荒,身價1年狂跌5000萬歐

      14場0進球!皇馬巨星罕見進球荒,身價1年狂跌5000萬歐

      足球狗說
      2025-12-26 14:08:47
      一旦釋放出性感魅力,著實令人心醉神迷

      一旦釋放出性感魅力,著實令人心醉神迷

      鋒哥與八卦哥
      2025-12-25 16:16:14
      咸魚還是太全面了,怪不得人稱國內黑市

      咸魚還是太全面了,怪不得人稱國內黑市

      另子維愛讀史
      2025-12-20 17:07:20
      60:51!韓國瑜落錘,彈劾賴清德提案通過,鄭麗文有個擔憂或成真

      60:51!韓國瑜落錘,彈劾賴清德提案通過,鄭麗文有個擔憂或成真

      書紀文譚
      2025-12-26 19:23:26
      一個不被任何人拿捏的方法:不要回答別人的問題,回答別人的目的

      一個不被任何人拿捏的方法:不要回答別人的問題,回答別人的目的

      詩詞中國
      2025-12-20 20:38:32
      1991年河南母子奸殺沉尸案,25年后終告破,嫌疑人病亡開棺驗尸

      1991年河南母子奸殺沉尸案,25年后終告破,嫌疑人病亡開棺驗尸

      史記趣聞
      2025-12-16 20:40:04
      山東省民營企業家協會第八屆第三次會員大會在濟南成功召開

      山東省民營企業家協會第八屆第三次會員大會在濟南成功召開

      齊魯壹點
      2025-12-26 16:58:14
      今天更冷! 上海迎來近期最冷時刻,市區最低1.9℃ 郊區有冰凍,雙休日回暖,下周或有降雨和大風

      今天更冷! 上海迎來近期最冷時刻,市區最低1.9℃ 郊區有冰凍,雙休日回暖,下周或有降雨和大風

      縱相新聞
      2025-12-26 22:35:03
      王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

      王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

      韓馳
      2025-12-26 22:37:49
      4.6℃!多地氣溫“大跳水”,廣州氣溫繼續下降!明天還會更冷?

      4.6℃!多地氣溫“大跳水”,廣州氣溫繼續下降!明天還會更冷?

      城事特搜
      2025-12-26 19:38:10
      中規中矩,詹姆斯13中7拿到18分2板5助,正負值-33全場最低

      中規中矩,詹姆斯13中7拿到18分2板5助,正負值-33全場最低

      懂球帝
      2025-12-26 11:35:07
      打得也太憋屈了!艾頓在湖人根本沒有辦法得到足夠的信任?

      打得也太憋屈了!艾頓在湖人根本沒有辦法得到足夠的信任?

      稻谷與小麥
      2025-12-26 22:32:41
      老婆敗光20億家產傳聞真相大白10個月,曝張學友近況,一點不意外

      老婆敗光20億家產傳聞真相大白10個月,曝張學友近況,一點不意外

      素衣讀史
      2025-12-26 17:30:27
      名宿:我曾因為糾正C羅、被粉絲拷問幾金幾冠!我說我有世界杯!

      名宿:我曾因為糾正C羅、被粉絲拷問幾金幾冠!我說我有世界杯!

      氧氣是個地鐵
      2025-12-26 17:19:39
      2025-12-26 23:23:00
      甲子光年
      甲子光年
      中國科技產業化前沿智庫
      3302文章數 9253關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      黑老大2名表超5千萬成交 深圳原政法委書記是其保護傘

      頭條要聞

      黑老大2名表超5千萬成交 深圳原政法委書記是其保護傘

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      家居
      教育
      房產
      本地
      手機

      家居要聞

      格調時尚 智慧品質居所

      教育要聞

      藝考交9萬包過考上大學,家長舉報反被罵?網友:空手套白狼!

      房產要聞

      炸裂,三亞360億超級清單發布,又一批重大配套要來了!

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      手機要聞

      2599 榮耀WIN系列發布,“萬級”電池來臨!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品无码中文| 在线观看无码av免费不卡网站| 久久AV秘?一区二区三区水生| 日韩AV高清无码| 九九国产| 国产a∨精品一区二区三区不卡| 亚洲精品揄拍自拍首页一| 18禁久久久久久久| 广宗县| 精品av无码国产一区二区| 国产高清在线精品一区二区三区| 精品乱人伦一区二区三区| 伊人免费在线| 色欲久久久天天天综合网精品| 最近最新中文字幕高清免费| 欧洲性开放老太大| www91国产| 国产又粗又猛又爽又黄| 亚洲欧美v| 免费中文熟妇在线影片| 亚洲乱妇老熟女爽到高潮的片| 亚洲AV秘?无码一区二三月夜| 91视频在线看| 欧美牲交a欧美牲交aⅴ一| 天天躁狠狠躁狠狠躁夜夜躁| 无套中出极品少妇白浆| 麻豆国产97在线 | 欧洲| 韩国日本三级在线观看| 久久综合亚洲鲁鲁九月天| 国产小精品| 色一情一乱一伦一区二区三欧美| 妖精色av无码国产在线看| 高清免费毛片| 婷婷五月在线视频| 中文人妻无码一区二区三区在线| 国产成人a人亚洲精品无码| 另类无码| 平遥县| 亚洲精品乱码久久久久久蜜桃| 午夜欧美日韩在线视频播放| √国产精品|