網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

在大模型這件事上，雷軍居然給馬斯克打樣了

2026-03-21 10:05:14　來(lái)源: 人人都是產(chǎn)品經(jīng)理社區(qū)

廣東舉報(bào)

分享至

14億月活用戶的龐大基數(shù)，讓微信任何細(xì)微更新都可能被放大審視：灰度測(cè)試導(dǎo)致"新功能在哪兒"的困惑，眾口難調(diào)使得"好用"與"極簡(jiǎn)"難以平衡，用戶習(xí)慣被改變后的不適感，以及"改了跟沒(méi)改區(qū)別不大"的隔靴搔癢感。

———— / BEGIN / ————

在小米正式發(fā)布了MiMo-V2-Pro大模型以后，第一個(gè)出現(xiàn)在我腦子里的人不是雷軍，而是馬斯克。

因?yàn)樗膞AI現(xiàn)在實(shí)在太尷尬了。2023年成立，融資超過(guò)500億美元，聯(lián)創(chuàng)團(tuán)隊(duì)更是涵蓋了OpenAI、Deep Mind、微軟以及谷歌大腦。

最新的Grok 4.20 Beta，還搞了個(gè)四agent并行的多智能體架構(gòu)，通過(guò)Grok、Harper、Benjamin、Lucas這四個(gè) agent內(nèi)部辯論，提高輸出答案。

結(jié)果呢？

Grok 4.20 Beta在Artificial Analysis Intelligence Index上只拿了48分，反觀雷軍這邊，小米的MiMo-V2-Pro則拿到了49分。

小米大模型Core團(tuán)隊(duì)第一次發(fā)布模型是在2025年4月30日，初代MiMo，參數(shù)量只有7B，屬于是“玩具級(jí)”。

不過(guò)MiMo在數(shù)學(xué)推理和代碼生成上打贏了OpenAI o1-mini，算是小米在AI賽道上的第一聲響。

隨后，小米用一個(gè)匿名代號(hào)“Hunter Alpha”悄悄上線OpenRouter，一周之內(nèi)調(diào)用量自然增長(zhǎng)到日榜第一、總量破1T tokens，全球開(kāi)發(fā)者在不知道品牌的情況下用腳投票，然后小米公眾號(hào)深夜發(fā)微信說(shuō)“對(duì)，這是小米做的。”

論大模型，馬斯克確實(shí)該拜雷軍為師。

MiMo-V2-Pro 憑什么站上牌桌

在業(yè)務(wù)上，雷軍比馬斯克還晚啟動(dòng)了一年。

2023年4月雷軍推動(dòng)成立小米AI實(shí)驗(yàn)室大模型團(tuán)隊(duì)，欒劍擔(dān)任首任負(fù)責(zé)人。只不過(guò)這個(gè)AI跟我們現(xiàn)在說(shuō)的大語(yǔ)言模型、agent，并非一回事。

直到2024年底、2025年初，小米才成立了通用基礎(chǔ)大模型相關(guān)的Core團(tuán)隊(duì)。

這個(gè)團(tuán)隊(duì)同樣也是雷軍親自主導(dǎo)、親自推動(dòng)，并且對(duì)大模型業(yè)務(wù)投入不設(shè)上限。

如果只看架構(gòu)層面，MiMo-V2-Pro并沒(méi)有什么讓人眼前一亮的東西。1T參數(shù)、42B激活參數(shù)、100萬(wàn)token上下文，這些放在今天都不稀奇。

MiMo-V2-Pro采用的MoE（混合專家）、混合注意力機(jī)制、MTP（多token預(yù)測(cè)），這些也都是大模型領(lǐng)域的通用技術(shù)方案，DeepSeek在用，谷歌也在用。

真正讓這個(gè)模型區(qū)別于同行的，是后訓(xùn)練階段的三項(xiàng)技術(shù)。

第一項(xiàng)是MOPD，全稱Multi-Teacher On-Policy Distillation，多教師在線策略蒸餾。這是小米在MiMo-V2-Flash技術(shù)報(bào)告中首次提出的后訓(xùn)練范式。

要理解MOPD的價(jià)值，得先理解它要解決的問(wèn)題。

大模型后訓(xùn)練有一個(gè)通病，俗名叫“蹺蹺板效應(yīng)”。就是說(shuō)你把數(shù)學(xué)能力練強(qiáng)了，代碼能力就退化；你把a(bǔ)gent能力拉上來(lái)，通用對(duì)話又變差。

這不是說(shuō)某個(gè)團(tuán)隊(duì)的技術(shù)不夠，這是整個(gè)產(chǎn)業(yè)都在面臨的問(wèn)題。

目前大家比較認(rèn)可的對(duì)應(yīng)方法有兩種，第一種是訓(xùn)練多個(gè)領(lǐng)域?qū)＜夷Ｐ停缓笸ㄟ^(guò)參數(shù)合并把它們糅在一起。不過(guò)這種方法的效果不是很理想。

另一種是讓專家模型生成大量離線數(shù)據(jù)，再讓學(xué)生模型去學(xué)，但這種方式存在嚴(yán)重的“分布偏移”問(wèn)題。可是學(xué)生只學(xué)會(huì)了教師的答題方式，模型根本沒(méi)有建立自己的思考方式，一旦遇到教師沒(méi)覆蓋的場(chǎng)景就會(huì)失靈。

MOPD的做法分三個(gè)階段。第一階段是通用 SFT，用高質(zhì)量指令數(shù)據(jù)做基礎(chǔ)微調(diào)，激活模型的指令跟隨能力，這一步?jīng)]什么特別的。

第二階段是分別訓(xùn)練多個(gè)領(lǐng)域?qū)＜医處煟热缯f(shuō)代碼agent教師、搜索agent教師、數(shù)學(xué)推理教師、安全對(duì)齊教師，每個(gè)教師在自己的領(lǐng)域做到極致，不用管其他領(lǐng)域。

第三階段是關(guān)鍵創(chuàng)新，讓學(xué)生模型自己生成回答，然后同時(shí)接受多個(gè)教師的token級(jí)實(shí)時(shí)監(jiān)督。學(xué)生從自身分布采樣，接收自領(lǐng)域教師的KL散度獎(jiǎng)勵(lì)和可驗(yàn)證的結(jié)果獎(jiǎng)勵(lì)這兩類信號(hào)，前者告訴模型“這個(gè)字應(yīng)該怎么寫(xiě)”，后者告訴模型“最終答案對(duì)不對(duì)”。

小米公布的數(shù)據(jù)顯示，經(jīng)過(guò)MOPD訓(xùn)練的學(xué)生模型在AIME 2025數(shù)學(xué)競(jìng)賽上達(dá)到94.1分，不僅保住了最強(qiáng)數(shù)學(xué)教師的水平，在部分項(xiàng)目上甚至超越了教師本身。

第二項(xiàng)是真實(shí)環(huán)境的agentic RL訓(xùn)練。

盡管說(shuō)現(xiàn)在大模型都會(huì)強(qiáng)調(diào)自己的agent能力如何如何，但是絕大多數(shù)模型在強(qiáng)化學(xué)習(xí)過(guò)程中，都是非agent相關(guān)的。

模型看一道題，輸出一個(gè)答案，對(duì)完答案給個(gè)獎(jiǎng)勵(lì)，整個(gè)過(guò)程是單輪的、封閉的。

現(xiàn)實(shí)世界的任務(wù)可不是這樣運(yùn)作的。

一個(gè)真正的agent需要讀代碼、改bug、跑測(cè)試、看報(bào)錯(cuò)、再改、再跑，這是一個(gè)包含了多種情況的完整過(guò)程。

小米為此構(gòu)建了一套覆蓋四大類場(chǎng)景、總計(jì)超過(guò)12萬(wàn)個(gè)真實(shí)交互環(huán)境的agent訓(xùn)練體系。

代碼agent的訓(xùn)練數(shù)據(jù)從真實(shí)GitHub Issues中提取，模型需要在agent循環(huán)中讀文件、改代碼、跑命令、看測(cè)試結(jié)果，獎(jiǎng)勵(lì)來(lái)自可驗(yàn)證的單元測(cè)試。

終端agent從Stack Overflow和Stack Exchange中篩選需要高級(jí)技術(shù)專長(zhǎng)的問(wèn)題，轉(zhuǎn)化為帶有完整Docker環(huán)境和測(cè)試用例的計(jì)算任務(wù)。

網(wǎng)頁(yè)開(kāi)發(fā)agent用Playwright執(zhí)行生成代碼并錄制視頻，再用多模態(tài)視覺(jué)判別器評(píng)估質(zhì)量——用視頻而非靜態(tài)截圖來(lái)評(píng)估，因?yàn)橐曨l能捕捉交互動(dòng)畫(huà)和響應(yīng)式布局等動(dòng)態(tài)特性。

通用agent覆蓋搜索和函數(shù)調(diào)用兩個(gè)方向。

其結(jié)果就是，在多樣化agent 環(huán)境中增加強(qiáng)化學(xué)習(xí)計(jì)算量，收益會(huì)泛化到數(shù)學(xué)推理、通用推理等其他任務(wù)。也就是說(shuō)，agent訓(xùn)練培養(yǎng)的不是某個(gè)特定技能，而是一種通用的問(wèn)題解決能力。

別的大模型是在教室里做卷子，MiMo-V2-Pro 是直接被扔進(jìn)許多個(gè)真實(shí)工作場(chǎng)景里實(shí)習(xí)，做錯(cuò)了有真實(shí)的測(cè)試結(jié)果告訴你哪里錯(cuò)了。

實(shí)習(xí)鍛煉出來(lái)的模型，比做卷子練出來(lái)的，更懂得如何處理問(wèn)題。

第三項(xiàng)是ARL-Tangram，這是小米與北京大學(xué)計(jì)算機(jī)學(xué)院聯(lián)合研發(fā)的Agent RL訓(xùn)練基礎(chǔ)設(shè)施系統(tǒng)，也是羅福莉作為通訊作者所參與的研究。

MOPD和Agentic RL解決的是“怎么訓(xùn)練”的問(wèn)題，ARL-Tangram解決的是“用什么訓(xùn)練”的問(wèn)題。

agent需要頻繁調(diào)用外部資源，代碼執(zhí)行需要CPU，獎(jiǎng)勵(lì)模型需要GPU，網(wǎng)頁(yè)搜索需要API配額。傳統(tǒng)的RL框架，它的做法是靜態(tài)資源預(yù)留，給每條訓(xùn)練軌跡分配一套固定資源，從頭占到尾。

這就導(dǎo)致說(shuō)即便沒(méi)有任務(wù)，這條通道也被占用，別人想走也走不了。

ARL-Tangram的實(shí)測(cè)數(shù)據(jù)顯示，在AI編程任務(wù)中，外部資源平均只有47%的時(shí)間在被使用，剩下53%完全閑置。

在MOPD訓(xùn)練場(chǎng)景中更夸張，12個(gè)教師模型各自占著一組GPU提供獎(jiǎng)勵(lì)服務(wù)，但這些GPU的平均流式多處理器活躍率不到3%，相當(dāng)于97%的算力在空轉(zhuǎn)。

ARL-Tangram繼承了小米性價(jià)比之王的基因，它的核心思路就是細(xì)化資源管理，讓每一份算力都跑得更有價(jià)值。

每次外部調(diào)用被視為一個(gè)原子動(dòng)作，動(dòng)作結(jié)束后資源立即釋放，供其他軌跡使用。

實(shí)測(cè)效果：動(dòng)作完成時(shí)間提升最高4.3倍，RL訓(xùn)練步驟時(shí)間加速最高1.5 倍，外部資源消耗降低71.2%。

同樣的硬件投入，能支撐多得多的訓(xùn)練量。

雷軍在V2-Pro發(fā)布當(dāng)天的微博里寫(xiě)了一句話：“我們?cè)?AI 領(lǐng)域上相對(duì)比較低調(diào)，實(shí)際進(jìn)展可能比大家看到的要快很多。”

確實(shí)，小米在AI上的進(jìn)展，遠(yuǎn)遠(yuǎn)超過(guò)了我的認(rèn)知。

MiMo-V2-Pro對(duì)小米意味著什么

MiMo-V2-Pro出現(xiàn)之前，小米在軟件和AI領(lǐng)域的技術(shù)存在感很低。

提到智能駕駛，人們想到的是特斯拉、華為、小鵬；提到大模型，是字節(jié)、阿里、騰訊。小米的標(biāo)簽始終是“硬件性價(jià)比之王”，雷軍的手機(jī)、IoT 設(shè)備、汽車(chē)，都是硬件敘事。

誠(chéng)然，這個(gè)標(biāo)簽幫小米賣(mài)出了很多產(chǎn)品，但也把它牢牢釘在了“組裝廠”的認(rèn)知框架里。

雷軍自己也清楚這一點(diǎn)。

2023年年度演講上，他提出了一個(gè)新公式：“（軟件×硬件）^AI”，宣布小米未來(lái)五年研發(fā)投入超過(guò)1000億元，重點(diǎn)攻堅(jiān)芯片、AI和操作系統(tǒng)。

這個(gè)公式當(dāng)時(shí)聽(tīng)起來(lái)以為雷軍是說(shuō)著玩玩的，結(jié)果人家這回來(lái)真的。

MiMo-V2-Pro的誕生，第一次讓小米在純技術(shù)維度上獲得了一個(gè)全球級(jí)的排名。

Artificial Analysis Intelligence Index全球前十，中國(guó)第二。

事實(shí)上，我覺(jué)得只要能在全球大模型排行榜上占有一席之地，都相當(dāng)于在資本市場(chǎng)、人才招募、合作談判中都多了一張手牌。

至少當(dāng)雷軍說(shuō)“小米是一家AI公司”的時(shí)候，能拿出這樣一個(gè)成果來(lái)支撐觀點(diǎn)。

但排名只是表面。更值得關(guān)注的是 MiMo-V2-Pro 與小米其他業(yè)務(wù)線之間的潛在協(xié)同。

小米汽車(chē)的智能駕駛團(tuán)隊(duì)在2026年3月剛剛完成組織架構(gòu)調(diào)整，將“感知”和“規(guī)控”兩個(gè)部門(mén)合并為“端到端算法與功能部”，全面轉(zhuǎn)向端到端大模型技術(shù)路線，目標(biāo)年內(nèi)實(shí)現(xiàn)端到端智駕交付。

與此同時(shí)，小米早在2025年11月就發(fā)布了MiMo-Embodied，同步覆蓋具身智能和自動(dòng)駕駛的核心任務(wù)——環(huán)境感知、狀態(tài)預(yù)測(cè)、駕駛規(guī)劃。

所以MiMo-V2-Pro的這些成績(jī)，說(shuō)白了那都是給小米汽車(chē)打的廣告。

MiMo-V2-Pro本身作為1T參數(shù)的云端模型，顯然無(wú)法直接部署到車(chē)端，沒(méi)有哪塊車(chē)載芯片跑得動(dòng)這個(gè)體量。

但小米的布局邏輯是“云-邊-端”協(xié)同：云端用V2-Pro級(jí)別的大模型做訓(xùn)練、仿真和復(fù)雜決策，端側(cè)用壓縮后的輕量模型做實(shí)時(shí)推理。

MiMo-V2-Pro的價(jià)值不在于直接上車(chē)，而在于作為“教師模型”，通過(guò)前面提到的MOPD，將V2-Pro的能力蒸餾到端側(cè)小模型中。

馬斯克這邊，情況就微妙多了。

Grok在2025年底的一次Holiday Update正式住進(jìn)了特斯拉的車(chē)機(jī)里，然而它卻只能設(shè)導(dǎo)航目、聊聊天，相當(dāng)于是一個(gè)語(yǔ)音助手，它跟FSD之間只有導(dǎo)航鏈路的淺層聯(lián)動(dòng)。

與此同時(shí)，特斯拉本身車(chē)內(nèi)控制座艙的AI，是來(lái)自于特斯拉自己的，跟xAI關(guān)系不大。

2026年3月，馬斯克宣布了一個(gè)叫“Digital Optimus”的聯(lián)合項(xiàng)目，說(shuō)是要讓Grok充當(dāng)“高層推理大腦”。

他用了卡尼曼的雙系統(tǒng)理論來(lái)類比，Grok是慢思考的System 2，特斯拉AI是快反應(yīng)的System 1，也就是實(shí)時(shí)感知和動(dòng)作執(zhí)行。

然而僅憑馬斯克的想法，我認(rèn)為它們之間的協(xié)同遠(yuǎn)沒(méi)有小米“云端大模型蒸餾到車(chē)端小模型”這條路徑來(lái)得清晰。

我給MiMo-V2-Pro挑刺

本文并不是小米的軟文，我只是一個(gè)AI產(chǎn)業(yè)的觀察者，所以我在這部分準(zhǔn)備給小米挑挑刺，以示公正。

先看Benchmark。

MiMo-V2-Pro公布的SWE-bench Verified得分為78.0%，接近Claude 4.6 Sonnet的79.6%，這是一份關(guān)于AI編程的測(cè)試集，MiMo-V2-Pro的數(shù)字也確實(shí)好看。

但這里有一個(gè)行業(yè)內(nèi)已經(jīng)公開(kāi)的秘密，SWE-bench Verified這個(gè)測(cè)試集本身已經(jīng)不再可靠。

OpenAI的Frontier Evals團(tuán)隊(duì)在2026年2月23日明確表示，SWE-bench Verified“實(shí)際上已經(jīng)飽和且高度被污染”，并且建議行業(yè)轉(zhuǎn)向更難的SWE-bench Pro。

OpenAI的研究人員發(fā)現(xiàn)，包括GPT-5.2、Claude Opus 4.5和Gemini 3 Flash Preview在內(nèi)的多個(gè)前沿模型，僅憑 SWE-bench Verified的Task ID就能復(fù)述出原始的gold patch，這就相當(dāng)于你考試的時(shí)候，不用看題目，只看題目的編號(hào)就能給出答案。

這意味著測(cè)試題目很可能已經(jīng)進(jìn)入了訓(xùn)練數(shù)據(jù)。在這樣一個(gè)被污染的測(cè)試集上拿高分，說(shuō)服力大打折扣。

MiMo-V2-Pro沒(méi)有公布SWE-bench Pro的成績(jī)。這個(gè)更難、更抗污染的版本才是2026年衡量編碼能力的真正標(biāo)尺。

作為參考，目前SWE-bench Pro上表現(xiàn)最好的模型是OpenAI GPT-5.4，得分僅為57.7%，與SWE-bench Verified上動(dòng)輒70%以上的成績(jī)形成鮮明對(duì)比。

不止SWE-bench Pro。

MiMo-V2-Pro還缺席了另外幾個(gè)關(guān)鍵的新一代測(cè)試集：ARC-AGI-2，專門(mén)測(cè)試推理泛化能力，純LLM得分為1%，最佳推理系統(tǒng)僅54%，人類平均60%；Frontier Math，前沿?cái)?shù)學(xué)推理；LiveCodeBench v6，按月更新的編程評(píng)測(cè)，幾乎不可能被訓(xùn)練數(shù)據(jù)污染。

一個(gè)模型選擇公布哪些benchmark、不公布哪些benchmark，本身就是一種信息篩選。

還有一個(gè)容易被忽略的問(wèn)題：MiMo-V2-Flash是MIT開(kāi)源的，但MiMo-V2-Pro的權(quán)重并未開(kāi)源。

羅福莉在發(fā)布聲明中說(shuō)“會(huì)開(kāi)源——當(dāng)模型足夠穩(wěn)定值得開(kāi)源的時(shí)候”，但在那之前，說(shuō)明V2-Pro的性能還不夠穩(wěn)定。

雷軍說(shuō)“我們模型剛剛完成，未來(lái)一段時(shí)間，還會(huì)快速迭代增強(qiáng)”。這句話既是承諾，也是對(duì)現(xiàn)狀的坦率承認(rèn)。

MiMo-V2-Pro確實(shí)還有不少短板需要補(bǔ)。

它是小米從“硬件公司”到“AI公司”敘事轉(zhuǎn)型中最重要的一塊拼圖，但這塊拼圖能否真正嵌入小米的商業(yè)版圖，而不只是掛在墻上供人觀賞，還需要時(shí)間來(lái)回答。

本文來(lái)自公眾號(hào)：字母AI 作者：苗正編輯：王靖

想要第一時(shí)間了解行業(yè)動(dòng)態(tài)、面試技巧、商業(yè)知識(shí)等等等？加入產(chǎn)品經(jīng)理進(jìn)化營(yíng)，跟優(yōu)秀的產(chǎn)品人一起交流成長(zhǎng)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.