網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一堆天才，燒光140億美元，給Meta做“閉源模型”，馬斯克Grok被打爆

2026-04-09 09:08:29　來源: 呼呼歷史論

遼寧舉報(bào)

分享至

文丨蘇揚(yáng)

編輯丨徐青陽

繼Llama 4曝出基準(zhǔn)刷榜丑聞、旗艦?zāi)Ｐ虰ehemoth項(xiàng)目擱置等問題之后，扎克伯格決定徹底推倒重來。

他曾砸下140億美元挖人，親自在帕洛阿爾托和太浩湖的豪宅里宴請(qǐng)頂級(jí)研究員，最終將前Scale AI首席執(zhí)行官汪韜（Alexandr Wang）延攬麾下，主持成立Meta超級(jí)智能實(shí)驗(yàn)室（Meta Superintelligence Labs），并用九個(gè)月時(shí)間將整個(gè)AI技術(shù)棧從頭重建。

美國當(dāng)?shù)貢r(shí)間4月8日，這場(chǎng)豪賭的第一張答卷正式亮相：Muse Spark。

這是Meta首款閉源大模型，告別了過去全面開源的路線，將直接為Meta AI助手提供支持，并以API私測(cè)形式向少數(shù)合作伙伴開放。

根據(jù)Meta內(nèi)部基準(zhǔn)測(cè)試，Muse Spark在多項(xiàng)指標(biāo)上超越了谷歌Gemini，與OpenAI和Anthropic的同級(jí)模型互有勝負(fù)，并在大多數(shù)測(cè)試中大幅領(lǐng)先于xAI的Grok。消息公布后，Meta股價(jià)當(dāng)日大漲6.5%，市值達(dá)到1.55萬億美元。

扎克伯格在Threads上寫道：“我們計(jì)劃持續(xù)發(fā)布更先進(jìn)的模型，推動(dòng)智能與能力的邊界，包括新的開源模型。”這句話與他今年1月財(cái)報(bào)電話會(huì)議上的表態(tài)如出一轍。他早早管理了外界預(yù)期：“我預(yù)計(jì)我們的第一批模型會(huì)很好，但更重要的是，它將展示我們所處的快速發(fā)展軌跡。”

01領(lǐng)跑多模態(tài)和前沿科學(xué)基準(zhǔn)測(cè)試

成績(jī)單是檢驗(yàn)重建成果最直接的標(biāo)尺。

Meta提供的基準(zhǔn)測(cè)試圖呈現(xiàn)了一份復(fù)雜的成績(jī)單：有亮點(diǎn)，也有短板，這或許才是一款“起步款”模型最真實(shí)的面貌。

在多模態(tài)理解方面，Muse Spark表現(xiàn)突出。圖表理解測(cè)試CharXiv Reasoning中得分86.4，領(lǐng)先Opus 4.6（65.3）和Grok 4.2（60.9），也高于GPT 5.4（82.8），僅略低于Gemini 3.1 Pro（80.2，但該項(xiàng)Muse Spark實(shí)為更高）。

具身推理ERQA測(cè)試中得分64.7，同樣優(yōu)于Opus 4.6的51.6。健康領(lǐng)域是Muse Spark的另一個(gè)顯著優(yōu)勢(shì)：開放式健康問答HealthBench Hard中得分42.8，遠(yuǎn)超Opus 4.6的14.8、Gemini 3.1 Pro的20.6和Grok 4.2的20.3，是幾家競(jìng)爭(zhēng)對(duì)手中的最高分。

深思模式（Contemplating）的表現(xiàn)同樣值得關(guān)注。在“人類終極考試”（Humanity's Last Exam）無工具版本中，Muse Spark深思模式得分50.2，超過Gemini 3.1 Deep Think的48.4和GPT 5.4 Pro的43.9；啟用工具后得分58.4，超越Gemini 3.1 Deep Think的53.4，與GPT 5.4 Pro的58.7基本持平。

在“前沿科學(xué)研究”（FrontierScience Research）測(cè)試中，Muse Spark深思模式得分38.3，不僅大幅領(lǐng)先Gemini 3.1 Deep Think（23.3）和GPT 5.4 Pro（36.7），更是幾家中的最高分。這是衡量模型逼近真實(shí)科研邊界的核心指標(biāo)之一。

然而成績(jī)單并非全面飄紅。在抽象推理ARC AGI 2測(cè)試中，Muse Spark得分42.5，明顯落后于Opus 4.6（63.3）、Gemini 3.1 Pro（76.5）和GPT 5.4（76.1）；智能體終端編程Terminal-Bench 2.0中得分59.0，低于Opus 4.6的65.4、Gemini 3.1 Pro的68.5和GPT 5.4的75.1；競(jìng)技編程LiveCodeBench Pro中得分80.0，也落后于Gemini 3.1 Pro的82.9和GPT 5.4的87.5。辦公任務(wù)綜合評(píng)估GDPval-AA Elo中，Muse Spark得分1444，低于Opus 4.6的1606和GPT 5.4的1672。

MMMU-Pro多模態(tài)理解測(cè)試中，Muse Spark得分80.4，介于Opus 4.6（77.4）和Gemini 3.1 Pro（83.9）之間，與GPT 5.4（81.2）相近。博士級(jí)推理GPQA Diamond中得分89.5，低于Opus 4.6（92.7）、Gemini 3.1 Pro（94.3）和GPT 5.4（92.8），差距較為明顯。

這份成績(jī)單的背景是“Muse系列首款模型”。Meta在發(fā)布文件中反復(fù)強(qiáng)調(diào)，更大規(guī)模的后續(xù)模型已在研發(fā)之中，當(dāng)前結(jié)果的意義更多在于證明技術(shù)棧的規(guī)模化可行性，而非宣示性能天花板。

Meta強(qiáng)在多模態(tài)感知與前沿科研推理，弱在抽象推理與智能體編程。這份有得有失的成績(jī)單，或許比一份完美的跑分更能說明問題：Meta的重建尚未完成，但方向已經(jīng)清晰。

02 多智能體并行

Muse Spark最引人注目的架構(gòu)亮點(diǎn)，是多智能體并行編排機(jī)制與多模態(tài)感知能力的原生整合，二者共同構(gòu)成了這款模型區(qū)別于競(jìng)爭(zhēng)對(duì)手的核心底色。

當(dāng)用戶提出一個(gè)復(fù)雜問題，Meta AI不再讓單個(gè)模型“想清楚再回答”，而是同時(shí)派出多個(gè)子智能體分頭行動(dòng)。以規(guī)劃一次佛羅里達(dá)家庭旅行為例：一個(gè)智能體負(fù)責(zé)起草總行程，另一個(gè)對(duì)比奧蘭多和基韋斯特各自的利弊，第三個(gè)同步搜尋親子友好型活動(dòng)，三條線并行推進(jìn)，最終匯總成一份更快、更完整的答案。

與此對(duì)應(yīng)，Muse Spark推出了“深思模式”（Contemplating mode），直接與Gemini Deep Think和GPT Pro的旗艦推理模式正面競(jìng)爭(zhēng)。多智能體并行并不意味著更長的等待，它用橫向擴(kuò)展取代了縱向堆疊，在可比時(shí)延下實(shí)現(xiàn)了更優(yōu)的綜合表現(xiàn)。

大多數(shù)AI助手的局限在于只能理解用戶輸入的文字，Muse Spark試圖打破這一邊界。拍下機(jī)場(chǎng)便利店貨架，它能識(shí)別并篩選出蛋白質(zhì)含量最高的零食，無需費(fèi)力辨讀食品標(biāo)簽；掃描一款商品，即可即時(shí)與同類產(chǎn)品橫向比較。這種能力的本質(zhì)轉(zhuǎn)變，是AI從“等你解釋世界”到“直接與你共同觀察世界”。當(dāng)這一能力搭載于Meta AI眼鏡，感知的邊界將進(jìn)一步延伸，攝像頭即是AI的眼睛。

健康是多模態(tài)能力最具現(xiàn)實(shí)價(jià)值的落地場(chǎng)景。Meta與逾1000名醫(yī)師合作策劃訓(xùn)練數(shù)據(jù)，使Muse Spark能夠就常見健康問題提供更準(zhǔn)確、更全面的回應(yīng)，涵蓋圖像與圖表的解讀。用戶可獲得交互式健康信息展示，直觀呈現(xiàn)不同食物的營養(yǎng)成分或運(yùn)動(dòng)動(dòng)作所激活的肌肉群，將枯燥的健康數(shù)據(jù)變成可視化的個(gè)人參考。

視覺編程能力同樣值得一提。用戶只需一條自然語言提示，即可直接生成可交互的網(wǎng)頁應(yīng)用或小游戲，數(shù)獨(dú)、復(fù)古街機(jī)、飛行模擬器，乃至一個(gè)策劃盛大驚喜派對(duì)的管理看板，均可一鍵分享給他人。這不再是“幫你寫代碼”，而是“幫你造產(chǎn)品”。

與OpenAI和Anthropic不同，Meta手里握著一張任何外部AI公司都無法復(fù)制的牌：十億級(jí)別的社交圖譜與內(nèi)容生態(tài)。Muse Spark充分利用了這一獨(dú)特資產(chǎn)。

購物模式整合了Instagram、Facebook和Threads上已有的創(chuàng)作者內(nèi)容與品牌敘事，為用戶提供穿搭建議、家居方案或禮物推薦，靈感來源不是冷冰冰的算法匹配，而是用戶已在關(guān)注的真實(shí)社群。

當(dāng)用戶搜索某個(gè)地點(diǎn)或想了解某個(gè)熱門話題，Meta AI會(huì)在對(duì)話中同步呈現(xiàn)豐富而相關(guān)的背景信息。點(diǎn)擊一個(gè)地點(diǎn)，即可看到當(dāng)?shù)鼐用竦墓_帖子；詢問某件事的全貌，AI會(huì)從社區(qū)內(nèi)容中匯聚真實(shí)討論動(dòng)態(tài)，來自用戶自己圈子的信息，在最需要的時(shí)刻觸手可及。

這是一種與通用搜索截然不同的信息整合邏輯：數(shù)據(jù)源不是泛化的互聯(lián)網(wǎng)，而是用戶自己的社交世界。Meta還透露，隨著功能的持續(xù)擴(kuò)展，Reels短視頻、圖片與動(dòng)態(tài)帖子將被直接織入對(duì)話答案，并附帶對(duì)原創(chuàng)內(nèi)容創(chuàng)作者的歸因致謝，這既是對(duì)創(chuàng)作者生態(tài)的承諾，也是Meta區(qū)別于所有競(jìng)爭(zhēng)對(duì)手的核心護(hù)城河。

扎克伯格對(duì)此的定義，是“個(gè)人超級(jí)智能”：“一個(gè)不只回答問題，而是真正理解你世界的AI，因?yàn)樗揪徒⒃谀愕氖澜缰稀！?/p>

03 三條規(guī)模化軸線：下一代已在路上

發(fā)布會(huì)的另一層信號(hào)，比產(chǎn)品本身更值得關(guān)注。Meta首次系統(tǒng)性地公開了其規(guī)模化路線圖的底層邏輯。

預(yù)訓(xùn)練：同等能力，十分之一的算力。過去九個(gè)月，Meta從模型架構(gòu)、優(yōu)化方法、數(shù)據(jù)策劃三個(gè)維度全面重構(gòu)了預(yù)訓(xùn)練技術(shù)棧。

通過對(duì)一系列小模型擬合規(guī)模化定律，Meta得出結(jié)論：與Llama 4 Maverick相比，Muse Spark達(dá)到相同能力水準(zhǔn)所需的訓(xùn)練計(jì)算量減少了一個(gè)數(shù)量級(jí)以上。這一效率優(yōu)勢(shì)，也使其在主流基礎(chǔ)模型橫向比較中脫穎而出。

強(qiáng)化學(xué)習(xí)：平滑增益，可預(yù)測(cè)泛化。大規(guī)模強(qiáng)化學(xué)習(xí)以訓(xùn)練不穩(wěn)定著稱，但Meta的新技術(shù)棧交出了平滑、可預(yù)測(cè)的增益曲線。

訓(xùn)練數(shù)據(jù)上pass@1與pass@16呈對(duì)數(shù)線性增長，表明強(qiáng)化學(xué)習(xí)在提升模型可靠性的同時(shí)，并未損害推理多樣性；留存評(píng)估集上的準(zhǔn)確率同步穩(wěn)定提升，證明訓(xùn)練收益能夠真實(shí)泛化到未見任務(wù)上——而不是"只會(huì)考試"。

推理時(shí)計(jì)算：“思維壓縮”后再提速。強(qiáng)化學(xué)習(xí)訓(xùn)練使模型在回答前學(xué)會(huì)了“思考”，但向數(shù)十億用戶提供這一能力，對(duì)token效率提出了極高要求。

Meta采用了兩個(gè)關(guān)鍵手段：其一是思考時(shí)長懲罰項(xiàng)，在AIME等評(píng)測(cè)中觸發(fā)了一個(gè)有趣的相變——模型先通過延長思考時(shí)間提升表現(xiàn)，隨后長度懲罰觸發(fā)“思維壓縮”，以大幅減少的token數(shù)量完成同等難度的推理，之后再次延伸解題鏈路實(shí)現(xiàn)更強(qiáng)表現(xiàn)；其二是多智能體并行編排，在不顯著增加響應(yīng)時(shí)延的前提下，用橫向擴(kuò)展取代縱向堆疊。

從這三條軸線來看，Meta在這份技術(shù)報(bào)告中著墨最多的，恰恰不是當(dāng)前成績(jī)，而是規(guī)模化的可預(yù)測(cè)性。這正是資本市場(chǎng)和生態(tài)合作伙伴最想看到的東西。

04 起點(diǎn)

Muse Spark在設(shè)計(jì)上“以小巧、快速為先”，這不是能力不足的委婉說法，而是一種刻意選擇的方法論。Meta將Muse系列定位為嚴(yán)格遞進(jìn)式的擴(kuò)展路線：每一代在前代基礎(chǔ)上驗(yàn)證、突破，再向更大規(guī)模邁進(jìn)。更大參數(shù)量的后續(xù)模型已在研發(fā)之中。

回到九個(gè)月前那個(gè)艱難的起點(diǎn)，Meta用Muse Spark證明了兩件事：技術(shù)棧在有效擴(kuò)展，組織在重建之后重新凝聚了方向。

但Meta想要追趕OpenAI、Anthropic和谷歌DeepMind等主要競(jìng)爭(zhēng)對(duì)手，僅憑一款“起步款”模型遠(yuǎn)遠(yuǎn)不夠。該公司后續(xù)發(fā)布的其他系列模型，將決定扎克伯格的這場(chǎng)豪賭，究竟是翻盤，還是又一次代價(jià)高昂的重來。

特約編譯無忌對(duì)本文亦有貢獻(xiàn)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.