![]()
文丨蘇揚(yáng)
編輯丨徐青陽
繼Llama 4曝出基準(zhǔn)刷榜丑聞、旗艦?zāi)P虰ehemoth項(xiàng)目擱置等問題之后,扎克伯格決定徹底推倒重來。
他曾砸下140億美元挖人,親自在帕洛阿爾托和太浩湖的豪宅里宴請(qǐng)頂級(jí)研究員,最終將前Scale AI首席執(zhí)行官汪韜(Alexandr Wang)延攬麾下,主持成立Meta超級(jí)智能實(shí)驗(yàn)室(Meta Superintelligence Labs),并用九個(gè)月時(shí)間將整個(gè)AI技術(shù)棧從頭重建。
美國當(dāng)?shù)貢r(shí)間4月8日,這場(chǎng)豪賭的第一張答卷正式亮相:Muse Spark。
這是Meta首款閉源大模型,告別了過去全面開源的路線,將直接為Meta AI助手提供支持,并以API私測(cè)形式向少數(shù)合作伙伴開放。
根據(jù)Meta內(nèi)部基準(zhǔn)測(cè)試,Muse Spark在多項(xiàng)指標(biāo)上超越了谷歌Gemini,與OpenAI和Anthropic的同級(jí)模型互有勝負(fù),并在大多數(shù)測(cè)試中大幅領(lǐng)先于xAI的Grok。消息公布后,Meta股價(jià)當(dāng)日大漲6.5%,市值達(dá)到1.55萬億美元。
![]()
扎克伯格在Threads上寫道:“我們計(jì)劃持續(xù)發(fā)布更先進(jìn)的模型,推動(dòng)智能與能力的邊界,包括新的開源模型。”這句話與他今年1月財(cái)報(bào)電話會(huì)議上的表態(tài)如出一轍。他早早管理了外界預(yù)期:“我預(yù)計(jì)我們的第一批模型會(huì)很好,但更重要的是,它將展示我們所處的快速發(fā)展軌跡。”
01領(lǐng)跑多模態(tài)和前沿科學(xué)基準(zhǔn)測(cè)試
![]()
成績(jī)單是檢驗(yàn)重建成果最直接的標(biāo)尺。
Meta提供的基準(zhǔn)測(cè)試圖呈現(xiàn)了一份復(fù)雜的成績(jī)單:有亮點(diǎn),也有短板,這或許才是一款“起步款”模型最真實(shí)的面貌。
在多模態(tài)理解方面,Muse Spark表現(xiàn)突出。圖表理解測(cè)試CharXiv Reasoning中得分86.4,領(lǐng)先Opus 4.6(65.3)和Grok 4.2(60.9),也高于GPT 5.4(82.8),僅略低于Gemini 3.1 Pro(80.2,但該項(xiàng)Muse Spark實(shí)為更高)。
具身推理ERQA測(cè)試中得分64.7,同樣優(yōu)于Opus 4.6的51.6。健康領(lǐng)域是Muse Spark的另一個(gè)顯著優(yōu)勢(shì):開放式健康問答HealthBench Hard中得分42.8,遠(yuǎn)超Opus 4.6的14.8、Gemini 3.1 Pro的20.6和Grok 4.2的20.3,是幾家競(jìng)爭(zhēng)對(duì)手中的最高分。
![]()
深思模式(Contemplating)的表現(xiàn)同樣值得關(guān)注。在“人類終極考試”(Humanity's Last Exam)無工具版本中,Muse Spark深思模式得分50.2,超過Gemini 3.1 Deep Think的48.4和GPT 5.4 Pro的43.9;啟用工具后得分58.4,超越Gemini 3.1 Deep Think的53.4,與GPT 5.4 Pro的58.7基本持平。
在“前沿科學(xué)研究”(FrontierScience Research)測(cè)試中,Muse Spark深思模式得分38.3,不僅大幅領(lǐng)先Gemini 3.1 Deep Think(23.3)和GPT 5.4 Pro(36.7),更是幾家中的最高分。這是衡量模型逼近真實(shí)科研邊界的核心指標(biāo)之一。
然而成績(jī)單并非全面飄紅。在抽象推理ARC AGI 2測(cè)試中,Muse Spark得分42.5,明顯落后于Opus 4.6(63.3)、Gemini 3.1 Pro(76.5)和GPT 5.4(76.1);智能體終端編程Terminal-Bench 2.0中得分59.0,低于Opus 4.6的65.4、Gemini 3.1 Pro的68.5和GPT 5.4的75.1;競(jìng)技編程LiveCodeBench Pro中得分80.0,也落后于Gemini 3.1 Pro的82.9和GPT 5.4的87.5。辦公任務(wù)綜合評(píng)估GDPval-AA Elo中,Muse Spark得分1444,低于Opus 4.6的1606和GPT 5.4的1672。
MMMU-Pro多模態(tài)理解測(cè)試中,Muse Spark得分80.4,介于Opus 4.6(77.4)和Gemini 3.1 Pro(83.9)之間,與GPT 5.4(81.2)相近。博士級(jí)推理GPQA Diamond中得分89.5,低于Opus 4.6(92.7)、Gemini 3.1 Pro(94.3)和GPT 5.4(92.8),差距較為明顯。
這份成績(jī)單的背景是“Muse系列首款模型”。Meta在發(fā)布文件中反復(fù)強(qiáng)調(diào),更大規(guī)模的后續(xù)模型已在研發(fā)之中,當(dāng)前結(jié)果的意義更多在于證明技術(shù)棧的規(guī)模化可行性,而非宣示性能天花板。
Meta強(qiáng)在多模態(tài)感知與前沿科研推理,弱在抽象推理與智能體編程。這份有得有失的成績(jī)單,或許比一份完美的跑分更能說明問題:Meta的重建尚未完成,但方向已經(jīng)清晰。
02 多智能體并行
Muse Spark最引人注目的架構(gòu)亮點(diǎn),是多智能體并行編排機(jī)制與多模態(tài)感知能力的原生整合,二者共同構(gòu)成了這款模型區(qū)別于競(jìng)爭(zhēng)對(duì)手的核心底色。
當(dāng)用戶提出一個(gè)復(fù)雜問題,Meta AI不再讓單個(gè)模型“想清楚再回答”,而是同時(shí)派出多個(gè)子智能體分頭行動(dòng)。以規(guī)劃一次佛羅里達(dá)家庭旅行為例:一個(gè)智能體負(fù)責(zé)起草總行程,另一個(gè)對(duì)比奧蘭多和基韋斯特各自的利弊,第三個(gè)同步搜尋親子友好型活動(dòng),三條線并行推進(jìn),最終匯總成一份更快、更完整的答案。
與此對(duì)應(yīng),Muse Spark推出了“深思模式”(Contemplating mode),直接與Gemini Deep Think和GPT Pro的旗艦推理模式正面競(jìng)爭(zhēng)。多智能體并行并不意味著更長的等待,它用橫向擴(kuò)展取代了縱向堆疊,在可比時(shí)延下實(shí)現(xiàn)了更優(yōu)的綜合表現(xiàn)。
大多數(shù)AI助手的局限在于只能理解用戶輸入的文字,Muse Spark試圖打破這一邊界。拍下機(jī)場(chǎng)便利店貨架,它能識(shí)別并篩選出蛋白質(zhì)含量最高的零食,無需費(fèi)力辨讀食品標(biāo)簽;掃描一款商品,即可即時(shí)與同類產(chǎn)品橫向比較。這種能力的本質(zhì)轉(zhuǎn)變,是AI從“等你解釋世界”到“直接與你共同觀察世界”。當(dāng)這一能力搭載于Meta AI眼鏡,感知的邊界將進(jìn)一步延伸,攝像頭即是AI的眼睛。
![]()
健康是多模態(tài)能力最具現(xiàn)實(shí)價(jià)值的落地場(chǎng)景。Meta與逾1000名醫(yī)師合作策劃訓(xùn)練數(shù)據(jù),使Muse Spark能夠就常見健康問題提供更準(zhǔn)確、更全面的回應(yīng),涵蓋圖像與圖表的解讀。用戶可獲得交互式健康信息展示,直觀呈現(xiàn)不同食物的營養(yǎng)成分或運(yùn)動(dòng)動(dòng)作所激活的肌肉群,將枯燥的健康數(shù)據(jù)變成可視化的個(gè)人參考。
視覺編程能力同樣值得一提。用戶只需一條自然語言提示,即可直接生成可交互的網(wǎng)頁應(yīng)用或小游戲,數(shù)獨(dú)、復(fù)古街機(jī)、飛行模擬器,乃至一個(gè)策劃盛大驚喜派對(duì)的管理看板,均可一鍵分享給他人。這不再是“幫你寫代碼”,而是“幫你造產(chǎn)品”。
![]()
與OpenAI和Anthropic不同,Meta手里握著一張任何外部AI公司都無法復(fù)制的牌:十億級(jí)別的社交圖譜與內(nèi)容生態(tài)。Muse Spark充分利用了這一獨(dú)特資產(chǎn)。
![]()
購物模式整合了Instagram、Facebook和Threads上已有的創(chuàng)作者內(nèi)容與品牌敘事,為用戶提供穿搭建議、家居方案或禮物推薦,靈感來源不是冷冰冰的算法匹配,而是用戶已在關(guān)注的真實(shí)社群。
![]()
當(dāng)用戶搜索某個(gè)地點(diǎn)或想了解某個(gè)熱門話題,Meta AI會(huì)在對(duì)話中同步呈現(xiàn)豐富而相關(guān)的背景信息。點(diǎn)擊一個(gè)地點(diǎn),即可看到當(dāng)?shù)鼐用竦墓_帖子;詢問某件事的全貌,AI會(huì)從社區(qū)內(nèi)容中匯聚真實(shí)討論動(dòng)態(tài),來自用戶自己圈子的信息,在最需要的時(shí)刻觸手可及。
這是一種與通用搜索截然不同的信息整合邏輯:數(shù)據(jù)源不是泛化的互聯(lián)網(wǎng),而是用戶自己的社交世界。Meta還透露,隨著功能的持續(xù)擴(kuò)展,Reels短視頻、圖片與動(dòng)態(tài)帖子將被直接織入對(duì)話答案,并附帶對(duì)原創(chuàng)內(nèi)容創(chuàng)作者的歸因致謝,這既是對(duì)創(chuàng)作者生態(tài)的承諾,也是Meta區(qū)別于所有競(jìng)爭(zhēng)對(duì)手的核心護(hù)城河。
扎克伯格對(duì)此的定義,是“個(gè)人超級(jí)智能”:“一個(gè)不只回答問題,而是真正理解你世界的AI,因?yàn)樗揪徒⒃谀愕氖澜缰稀!?/p>
03 三條規(guī)模化軸線:下一代已在路上
發(fā)布會(huì)的另一層信號(hào),比產(chǎn)品本身更值得關(guān)注。Meta首次系統(tǒng)性地公開了其規(guī)模化路線圖的底層邏輯。
![]()
預(yù)訓(xùn)練:同等能力,十分之一的算力。過去九個(gè)月,Meta從模型架構(gòu)、優(yōu)化方法、數(shù)據(jù)策劃三個(gè)維度全面重構(gòu)了預(yù)訓(xùn)練技術(shù)棧。
通過對(duì)一系列小模型擬合規(guī)模化定律,Meta得出結(jié)論:與Llama 4 Maverick相比,Muse Spark達(dá)到相同能力水準(zhǔn)所需的訓(xùn)練計(jì)算量減少了一個(gè)數(shù)量級(jí)以上。這一效率優(yōu)勢(shì),也使其在主流基礎(chǔ)模型橫向比較中脫穎而出。
![]()
強(qiáng)化學(xué)習(xí):平滑增益,可預(yù)測(cè)泛化。大規(guī)模強(qiáng)化學(xué)習(xí)以訓(xùn)練不穩(wěn)定著稱,但Meta的新技術(shù)棧交出了平滑、可預(yù)測(cè)的增益曲線。
訓(xùn)練數(shù)據(jù)上pass@1與pass@16呈對(duì)數(shù)線性增長,表明強(qiáng)化學(xué)習(xí)在提升模型可靠性的同時(shí),并未損害推理多樣性;留存評(píng)估集上的準(zhǔn)確率同步穩(wěn)定提升,證明訓(xùn)練收益能夠真實(shí)泛化到未見任務(wù)上——而不是"只會(huì)考試"。
![]()
推理時(shí)計(jì)算:“思維壓縮”后再提速。強(qiáng)化學(xué)習(xí)訓(xùn)練使模型在回答前學(xué)會(huì)了“思考”,但向數(shù)十億用戶提供這一能力,對(duì)token效率提出了極高要求。
Meta采用了兩個(gè)關(guān)鍵手段:其一是思考時(shí)長懲罰項(xiàng),在AIME等評(píng)測(cè)中觸發(fā)了一個(gè)有趣的相變——模型先通過延長思考時(shí)間提升表現(xiàn),隨后長度懲罰觸發(fā)“思維壓縮”,以大幅減少的token數(shù)量完成同等難度的推理,之后再次延伸解題鏈路實(shí)現(xiàn)更強(qiáng)表現(xiàn);其二是多智能體并行編排,在不顯著增加響應(yīng)時(shí)延的前提下,用橫向擴(kuò)展取代縱向堆疊。
從這三條軸線來看,Meta在這份技術(shù)報(bào)告中著墨最多的,恰恰不是當(dāng)前成績(jī),而是規(guī)模化的可預(yù)測(cè)性。這正是資本市場(chǎng)和生態(tài)合作伙伴最想看到的東西。
04 起點(diǎn)
Muse Spark在設(shè)計(jì)上“以小巧、快速為先”,這不是能力不足的委婉說法,而是一種刻意選擇的方法論。Meta將Muse系列定位為嚴(yán)格遞進(jìn)式的擴(kuò)展路線:每一代在前代基礎(chǔ)上驗(yàn)證、突破,再向更大規(guī)模邁進(jìn)。更大參數(shù)量的后續(xù)模型已在研發(fā)之中。
回到九個(gè)月前那個(gè)艱難的起點(diǎn),Meta用Muse Spark證明了兩件事:技術(shù)棧在有效擴(kuò)展,組織在重建之后重新凝聚了方向。
但Meta想要追趕OpenAI、Anthropic和谷歌DeepMind等主要競(jìng)爭(zhēng)對(duì)手,僅憑一款“起步款”模型遠(yuǎn)遠(yuǎn)不夠。該公司后續(xù)發(fā)布的其他系列模型,將決定扎克伯格的這場(chǎng)豪賭,究竟是翻盤,還是又一次代價(jià)高昂的重來。
特約編譯無忌對(duì)本文亦有貢獻(xiàn)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.