Meta重組AI團(tuán)隊(duì)后首個(gè)模型來了：不是最強(qiáng)、不再開源、可能夠用

2026-04-09 10:19:10　來源: DeepTech深科技

北京舉報(bào)

分享至

當(dāng)?shù)貢r(shí)間 4 月 8 日，Meta 終于發(fā)布了 Muse Spark，九個(gè)月來第一個(gè)新模型，也是 Meta 超級智能實(shí)驗(yàn)室（MSL）成立以來的第一個(gè)產(chǎn)品。消息公布后 Meta 股價(jià)盤中漲超 10%。扎克伯格在 Threads 上說，這是一個(gè)“世界級助手”。但一位 Meta 高管也比較坦誠地向媒體表示：Muse Spark 并不代表新的技術(shù)前沿，只是在部分任務(wù)上與領(lǐng)先模型“有競爭力”。

不差，但也沒好到讓人直呼牛 X。對 Meta 來說，更重要的信號(hào)可能是：它終于又能坐回牌桌了。

經(jīng)歷一系列大動(dòng)蕩之后，Muse Spark 是 Meta AI 大重組后的第一個(gè)產(chǎn)物，Alexandr Wang 在 X 上說：我們從零開始重建了整個(gè) AI 技術(shù)棧。

Meta 給出的一個(gè)關(guān)鍵數(shù)字是：Muse Spark 達(dá)到 Llama 4 Maverick 同等性能所需的計(jì)算量減少了 10 倍以上。這說明過去九個(gè)月不只是在舊體系上縫補(bǔ)，而是確實(shí)換了一套引擎。在預(yù)訓(xùn)練階段的 scaling law 對比中，Muse Spark 的計(jì)算效率也優(yōu)于 DeepSeek-V3.1 和 Kimi-K2 的基座模型。

在 Benchmark 分?jǐn)?shù)上 Meta 這次雖然沒有作弊，但還是耍了個(gè)小花招。對比表格中只有 Muse Spark 一列的數(shù)字用藍(lán)色高亮，其余模型一律白色，視覺上很容易讓人覺得 Muse Spark 全面領(lǐng)先。

圖丨基準(zhǔn)測試成果（來源：Meta）

重新按每行最高分標(biāo)綠、最低分標(biāo)紅之后再看，Muse Spark 的觀感會(huì)差很多。在多模態(tài)和健康類任務(wù)上它確實(shí)領(lǐng)先，但在編程、抽象推理和 agentic 任務(wù)這些當(dāng)下最熱門的應(yīng)用場景中，它全面落后于 Gemini 和 GPT-5.4。

具體來看。ARC AGI 2（抽象推理）上 Muse Spark 拿到 42.5 分，Gemini 3.1 Pro 是 76.5，GPT-5.4 是 76.1，差了近一倍。LiveCodeBench Pro（編程競賽）80 對 GPT-5.4 的 87.5；Terminal-Bench 2.0（終端編程）59 對 75.1；GDPval-AA Elo（辦公任務(wù)）1444 對 GPT-5.4 的 1672 和 Opus 4.6 的 1606。Meta 自己也在博客中承認(rèn)“在長時(shí)序 agentic 系統(tǒng)和編程工作流方面仍有差距”。

圖丨重新標(biāo)準(zhǔn)后的基準(zhǔn)測試結(jié)果（來源：X）

第三方評測機(jī)構(gòu) Artificial Analysis 給 Muse Spark 的綜合智能指數(shù)打了 52 分，排在 Gemini 3.1 Pro、GPT-5.4 和 Claude Opus 4.6 之后，位列第四。在 Humanity's Last Exam（無工具）上，Artificial Analysis 追蹤到的成績是 39.9%，低于 Meta 自報(bào)的 42.8%，也低于 Gemini 3.1 Pro 的 44.7%。

博主 Ritesh Khanna 用同一組 prompt 對五個(gè)前沿模型做了零重試實(shí)測。結(jié)論是：Muse Spark 在視覺理解和金融分析上排名第一，但代碼生成墊底。在生成雪花玻璃球的實(shí)測中，它寫出了技術(shù)上最漂亮的 Three.js 代碼，然后渲染出幾個(gè)黑糊糊的物體。

圖丨測試結(jié)果（來源：Ritesh Khanna）

Muse Spark 真正拉開差距的領(lǐng)域集中在兩個(gè)方向：多模態(tài)視覺理解和健康。

CharXiv Reasoning（圖表理解）上它以 86.4 分領(lǐng)先所有對手；ScreenSpot Pro（截圖定位）84.1 分，僅次于 GPT-5.4 的 85.4；HealthBench Hard（開放式健康問答）得分 42.8，是 Gemini 3.1 Pro（20.6）的兩倍多。Meta 說他們與超過 1000 名醫(yī)生合作策劃了健康領(lǐng)域的訓(xùn)練數(shù)據(jù)。

這兩個(gè)方向恰好對應(yīng) Meta 的產(chǎn)品需求，理解用戶在 Instagram 上拍的食物照片、在 Ray-Ban 智能眼鏡里識(shí)別周圍物體、為 Meta AI 助手增加健康問答能力。

Muse Spark 的另一個(gè)推理模式“Contemplating”（沉思模式）通過多智能體并行推理來處理更難的任務(wù)，在 Humanity's Last Exam（含工具）上拿到 50.2 分，略高于 Gemini Deep Think 的 48.4 和 GPT-5.4 Pro 的 43.9。但物理奧賽（IPhO 2025 Theory）上 82.6 對 GPT-5.4 Pro 的 93.5，差距仍然明顯。

換句話說，Muse Spark 是一個(gè)為 Meta 自身產(chǎn)品場景高度定制的模型，不是一個(gè)通用前沿模型。從發(fā)布方式上也能看出來。

和 Llama 系列不同，Muse Spark 是閉源的。Meta 只向“精選合作伙伴”提供私有 API 預(yù)覽，普通開發(fā)者用不了。

它直接部署在 Meta AI 聊天助手中，未來幾周會(huì)擴(kuò)展到 Facebook、Instagram、WhatsApp 和 Ray-Ban 眼鏡。Meta 還為它配套了一個(gè)“購物模式”，結(jié)合用戶在社交平臺(tái)上的興趣數(shù)據(jù)做個(gè)性化推薦。基本上是把 AI 能力直接接到廣告和電商的變現(xiàn)鏈路上。

沃頓商學(xué)院教授 Ethan Mollick 評論說，Muse Spark 最重要的意義在于 Meta 現(xiàn)在有了自己的前沿模型，可以用它從現(xiàn)有用戶基礎(chǔ)中提取更多價(jià)值。但他也說：沒有開源權(quán)重，就很難預(yù)判 Spark 的長期價(jià)值，因?yàn)榇饲暗?Llama 之所以重要，主要是因?yàn)樗_源。

Meta 過去三年靠 Llama 系列建立了開源 AI 領(lǐng)域最大的生態(tài)：累計(jì)下載量 12 億次，日均下載約 100 萬次，企業(yè)自部署 Llama 模型的成本比使用閉源 API 低 88%。但到 2025 年底，阿里的 Qwen 3.6 Plus 和 DeepSeek 等中國模型在 Hugging Face 上的下載占比已經(jīng)達(dá)到 41%，美國只占 35%。Llama 4 的失利加速了侵蝕。Muse Spark 閉源發(fā)布，某種程度上是承認(rèn)了現(xiàn)實(shí)：與其繼續(xù)做開源基礎(chǔ)設(shè)施供應(yīng)商，不如先把自家產(chǎn)品的 AI 能力補(bǔ)上來。

Alexandr Wang 說未來會(huì)有開源版本。扎克伯格也承諾“將發(fā)布越來越先進(jìn)的模型，包括新的開源模型”。但眼下的優(yōu)先級很清楚：先產(chǎn)品，再生態(tài)。

Meta 今年的資本支出預(yù)算在 1150 億到 1350 億美元之間，幾乎是 2025 年的兩倍。Muse Spark 是這筆投資的第一個(gè)可見產(chǎn)出。它證明了 MSL 團(tuán)隊(duì)能在九個(gè)月內(nèi)從零搭出一套有效的技術(shù)棧，計(jì)算效率在快速提升，多模態(tài)和健康方向的差異化也初步成立。Gizmodo 的評價(jià)是：扎克伯格的百億美元投入，讓 Meta 從“徹底掉隊(duì)”升級到了“競爭陪跑”。

但它發(fā)布的前一天，Anthropic 公布了據(jù)說強(qiáng)大到只能限量開放的 Claude Mythos，智譜 AI 發(fā)布了在編程基準(zhǔn)上領(lǐng)先的 GLM-5.1。扎克伯格承諾更大、更強(qiáng)的模型正在路上。問題是，其他對手也并不會(huì)停下來原地等 Meta。

參考資料：

https://ai.meta.com/blog/introducing-muse-spark-msl/

https://www.riteshkhanna.com/blog/muse-spark-arena

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.