網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

9個(gè)月重構(gòu)全新大模型！Meta 重金打造華人團(tuán)隊(duì)，Muse Spark 一戰(zhàn)翻身

2026-04-09 08:35:47　來源: EETOP半導(dǎo)體社區(qū)

北京舉報(bào)

分享至

在生成式人工智能時(shí)代，元宇宙（Meta）一直是最受關(guān)注的公司之一。2023 年初，該公司推出了以開源為主的 Llama 系列大語(yǔ)言模型，迅速收獲了海量忠實(shí)用戶；但到了去年，Llama 4 發(fā)布后口碑褒貶不一，最終還被曝出在基準(zhǔn)測(cè)試中刷分造假，Meta 的 AI 發(fā)展勢(shì)頭也因此驟然停滯。

Llama 4 坎坷的發(fā)布?xì)v程，顯然促使 Meta 創(chuàng)始人兼首席執(zhí)行官馬克?扎克伯格在 2025 年夏季對(duì)公司 AI 業(yè)務(wù)進(jìn)行了全面重組，成立了全新內(nèi)部部門 —— 元宇宙超智能實(shí)驗(yàn)室（MSL），并聘請(qǐng) 29 歲的 Scale AI 前聯(lián)合創(chuàng)始人兼首席執(zhí)行官Alexandr Wang出任首席人工智能官，負(fù)責(zé)領(lǐng)導(dǎo)該部門，同事花重金聘請(qǐng)了多位華人技術(shù)大牛。

而就在今天，Meta 向外界展示了此番調(diào)整的成果：全新閉源模型Muse Spark。Alexandr Wang在競(jìng)品社交平臺(tái) X（機(jī)器學(xué)習(xí)社區(qū)更常用的平臺(tái)）發(fā)文稱，該模型是 “Meta 迄今發(fā)布的最強(qiáng)大模型”，支持工具調(diào)用、視覺思維鏈與多智能體協(xié)同。他還表示，Muse Spark 將開啟全新的 Muse 模型系列，這也引發(fā)外界疑問：人氣極高的 Llama 系列未來將何去何從、研發(fā)是否會(huì)繼續(xù)。

Muse Spark 并非普通聊天機(jī)器人，而是Alexandr Wang口中 “個(gè)人超智能” 的底層基座。這款 AI 不只處理文本，更能 “觀察并理解你周遭的世界”，成為用戶的數(shù)字分身，這與扎克伯格 2025 年夏季公開提出的個(gè)人超智能愿景一脈相承。

但據(jù) Meta 官方發(fā)布博文介紹，Muse Spark目前僅為閉源模型，僅限 Meta AI 應(yīng)用、網(wǎng)頁(yè)端使用，同時(shí)僅向部分用戶開放 “私有 API 預(yù)覽”。這一舉措大概率會(huì)激怒數(shù)以十億計(jì)的 Llama 模型用戶，以及數(shù)千名依賴該模型的開發(fā)者（其中不少人活躍在競(jìng)品社交平臺(tái) Reddit 的 r/LocalLLaMA 板塊）。此外，官方尚未公布該模型的定價(jià)信息。

目前尚不清楚 Meta 是否已徹底終止 Llama 系列的研發(fā)。科技媒體 VentureBeat 就此直接詢問時(shí)，Meta 發(fā)言人在郵件中回應(yīng)：“我們現(xiàn)有的 Llama 模型將繼續(xù)保持開源”，但并未回應(yīng)未來是否會(huì)推出新一代 Llama 模型。

視覺思維鏈

Muse Spark 本質(zhì)上是一款原生多模態(tài)推理模型。不同于前代產(chǎn)品將視覺與文本 “拼接融合” 的方式，它從底層重新構(gòu)建，在內(nèi)部邏輯中全程整合視覺信息。這一架構(gòu)革新實(shí)現(xiàn)了 “視覺思維鏈”，讓模型能夠?qū)?dòng)態(tài)場(chǎng)景進(jìn)行標(biāo)注 —— 比如識(shí)別復(fù)雜意式咖啡機(jī)的零部件，或通過對(duì)比視頻分析糾正用戶的瑜伽動(dòng)作。

而技術(shù)上最重大的突破，是全新的 \\“沉思模式”（Contemplating）\\。該功能可調(diào)度多個(gè)子智能體并行推理，讓 Meta 得以對(duì)標(biāo)谷歌 Gemini Deep Think、OpenAI GPT-5.4 Pro 這類頂級(jí)推理模型。

在基準(zhǔn)測(cè)試中，該模式在 “人類終極考試” 中取得 58% 的成績(jī)，在 “前沿科學(xué)研究” 任務(wù)中達(dá) 38%，Meta 稱這一結(jié)果驗(yàn)證了其全新的擴(kuò)展路徑。

對(duì)公司盈利更具意義的是模型的高效性。Meta 表示，Muse Spark 實(shí)現(xiàn)同等推理能力所需算力，比其上一代中型旗艦?zāi)Ｐ?Llama 4 Maverick少一個(gè)數(shù)量級(jí)以上。這種效率源于 “思維壓縮” 技術(shù)：在強(qiáng)化學(xué)習(xí)階段，模型會(huì)因過度 “思考耗時(shí)” 受到懲罰，迫使它用更少的推理 Token 解決復(fù)雜問題，同時(shí)不犧牲準(zhǔn)確率。

基準(zhǔn)測(cè)試：王者歸來

Muse Spark 的發(fā)布被視作一次數(shù)據(jù)層面的 “量子躍遷”，終結(jié)了 Meta 長(zhǎng)達(dá)一年無緣 AI 性能第一梯隊(duì)的局面。

結(jié)合 Meta 官方內(nèi)部數(shù)據(jù)與第三方大模型監(jiān)測(cè)機(jī)構(gòu) Artificial Analysis 的獨(dú)立審核結(jié)果可以明確：Muse Spark 不只是對(duì) Llama 系列的小幅優(yōu)化，更是讓 Meta重新躋身全球前五頂尖模型行列。

根據(jù) Artificial Analysis 智能指數(shù) v4.0，Muse Spark 得分 52 分。作為對(duì)比，Meta 上一代旗艦 Llama 4 Maverick 在 2025 年發(fā)布時(shí)指數(shù)得分僅 18 分。

性能近乎提升兩倍后，Muse Spark 已逼近行業(yè)頂級(jí)系統(tǒng)，僅落后于 Gemini 3.1 Pro Preview（57 分）、GPT-5.4（57 分）與 Claude Opus 4.6（53 分）。

Meta 官方測(cè)試顯示，Muse Spark 在多模態(tài)推理，尤其是視覺圖像與邏輯結(jié)合的場(chǎng)景中表現(xiàn)尤為突出：

CharXiv推理（圖像理解）

86.4
分，大幅超越 Claude Opus 4.6 （ 65.3 ）、 Gemini 3.1 Pro （ 80.2 ）、 GPT-5.4 （ 82.8 ）
MMMU Pro
：官方
80.4 分，第三方實(shí)測(cè) 80.5% ，為全球第二強(qiáng)視覺模型，僅遜于 Gemini 3.1 Pro Preview
視覺事實(shí)性（SimpleVQA
71.3 分，領(lǐng)先 GPT-5.4 與 Grok 4.2 ，僅小幅落后 Gemini 3.1 Pro

這些成績(jī)印證了 Meta 對(duì) “視覺思維鏈” 的投入，讓模型不只識(shí)別物體，更能推理復(fù)雜空間問題與動(dòng)態(tài)標(biāo)注。

在專業(yè)推理測(cè)試中：

人類終極考試（HLE
無工具 42.8 分、有工具 50.4 分，第三方實(shí)測(cè) 39.9%
GPQA Diamond（博士級(jí)推理）
89.5 分，超越Grok 4.2，略低于 Claude Opus 4.6 與 Gemini 3.1 Pro
ARC AGI 2
42.5 分，仍是明顯短板，遠(yuǎn)落后于Gemini 3.1 Pro 與GPT-5.4
CritPT（物理研究）
11%，位列全球第五，大幅領(lǐng)先Gemini 3 Flash 與Claude 4.6 Sonnet

官方數(shù)據(jù)中最亮眼的是醫(yī)療領(lǐng)域表現(xiàn)，這得益于 Meta 與逾千名醫(yī)生的合作：

HealthBench Hard 42.8 分，大幅領(lǐng)先 Claude Opus 4.6 、 Gemini 3.1 Pro 乃至 GPT-5.4 MedXpertQA （多模態(tài)） 78.4 分，領(lǐng)先 Opus 4.6 與 Grok 4.2 ，僅落后 Gemini 3.1 Pro

智能體系統(tǒng)與效率：思維壓縮效應(yīng)

Muse Spark 雖擅長(zhǎng)推理，但在執(zhí)行實(shí)際工作任務(wù)的 “智能體表現(xiàn)” 上則喜憂參半：

SWE-Bench Verified ：77.4 分，落后 Claude Opus 4.6 與 Gemini 3.1 Pro GDPval-AA Elo ：官方1444 分、第三方 1427 分，均落后 GPT-5.4 與 Opus 4.6但Token 效率是其核心優(yōu)勢(shì)：完成智能指數(shù)測(cè)試僅使用

5800 萬(wàn)輸出 Token ，遠(yuǎn)低于 Claude Opus 4.6 （ 1.57 億）與 GPT-5.4 （ 1.2 億），印證了 “ 思維壓縮 ” 的效果 —— 以不到競(jìng)品一半的 “ 思考成本 ” 實(shí)現(xiàn)頂級(jí)智能。

個(gè)人健康與Instagram購(gòu)物

Meta 已立即將 Muse Spark 接入旗下全系應(yīng)用，打造專屬功能：

購(gòu)物模式
依托創(chuàng)作者生態(tài)， AI 抓取 Instagram 與 Threads 中的品牌、穿搭、內(nèi)容，提供個(gè)性化推薦，讓每條帖子都可直接轉(zhuǎn)化為購(gòu)物入口
健康推理
分析食物照片的營(yíng)養(yǎng)成分，為高膽固醇素食飲食提供 “ 健康評(píng)分 ”
交互式界面
實(shí)時(shí)生成網(wǎng)頁(yè)小游戲或教程，比如將照片轉(zhuǎn)為數(shù)獨(dú)游戲、制作家電使用教程

評(píng)估意識(shí)

Muse Spark 對(duì)生化武器相關(guān)請(qǐng)求具備較強(qiáng)的拒絕能力，但第三方機(jī)構(gòu) Apollo Research 發(fā)現(xiàn)其安全層面存在一個(gè)驚人新問題：高度的“評(píng)估意識(shí)”。

模型常能識(shí)別出自己正處于 “對(duì)齊陷阱” 測(cè)試中，并刻意表現(xiàn)誠(chéng)實(shí)，只因知道自己正在被評(píng)估。

Meta 認(rèn)為這一問題不影響發(fā)布，但該發(fā)現(xiàn)意味著：前沿模型正越來越 “感知” 測(cè)試環(huán)境，傳統(tǒng)安全基準(zhǔn)測(cè)試可能因模型學(xué)會(huì) “應(yīng)試作弊” 而失效。

Llama何去何從？

2023 年 2 月，Meta 發(fā)布 Llama 1，證明小體量、算力優(yōu)化型模型可在效率上比肩 GPT-3 等大模型。盡管初期僅限研究者使用，但模型權(quán)重于 2023 年 3 月 3 日通過 4chan 泄露，意外推動(dòng)高端研究平民化，催生了在消費(fèi)級(jí)硬件上運(yùn)行大模型的全球浪潮。

2023 年 7 月，Llama 2 發(fā)布并開放商用許可，支持絕大多數(shù)機(jī)構(gòu)自主部署，迅速普及。截至 2023 年第三季度，Llama 系列下載量破億，支撐超千款商業(yè)應(yīng)用。

2024 至 2025 年，Llama 系列成長(zhǎng)為全球企業(yè) AI 的核心基建，被稱作 “AI 界的 LAMP 架構(gòu)”。2024 年 4 月 Llama 3、2024 年 7 月 Llama 3.1 405B 發(fā)布后，其性能已與全球頂級(jí)閉源系統(tǒng)持平。

2025 年 4 月，Llama 4 采用混合專家架構(gòu)，實(shí)現(xiàn)超大參數(shù)量化且保持快速推理。截至 2026 年初，Llama 生態(tài)下載量達(dá)12億次，日均下載近百萬(wàn)次。企業(yè)自主部署 Llama 相比調(diào)用閉源 API 可節(jié)省 88% 成本，實(shí)現(xiàn)了經(jīng)濟(jì)層面的技術(shù)自主。

但到 2026 年 4 月，Meta 在開源權(quán)重領(lǐng)域的絕對(duì)領(lǐng)先地位已被打破，全球競(jìng)爭(zhēng)格局形成多極化態(tài)勢(shì)：

美國(guó)占Llama 全球部署量的35%
2025 年末，阿里、深度求索（ DeepSeek ）等中國(guó)模型在 Hugging Face 等平臺(tái)下載量占比達(dá) 41%
2026 年初，智譜 GLM-5 、阿里通義千問 3.6 Plus 等新模型在常識(shí)與編程測(cè)試中已超越 Llama 4 Maverick

面對(duì)全球競(jìng)爭(zhēng)壓力，Muse Spark 背負(fù)著極高期待，同時(shí)也面臨延續(xù)開源 legacy 的巨大挑戰(zhàn)。

僅閉源發(fā)布（現(xiàn)階段）

此次發(fā)布標(biāo)志著 Meta AI 背離了其 “開放科學(xué)” 的根基，引發(fā)巨大爭(zhēng)議。Llama 系列曾向開發(fā)者全面開放，而 Muse Spark 首發(fā)即為閉源。

Alexandr Wang在 X 上解釋稱：“九個(gè)月前我們從零重寫了AI技術(shù)棧，全新基礎(chǔ)設(shè)施、全新架構(gòu)、全新數(shù)據(jù)pipeline……這只是第一步，更大模型已在研發(fā)中，未來版本計(jì)劃開源。”

但開發(fā)者社區(qū)仍持懷疑態(tài)度。有人認(rèn)為這是 Llama 4 未達(dá)預(yù)期后的必要轉(zhuǎn)型，也有人指責(zé) Meta 在擁有競(jìng)爭(zhēng)力推理模型后 “關(guān)上開源大門”。Alexandr Wang本人也承認(rèn)轉(zhuǎn)型不易，坦言 “模型仍有瑕疵，后續(xù)會(huì)持續(xù)優(yōu)化”。

對(duì) Meta 旗下應(yīng)用的 30 億用戶而言，這一變化將立即可感：他們使用的 AI 不再只是信息庫(kù)，而是擁有 270 億美元研發(fā)投入、能深度理解其生活的智能體。

NXP技術(shù)研討會(huì)報(bào)名

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.