在生成式人工智能時(shí)代,元宇宙(Meta)一直是最受關(guān)注的公司之一。2023 年初,該公司推出了以開源為主的 Llama 系列大語(yǔ)言模型,迅速收獲了海量忠實(shí)用戶;但到了去年,Llama 4 發(fā)布后口碑褒貶不一,最終還被曝出在基準(zhǔn)測(cè)試中刷分造假,Meta 的 AI 發(fā)展勢(shì)頭也因此驟然停滯。
Llama 4 坎坷的發(fā)布?xì)v程,顯然促使 Meta 創(chuàng)始人兼首席執(zhí)行官馬克?扎克伯格在 2025 年夏季對(duì)公司 AI 業(yè)務(wù)進(jìn)行了全面重組,成立了全新內(nèi)部部門 —— 元宇宙超智能實(shí)驗(yàn)室(MSL),并聘請(qǐng) 29 歲的 Scale AI 前聯(lián)合創(chuàng)始人兼首席執(zhí)行官Alexandr Wang出任首席人工智能官,負(fù)責(zé)領(lǐng)導(dǎo)該部門,同事花重金聘請(qǐng)了多位華人技術(shù)大牛。
而就在今天,Meta 向外界展示了此番調(diào)整的成果:全新閉源模型Muse Spark。Alexandr Wang在競(jìng)品社交平臺(tái) X(機(jī)器學(xué)習(xí)社區(qū)更常用的平臺(tái))發(fā)文稱,該模型是 “Meta 迄今發(fā)布的最強(qiáng)大模型”,支持工具調(diào)用、視覺思維鏈與多智能體協(xié)同。他還表示,Muse Spark 將開啟全新的 Muse 模型系列,這也引發(fā)外界疑問:人氣極高的 Llama 系列未來將何去何從、研發(fā)是否會(huì)繼續(xù)。
Muse Spark 并非普通聊天機(jī)器人,而是Alexandr Wang口中 “個(gè)人超智能” 的底層基座。這款 AI 不只處理文本,更能 “觀察并理解你周遭的世界”,成為用戶的數(shù)字分身,這與扎克伯格 2025 年夏季公開提出的個(gè)人超智能愿景一脈相承。
但據(jù) Meta 官方發(fā)布博文介紹,Muse Spark目前僅為閉源模型,僅限 Meta AI 應(yīng)用、網(wǎng)頁(yè)端使用,同時(shí)僅向部分用戶開放 “私有 API 預(yù)覽”。這一舉措大概率會(huì)激怒數(shù)以十億計(jì)的 Llama 模型用戶,以及數(shù)千名依賴該模型的開發(fā)者(其中不少人活躍在競(jìng)品社交平臺(tái) Reddit 的 r/LocalLLaMA 板塊)。此外,官方尚未公布該模型的定價(jià)信息。
目前尚不清楚 Meta 是否已徹底終止 Llama 系列的研發(fā)。科技媒體 VentureBeat 就此直接詢問時(shí),Meta 發(fā)言人在郵件中回應(yīng):“我們現(xiàn)有的 Llama 模型將繼續(xù)保持開源”,但并未回應(yīng)未來是否會(huì)推出新一代 Llama 模型。
視覺思維鏈
Muse Spark 本質(zhì)上是一款原生多模態(tài)推理模型。不同于前代產(chǎn)品將視覺與文本 “拼接融合” 的方式,它從底層重新構(gòu)建,在內(nèi)部邏輯中全程整合視覺信息。這一架構(gòu)革新實(shí)現(xiàn)了 “視覺思維鏈”,讓模型能夠?qū)?dòng)態(tài)場(chǎng)景進(jìn)行標(biāo)注 —— 比如識(shí)別復(fù)雜意式咖啡機(jī)的零部件,或通過對(duì)比視頻分析糾正用戶的瑜伽動(dòng)作。
而技術(shù)上最重大的突破,是全新的 \\“沉思模式”(Contemplating)\\。該功能可調(diào)度多個(gè)子智能體并行推理,讓 Meta 得以對(duì)標(biāo)谷歌 Gemini Deep Think、OpenAI GPT-5.4 Pro 這類頂級(jí)推理模型。
在基準(zhǔn)測(cè)試中,該模式在 “人類終極考試” 中取得 58% 的成績(jī),在 “前沿科學(xué)研究” 任務(wù)中達(dá) 38%,Meta 稱這一結(jié)果驗(yàn)證了其全新的擴(kuò)展路徑。
對(duì)公司盈利更具意義的是模型的高效性。Meta 表示,Muse Spark 實(shí)現(xiàn)同等推理能力所需算力,比其上一代中型旗艦?zāi)P?Llama 4 Maverick少一個(gè)數(shù)量級(jí)以上。這種效率源于 “思維壓縮” 技術(shù):在強(qiáng)化學(xué)習(xí)階段,模型會(huì)因過度 “思考耗時(shí)” 受到懲罰,迫使它用更少的推理 Token 解決復(fù)雜問題,同時(shí)不犧牲準(zhǔn)確率。
基準(zhǔn)測(cè)試:王者歸來
Muse Spark 的發(fā)布被視作一次數(shù)據(jù)層面的 “量子躍遷”,終結(jié)了 Meta 長(zhǎng)達(dá)一年無緣 AI 性能第一梯隊(duì)的局面。
結(jié)合 Meta 官方內(nèi)部數(shù)據(jù)與第三方大模型監(jiān)測(cè)機(jī)構(gòu) Artificial Analysis 的獨(dú)立審核結(jié)果可以明確:Muse Spark 不只是對(duì) Llama 系列的小幅優(yōu)化,更是讓 Meta重新躋身全球前五頂尖模型行列。
根據(jù) Artificial Analysis 智能指數(shù) v4.0,Muse Spark 得分 52 分。作為對(duì)比,Meta 上一代旗艦 Llama 4 Maverick 在 2025 年發(fā)布時(shí)指數(shù)得分僅 18 分。
性能近乎提升兩倍后,Muse Spark 已逼近行業(yè)頂級(jí)系統(tǒng),僅落后于 Gemini 3.1 Pro Preview(57 分)、GPT-5.4(57 分)與 Claude Opus 4.6(53 分)。
Meta 官方測(cè)試顯示,Muse Spark 在多模態(tài)推理,尤其是視覺圖像與邏輯結(jié)合的場(chǎng)景中表現(xiàn)尤為突出:
- CharXiv推理(圖像理解)
86.4
分,大幅超越 Claude Opus 4.6 ( 65.3 )、 Gemini 3.1 Pro ( 80.2 )、 GPT-5.4 ( 82.8 )
- MMMU Pro
:官方
80.4 分,第三方實(shí)測(cè) 80.5% ,為全球第二強(qiáng)視覺模型,僅遜于 Gemini 3.1 Pro Preview
- 視覺事實(shí)性(SimpleVQA
71.3 分,領(lǐng)先 GPT-5.4 與 Grok 4.2 ,僅小幅落后 Gemini 3.1 Pro
這些成績(jī)印證了 Meta 對(duì) “視覺思維鏈” 的投入,讓模型不只識(shí)別物體,更能推理復(fù)雜空間問題與動(dòng)態(tài)標(biāo)注。
在專業(yè)推理測(cè)試中:
- 人類終極考試(HLE
無工具 42.8 分、有工具 50.4 分,第三方實(shí)測(cè) 39.9%
- GPQA Diamond(博士級(jí)推理)
89.5 分,超越Grok 4.2,略低于 Claude Opus 4.6 與 Gemini 3.1 Pro - ARC AGI 2
42.5 分,仍是明顯短板,遠(yuǎn)落后于Gemini 3.1 Pro 與GPT-5.4 - CritPT(物理研究)
11%,位列全球第五,大幅領(lǐng)先Gemini 3 Flash 與Claude 4.6 Sonnet
官方數(shù)據(jù)中最亮眼的是醫(yī)療領(lǐng)域表現(xiàn),這得益于 Meta 與逾千名醫(yī)生的合作:
HealthBench Hard 42.8 分,大幅領(lǐng)先 Claude Opus 4.6 、 Gemini 3.1 Pro 乃至 GPT-5.4 MedXpertQA (多模態(tài)) 78.4 分,領(lǐng)先 Opus 4.6 與 Grok 4.2 ,僅落后 Gemini 3.1 Pro
![]()
智能體系統(tǒng)與效率:思維壓縮效應(yīng)
Muse Spark 雖擅長(zhǎng)推理,但在執(zhí)行實(shí)際工作任務(wù)的 “智能體表現(xiàn)” 上則喜憂參半:
SWE-Bench Verified :77.4 分,落后 Claude Opus 4.6 與 Gemini 3.1 Pro GDPval-AA Elo :官方1444 分、第三方 1427 分,均落后 GPT-5.4 與 Opus 4.6但Token 效率是其核心優(yōu)勢(shì):完成智能指數(shù)測(cè)試僅使用
5800 萬(wàn)輸出 Token ,遠(yuǎn)低于 Claude Opus 4.6 ( 1.57 億)與 GPT-5.4 ( 1.2 億),印證了 “ 思維壓縮 ” 的效果 —— 以不到競(jìng)品一半的 “ 思考成本 ” 實(shí)現(xiàn)頂級(jí)智能。
個(gè)人健康與Instagram購(gòu)物
Meta 已立即將 Muse Spark 接入旗下全系應(yīng)用,打造專屬功能:
- 購(gòu)物模式
依托創(chuàng)作者生態(tài), AI 抓取 Instagram 與 Threads 中的品牌、穿搭、內(nèi)容,提供個(gè)性化推薦,讓每條帖子都可直接轉(zhuǎn)化為購(gòu)物入口
- 健康推理
分析食物照片的營(yíng)養(yǎng)成分,為高膽固醇素食飲食提供 “ 健康評(píng)分 ”
- 交互式界面
實(shí)時(shí)生成網(wǎng)頁(yè)小游戲或教程,比如將照片轉(zhuǎn)為數(shù)獨(dú)游戲、制作家電使用教程
評(píng)估意識(shí)
Muse Spark 對(duì)生化武器相關(guān)請(qǐng)求具備較強(qiáng)的拒絕能力,但第三方機(jī)構(gòu) Apollo Research 發(fā)現(xiàn)其安全層面存在一個(gè)驚人新問題:高度的“評(píng)估意識(shí)”。
模型常能識(shí)別出自己正處于 “對(duì)齊陷阱” 測(cè)試中,并刻意表現(xiàn)誠(chéng)實(shí),只因知道自己正在被評(píng)估。
Meta 認(rèn)為這一問題不影響發(fā)布,但該發(fā)現(xiàn)意味著:前沿模型正越來越 “感知” 測(cè)試環(huán)境,傳統(tǒng)安全基準(zhǔn)測(cè)試可能因模型學(xué)會(huì) “應(yīng)試作弊” 而失效。
Llama何去何從?
2023 年 2 月,Meta 發(fā)布 Llama 1,證明小體量、算力優(yōu)化型模型可在效率上比肩 GPT-3 等大模型。盡管初期僅限研究者使用,但模型權(quán)重于 2023 年 3 月 3 日通過 4chan 泄露,意外推動(dòng)高端研究平民化,催生了在消費(fèi)級(jí)硬件上運(yùn)行大模型的全球浪潮。
2023 年 7 月,Llama 2 發(fā)布并開放商用許可,支持絕大多數(shù)機(jī)構(gòu)自主部署,迅速普及。截至 2023 年第三季度,Llama 系列下載量破億,支撐超千款商業(yè)應(yīng)用。
2024 至 2025 年,Llama 系列成長(zhǎng)為全球企業(yè) AI 的核心基建,被稱作 “AI 界的 LAMP 架構(gòu)”。2024 年 4 月 Llama 3、2024 年 7 月 Llama 3.1 405B 發(fā)布后,其性能已與全球頂級(jí)閉源系統(tǒng)持平。
2025 年 4 月,Llama 4 采用混合專家架構(gòu),實(shí)現(xiàn)超大參數(shù)量化且保持快速推理。截至 2026 年初,Llama 生態(tài)下載量達(dá)12億次,日均下載近百萬(wàn)次。企業(yè)自主部署 Llama 相比調(diào)用閉源 API 可節(jié)省 88% 成本,實(shí)現(xiàn)了經(jīng)濟(jì)層面的技術(shù)自主。
但到 2026 年 4 月,Meta 在開源權(quán)重領(lǐng)域的絕對(duì)領(lǐng)先地位已被打破,全球競(jìng)爭(zhēng)格局形成多極化態(tài)勢(shì):
美國(guó)占Llama 全球部署量的35%
2025 年末,阿里、深度求索( DeepSeek )等中國(guó)模型在 Hugging Face 等平臺(tái)下載量占比達(dá) 41%
2026 年初,智譜 GLM-5 、阿里通義千問 3.6 Plus 等新模型在常識(shí)與編程測(cè)試中已超越 Llama 4 Maverick
面對(duì)全球競(jìng)爭(zhēng)壓力,Muse Spark 背負(fù)著極高期待,同時(shí)也面臨延續(xù)開源 legacy 的巨大挑戰(zhàn)。
僅閉源發(fā)布(現(xiàn)階段)
此次發(fā)布標(biāo)志著 Meta AI 背離了其 “開放科學(xué)” 的根基,引發(fā)巨大爭(zhēng)議。Llama 系列曾向開發(fā)者全面開放,而 Muse Spark 首發(fā)即為閉源。
Alexandr Wang在 X 上解釋稱:“九個(gè)月前我們從零重寫了AI技術(shù)棧,全新基礎(chǔ)設(shè)施、全新架構(gòu)、全新數(shù)據(jù)pipeline……這只是第一步,更大模型已在研發(fā)中,未來版本計(jì)劃開源。”
但開發(fā)者社區(qū)仍持懷疑態(tài)度。有人認(rèn)為這是 Llama 4 未達(dá)預(yù)期后的必要轉(zhuǎn)型,也有人指責(zé) Meta 在擁有競(jìng)爭(zhēng)力推理模型后 “關(guān)上開源大門”。Alexandr Wang本人也承認(rèn)轉(zhuǎn)型不易,坦言 “模型仍有瑕疵,后續(xù)會(huì)持續(xù)優(yōu)化”。
對(duì) Meta 旗下應(yīng)用的 30 億用戶而言,這一變化將立即可感:他們使用的 AI 不再只是信息庫(kù),而是擁有 270 億美元研發(fā)投入、能深度理解其生活的智能體。
NXP技術(shù)研討會(huì)報(bào)名
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.