網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

突然襲擊！剛剛，Meta超級(jí)智能團(tuán)隊(duì)首個(gè)大模型來(lái)了

2026-04-09 09:23:53　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心編輯部

Meta 的大模型，卷土重來(lái)了！

剛剛，Meta 重金組建的超級(jí)智能實(shí)驗(yàn)室（SML）交卷！這也是年輕華人 Alexandr Wang 帶領(lǐng)該團(tuán)隊(duì)后，交出的首份成績(jī)。

Meta 一直是生成式 AI 時(shí)代最值得關(guān)注的公司之一，早在 2023 年初，它憑借開源 Llama 系列模型，迅速積累了一批忠實(shí)且規(guī)模龐大的用戶群體。然而，這一勢(shì)頭在去年戛然而止：Llama 4 發(fā)布后評(píng)價(jià)褒貶不一，最終甚至被曝出存在刷榜（操縱基準(zhǔn)測(cè)試）的情況。

Llama 4 這次頗為坎坷的發(fā)布，促使 Meta 創(chuàng)始人兼 CEO 扎克伯格在 2025 年夏天對(duì)公司的 AI 業(yè)務(wù)進(jìn)行了徹底重組，成立了一個(gè)全新的內(nèi)部部門 ——Meta Superintelligence Labs（MSL），并邀請(qǐng)年僅 29 歲的前 Scale AI 聯(lián)合創(chuàng)始人兼 CEO Alexandr Wang 出任首席 AI 官，負(fù)責(zé)領(lǐng)導(dǎo)該部門。

在此之后，Meta 又以高薪招募了多位頂級(jí)研究員，試圖在大模型與通用智能（AGI）競(jìng)爭(zhēng)中重新奪回主動(dòng)權(quán)。

如今，Meta 正在展示這一系列調(diào)整的成果：全新自研模型 Muse Spark 上線。

Alexandr Wang 在競(jìng)爭(zhēng)對(duì)手社交平臺(tái) X 上表示，「今天，Meta 正式發(fā)布 Muse Spark，這是 MSL 推出的首個(gè)模型。九個(gè)月前，我們從零開始重構(gòu)了整套 AI 技術(shù)棧 —— 包括全新的基礎(chǔ)設(shè)施、全新的模型架構(gòu)以及全新的數(shù)據(jù)管線。Muse Spark 正是這一系列工作的成果，如今它已成為 Meta AI 的核心驅(qū)動(dòng)力。」

Alexandr Wang 還表示，這是 Meta 迄今發(fā)布的最強(qiáng)模型，并具備工具調(diào)用、視覺(jué)思維鏈（visual chain of thought）以及多智能體協(xié)同（multi-agent orchestration）能力。他還透露，這將成為全新 Muse 模型家族的起點(diǎn)。

趙晟佳、Jason Wei等從OpenAI跳槽到Meta的大牛們，也開始「帶貨」新模型。

不過(guò)這也引發(fā)了外界對(duì)于 Meta 現(xiàn)有明星產(chǎn)品線，Llama 系列未來(lái)走向的諸多猜測(cè)。

Muse Spark 的定位，并非一個(gè)通用聊天機(jī)器人，而是構(gòu)建所謂個(gè)人超級(jí)智能的基礎(chǔ)。按照 Wang 的說(shuō)法，這類 AI 不只是處理文本，而是能夠看見(jiàn)并理解你周圍的世界，從而成為個(gè)體能力的數(shù)字延伸。這一愿景，與扎克伯格在 2025 年夏天公開提出的個(gè)人超級(jí)智能宣言形成呼應(yīng)。

Muse Spark 目前暫時(shí)僅限于在 Meta AI 應(yīng)用和網(wǎng)站中使用，并通過(guò)面向部分用戶開放的私有 API 預(yù)覽提供訪問(wèn)。此外，目前 Meta 也尚未公布該模型的定價(jià)信息。至于 Meta 是否已經(jīng)完全停止 Llama 系列的后續(xù)開發(fā)，目前仍不明確。

Muse Spark 性能

Muse Spark 在多模態(tài)感知、推理、醫(yī)療相關(guān)任務(wù)以及各類 agent 任務(wù)上表現(xiàn)出具有競(jìng)爭(zhēng)力的能力。

Meta 還發(fā)布了 Contemplating（深度思考）模式，該模式可以調(diào)度多個(gè) agent 并行推理。這使得 Muse Spark 能夠在推理能力上，對(duì)標(biāo)諸如 Gemini Deep Think 和 GPT Pro 等前沿模型的高強(qiáng)度推理模式。

這一點(diǎn)在評(píng)測(cè)指標(biāo)上可以看出來(lái)。在 Contemplating 模式下，Muse Spark 在 Humanity’s Last Exam 測(cè)試中達(dá)到了 58%，在 FrontierScience Research 測(cè)試中達(dá)到了 38%。

Muse Spark 現(xiàn)已上線，Contemplating（深度思考）模式將會(huì)在 meta.ai 中逐步推出。

應(yīng)用場(chǎng)景

Muse Spark 被視為 Meta 邁向個(gè)人超級(jí)智能的第一步，一種能夠理解用戶所處環(huán)境的 AI。從分析周圍場(chǎng)景到輔助健康管理，其更強(qiáng)的推理能力被認(rèn)為可以支撐一系列高度個(gè)性化的應(yīng)用場(chǎng)景。

多模態(tài)能力

從設(shè)計(jì)之初，Muse Spark 就強(qiáng)調(diào)跨領(lǐng)域、跨工具整合視覺(jué)信息。在視覺(jué)類 STEM 問(wèn)題、實(shí)體識(shí)別和空間定位等任務(wù)上展現(xiàn)出較強(qiáng)能力。這些能力被整合后，可以支持更具交互性的應(yīng)用，例如生成簡(jiǎn)單小游戲，或通過(guò)動(dòng)態(tài)標(biāo)注幫助用戶排查家中設(shè)備問(wèn)題。

健康領(lǐng)域

在健康場(chǎng)景中，Meta 將個(gè)人超級(jí)智能視為重要落地方向之一。據(jù)介紹，其與超過(guò) 1000 名醫(yī)生合作構(gòu)建訓(xùn)練數(shù)據(jù)，以提升模型在健康推理方面的準(zhǔn)確性和完整性。基于這些能力，Muse Spark 可以生成交互式內(nèi)容，用于解釋健康信息，例如食物的營(yíng)養(yǎng)結(jié)構(gòu)或運(yùn)動(dòng)過(guò)程中涉及的肌肉群等。

示例展示

提示：我是一名魚素者，且膽固醇偏高。請(qǐng)?jiān)谕扑]的食物上標(biāo)記綠點(diǎn)，在不推薦的食物上標(biāo)記紅點(diǎn)。請(qǐng)勿重復(fù)標(biāo)記，并確保圓點(diǎn)的位置準(zhǔn)確無(wú)誤。當(dāng)鼠標(biāo)懸停在圓點(diǎn)上時(shí)，請(qǐng)顯示個(gè)性化的推薦理由、滿分 10 分的健康評(píng)分，以及該食物的熱量、碳水化合物、蛋白質(zhì)和脂肪含量。健康評(píng)分的數(shù)值應(yīng)直接顯示在圓點(diǎn)正上方，無(wú)需懸停即可見(jiàn)。懸停時(shí)顯示的詳細(xì)說(shuō)明文字，應(yīng)置于所有其他圓點(diǎn)的上方。

提示：針對(duì)這兩張圖片，請(qǐng)分別指出正在拉伸的肌肉部位及其難度等級(jí)。當(dāng)鼠標(biāo)懸停在圓點(diǎn)上時(shí)，請(qǐng)?zhí)峁╆P(guān)于該肌群的詳細(xì)信息，并指導(dǎo)我如何糾正動(dòng)作姿勢(shì)。我希望能提升自己的瑜伽水平。請(qǐng)將我和我的伙伴的圖像并排展示，并分別以 1 到 10 的分?jǐn)?shù)對(duì)我們兩人的表現(xiàn)進(jìn)行評(píng)分。

提示：你能把這個(gè)變成一個(gè)可以在網(wǎng)頁(yè)上玩的數(shù)獨(dú)游戲嗎？

提示：識(shí)別咖啡機(jī)和磨豆機(jī)的關(guān)鍵組件，并制作一個(gè)交互式教程，通過(guò)簡(jiǎn)單的網(wǎng)頁(yè)演示如何使用該設(shè)備制作拿鐵咖啡；當(dāng)鼠標(biāo)懸停在操作步驟上時(shí)，網(wǎng)頁(yè)將高亮顯示對(duì)應(yīng)組件的邊界框。

擴(kuò)展維度（Scaling Axes）

為了實(shí)現(xiàn)個(gè)人超級(jí)智能，模型能力需要以可預(yù)測(cè)且高效的方式持續(xù)擴(kuò)展。為此，Meta 從三個(gè)維度對(duì) Muse Spark 的規(guī)模化能力進(jìn)行研究與跟蹤：預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)，以及測(cè)試時(shí)推理。

預(yù)訓(xùn)練（Pretraining）

預(yù)訓(xùn)練階段，是 Muse Spark 獲取核心能力的基礎(chǔ)，包括多模態(tài)理解、推理以及編程能力，這些能力也為后續(xù)的強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)計(jì)算提供支撐。

在過(guò)去九個(gè)月中，團(tuán)隊(duì)對(duì)預(yù)訓(xùn)練體系進(jìn)行了全面重構(gòu)，涵蓋模型架構(gòu)、優(yōu)化方法以及數(shù)據(jù)構(gòu)建等多個(gè)方面。這些改進(jìn)共同提升了單位算力所能釋放的模型能力。

為了更嚴(yán)格地評(píng)估這一新體系，團(tuán)隊(duì)通過(guò)一系列小模型擬合了擴(kuò)展定律（scaling law），并對(duì)比了在達(dá)到同等性能水平時(shí)所需的訓(xùn)練 FLOPs。結(jié)果顯示：與此前的 Llama 4 Maverick 相比，現(xiàn)在可以用超過(guò)一個(gè)數(shù)量級(jí)更少的算力，達(dá)到相同能力水平。這一提升也使 Muse Spark 在效率上顯著領(lǐng)先于當(dāng)前可對(duì)比的主流基礎(chǔ)模型。

強(qiáng)化學(xué)習(xí)

在完成預(yù)訓(xùn)練之后，強(qiáng)化學(xué)習(xí)（RL）通過(guò)進(jìn)一步投入算力，持續(xù)放大模型能力。盡管大規(guī)模 RL 一直以來(lái)都容易出現(xiàn)不穩(wěn)定問(wèn)題，但在新的技術(shù)體系下，模型表現(xiàn)出平穩(wěn)且可預(yù)測(cè)的提升。

相關(guān)結(jié)果顯示，隨著 RL 計(jì)算量（以訓(xùn)練步數(shù)衡量）的增加，Muse Spark 的能力持續(xù)增強(qiáng)。左圖中可以看到，在訓(xùn)練數(shù)據(jù)上，pass@1 和 pass@16（即 16 次嘗試中至少成功一次）的指標(biāo)呈現(xiàn)對(duì)數(shù)線性增長(zhǎng)，這表明 RL 在提升模型可靠性的同時(shí)，并沒(méi)有削弱其推理多樣性。

右圖則顯示，在獨(dú)立的測(cè)試集上，準(zhǔn)確率同樣穩(wěn)步提升，這說(shuō)明 RL 帶來(lái)的能力提升具備良好的泛化性：即使是訓(xùn)練中未見(jiàn)過(guò)的任務(wù)，Muse Spark 的表現(xiàn)也在持續(xù)改善。

測(cè)試時(shí)推理（Test-Time Reasoning）

強(qiáng)化學(xué)習(xí)（RL）讓模型在給出答案之前先思考，這一過(guò)程被稱為測(cè)試時(shí)推理。要將這種能力服務(wù)于數(shù)十億用戶，關(guān)鍵在于高效使用推理 tokens。為此，Meta 主要依賴兩個(gè)核心手段：一是通過(guò)思考時(shí)間懲罰來(lái)優(yōu)化 token 使用效率，二是通過(guò)多智能體協(xié)同，在不顯著增加響應(yīng)時(shí)間的情況下提升性能。

為了實(shí)現(xiàn)每個(gè) token 帶來(lái)更多智能，其 RL 訓(xùn)練目標(biāo)是在引入思考時(shí)間懲罰的前提下最大化正確率。在 AIME 等部分評(píng)測(cè)中，這一機(jī)制會(huì)引發(fā)一種相變現(xiàn)象：模型最初通過(guò)延長(zhǎng)思考時(shí)間來(lái)提升表現(xiàn)，但隨著長(zhǎng)度懲罰的引入，開始?jí)嚎s推理過(guò)程，Muse Spark 能用更少的 tokens 完成同樣的問(wèn)題求解。

在完成壓縮之后，模型又會(huì)適度延展推理過(guò)程，以進(jìn)一步提升整體表現(xiàn)，實(shí)現(xiàn)效率與性能之間的動(dòng)態(tài)平衡。

為了在不顯著增加延遲的情況下投入更多測(cè)試時(shí)推理計(jì)算，可以通過(guò)增加并行協(xié)作的 agent 數(shù)量來(lái)解決復(fù)雜問(wèn)題。下圖展示了這一方法的優(yōu)勢(shì)：相比傳統(tǒng)測(cè)試時(shí)擴(kuò)展（讓單個(gè) agent 思考更久），通過(guò)多 agent 協(xié)同推理來(lái)擴(kuò)展 Muse Spark，可以在保持相近響應(yīng)速度的同時(shí)，實(shí)現(xiàn)更優(yōu)的性能表現(xiàn)。

https://ai.meta.com/blog/introducing-muse-spark-msl/

https://venturebeat.com/technology/goodbye-llama-meta-launches-new-proprietary-ai-model-muse-spark-first-since

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.