![]()
機(jī)器之心編輯部
Meta 的大模型,卷土重來(lái)了!
![]()
剛剛,Meta 重金組建的超級(jí)智能實(shí)驗(yàn)室(SML)交卷!這也是年輕華人 Alexandr Wang 帶領(lǐng)該團(tuán)隊(duì)后,交出的首份成績(jī)。
Meta 一直是生成式 AI 時(shí)代最值得關(guān)注的公司之一,早在 2023 年初,它憑借開源 Llama 系列模型,迅速積累了一批忠實(shí)且規(guī)模龐大的用戶群體。然而,這一勢(shì)頭在去年戛然而止:Llama 4 發(fā)布后評(píng)價(jià)褒貶不一,最終甚至被曝出存在刷榜(操縱基準(zhǔn)測(cè)試)的情況。
Llama 4 這次頗為坎坷的發(fā)布,促使 Meta 創(chuàng)始人兼 CEO 扎克伯格在 2025 年夏天對(duì)公司的 AI 業(yè)務(wù)進(jìn)行了徹底重組,成立了一個(gè)全新的內(nèi)部部門 ——Meta Superintelligence Labs(MSL),并邀請(qǐng)年僅 29 歲的前 Scale AI 聯(lián)合創(chuàng)始人兼 CEO Alexandr Wang 出任首席 AI 官,負(fù)責(zé)領(lǐng)導(dǎo)該部門。
在此之后,Meta 又以高薪招募了多位頂級(jí)研究員,試圖在大模型與通用智能(AGI)競(jìng)爭(zhēng)中重新奪回主動(dòng)權(quán)。
如今,Meta 正在展示這一系列調(diào)整的成果:全新自研模型 Muse Spark 上線。
Alexandr Wang 在競(jìng)爭(zhēng)對(duì)手社交平臺(tái) X 上表示,「今天,Meta 正式發(fā)布 Muse Spark,這是 MSL 推出的首個(gè)模型。九個(gè)月前,我們從零開始重構(gòu)了整套 AI 技術(shù)棧 —— 包括全新的基礎(chǔ)設(shè)施、全新的模型架構(gòu)以及全新的數(shù)據(jù)管線。Muse Spark 正是這一系列工作的成果,如今它已成為 Meta AI 的核心驅(qū)動(dòng)力。」
![]()
Alexandr Wang 還表示,這是 Meta 迄今發(fā)布的最強(qiáng)模型,并具備工具調(diào)用、視覺(jué)思維鏈(visual chain of thought)以及多智能體協(xié)同(multi-agent orchestration)能力。他還透露,這將成為全新 Muse 模型家族的起點(diǎn)。
趙晟佳、Jason Wei等從OpenAI跳槽到Meta的大牛們,也開始「帶貨」新模型。
![]()
![]()
不過(guò)這也引發(fā)了外界對(duì)于 Meta 現(xiàn)有明星產(chǎn)品線,Llama 系列未來(lái)走向的諸多猜測(cè)。
Muse Spark 的定位,并非一個(gè)通用聊天機(jī)器人,而是構(gòu)建所謂個(gè)人超級(jí)智能的基礎(chǔ)。按照 Wang 的說(shuō)法,這類 AI 不只是處理文本,而是能夠看見(jiàn)并理解你周圍的世界,從而成為個(gè)體能力的數(shù)字延伸。這一愿景,與扎克伯格在 2025 年夏天公開提出的個(gè)人超級(jí)智能宣言形成呼應(yīng)。
Muse Spark 目前暫時(shí)僅限于在 Meta AI 應(yīng)用和網(wǎng)站中使用,并通過(guò)面向部分用戶開放的私有 API 預(yù)覽提供訪問(wèn)。此外,目前 Meta 也尚未公布該模型的定價(jià)信息。至于 Meta 是否已經(jīng)完全停止 Llama 系列的后續(xù)開發(fā),目前仍不明確。
Muse Spark 性能
Muse Spark 在多模態(tài)感知、推理、醫(yī)療相關(guān)任務(wù)以及各類 agent 任務(wù)上表現(xiàn)出具有競(jìng)爭(zhēng)力的能力。
![]()
Meta 還發(fā)布了 Contemplating(深度思考)模式,該模式可以調(diào)度多個(gè) agent 并行推理。這使得 Muse Spark 能夠在推理能力上,對(duì)標(biāo)諸如 Gemini Deep Think 和 GPT Pro 等前沿模型的高強(qiáng)度推理模式。
這一點(diǎn)在評(píng)測(cè)指標(biāo)上可以看出來(lái)。在 Contemplating 模式下,Muse Spark 在 Humanity’s Last Exam 測(cè)試中達(dá)到了 58%,在 FrontierScience Research 測(cè)試中達(dá)到了 38%。
![]()
Muse Spark 現(xiàn)已上線,Contemplating(深度思考)模式將會(huì)在 meta.ai 中逐步推出。
應(yīng)用場(chǎng)景
Muse Spark 被視為 Meta 邁向個(gè)人超級(jí)智能的第一步,一種能夠理解用戶所處環(huán)境的 AI。從分析周圍場(chǎng)景到輔助健康管理,其更強(qiáng)的推理能力被認(rèn)為可以支撐一系列高度個(gè)性化的應(yīng)用場(chǎng)景。
多模態(tài)能力
從設(shè)計(jì)之初,Muse Spark 就強(qiáng)調(diào)跨領(lǐng)域、跨工具整合視覺(jué)信息。在視覺(jué)類 STEM 問(wèn)題、實(shí)體識(shí)別和空間定位等任務(wù)上展現(xiàn)出較強(qiáng)能力。這些能力被整合后,可以支持更具交互性的應(yīng)用,例如生成簡(jiǎn)單小游戲,或通過(guò)動(dòng)態(tài)標(biāo)注幫助用戶排查家中設(shè)備問(wèn)題。
健康領(lǐng)域
在健康場(chǎng)景中,Meta 將個(gè)人超級(jí)智能視為重要落地方向之一。據(jù)介紹,其與超過(guò) 1000 名醫(yī)生合作構(gòu)建訓(xùn)練數(shù)據(jù),以提升模型在健康推理方面的準(zhǔn)確性和完整性。基于這些能力,Muse Spark 可以生成交互式內(nèi)容,用于解釋健康信息,例如食物的營(yíng)養(yǎng)結(jié)構(gòu)或運(yùn)動(dòng)過(guò)程中涉及的肌肉群等。
示例展示
![]()
提示:我是一名魚素者,且膽固醇偏高。請(qǐng)?jiān)谕扑]的食物上標(biāo)記綠點(diǎn),在不推薦的食物上標(biāo)記紅點(diǎn)。請(qǐng)勿重復(fù)標(biāo)記,并確保圓點(diǎn)的位置準(zhǔn)確無(wú)誤。當(dāng)鼠標(biāo)懸停在圓點(diǎn)上時(shí),請(qǐng)顯示個(gè)性化的推薦理由、滿分 10 分的健康評(píng)分,以及該食物的熱量、碳水化合物、蛋白質(zhì)和脂肪含量。健康評(píng)分的數(shù)值應(yīng)直接顯示在圓點(diǎn)正上方,無(wú)需懸停即可見(jiàn)。懸停時(shí)顯示的詳細(xì)說(shuō)明文字,應(yīng)置于所有其他圓點(diǎn)的上方。
![]()
提示:針對(duì)這兩張圖片,請(qǐng)分別指出正在拉伸的肌肉部位及其難度等級(jí)。當(dāng)鼠標(biāo)懸停在圓點(diǎn)上時(shí),請(qǐng)?zhí)峁╆P(guān)于該肌群的詳細(xì)信息,并指導(dǎo)我如何糾正動(dòng)作姿勢(shì)。我希望能提升自己的瑜伽水平。請(qǐng)將我和我的伙伴的圖像并排展示,并分別以 1 到 10 的分?jǐn)?shù)對(duì)我們兩人的表現(xiàn)進(jìn)行評(píng)分。
提示:你能把這個(gè)變成一個(gè)可以在網(wǎng)頁(yè)上玩的數(shù)獨(dú)游戲嗎?
![]()
提示:識(shí)別咖啡機(jī)和磨豆機(jī)的關(guān)鍵組件,并制作一個(gè)交互式教程,通過(guò)簡(jiǎn)單的網(wǎng)頁(yè)演示如何使用該設(shè)備制作拿鐵咖啡;當(dāng)鼠標(biāo)懸停在操作步驟上時(shí),網(wǎng)頁(yè)將高亮顯示對(duì)應(yīng)組件的邊界框。
擴(kuò)展維度(Scaling Axes)
為了實(shí)現(xiàn)個(gè)人超級(jí)智能,模型能力需要以可預(yù)測(cè)且高效的方式持續(xù)擴(kuò)展。為此,Meta 從三個(gè)維度對(duì) Muse Spark 的規(guī)模化能力進(jìn)行研究與跟蹤:預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí),以及測(cè)試時(shí)推理。
預(yù)訓(xùn)練(Pretraining)
預(yù)訓(xùn)練階段,是 Muse Spark 獲取核心能力的基礎(chǔ),包括多模態(tài)理解、推理以及編程能力,這些能力也為后續(xù)的強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)計(jì)算提供支撐。
在過(guò)去九個(gè)月中,團(tuán)隊(duì)對(duì)預(yù)訓(xùn)練體系進(jìn)行了全面重構(gòu),涵蓋模型架構(gòu)、優(yōu)化方法以及數(shù)據(jù)構(gòu)建等多個(gè)方面。這些改進(jìn)共同提升了單位算力所能釋放的模型能力。
為了更嚴(yán)格地評(píng)估這一新體系,團(tuán)隊(duì)通過(guò)一系列小模型擬合了擴(kuò)展定律(scaling law),并對(duì)比了在達(dá)到同等性能水平時(shí)所需的訓(xùn)練 FLOPs。結(jié)果顯示:與此前的 Llama 4 Maverick 相比,現(xiàn)在可以用超過(guò)一個(gè)數(shù)量級(jí)更少的算力,達(dá)到相同能力水平。這一提升也使 Muse Spark 在效率上顯著領(lǐng)先于當(dāng)前可對(duì)比的主流基礎(chǔ)模型。
![]()
強(qiáng)化學(xué)習(xí)
在完成預(yù)訓(xùn)練之后,強(qiáng)化學(xué)習(xí)(RL)通過(guò)進(jìn)一步投入算力,持續(xù)放大模型能力。盡管大規(guī)模 RL 一直以來(lái)都容易出現(xiàn)不穩(wěn)定問(wèn)題,但在新的技術(shù)體系下,模型表現(xiàn)出平穩(wěn)且可預(yù)測(cè)的提升。
相關(guān)結(jié)果顯示,隨著 RL 計(jì)算量(以訓(xùn)練步數(shù)衡量)的增加,Muse Spark 的能力持續(xù)增強(qiáng)。左圖中可以看到,在訓(xùn)練數(shù)據(jù)上,pass@1 和 pass@16(即 16 次嘗試中至少成功一次)的指標(biāo)呈現(xiàn)對(duì)數(shù)線性增長(zhǎng),這表明 RL 在提升模型可靠性的同時(shí),并沒(méi)有削弱其推理多樣性。
右圖則顯示,在獨(dú)立的測(cè)試集上,準(zhǔn)確率同樣穩(wěn)步提升,這說(shuō)明 RL 帶來(lái)的能力提升具備良好的泛化性:即使是訓(xùn)練中未見(jiàn)過(guò)的任務(wù),Muse Spark 的表現(xiàn)也在持續(xù)改善。
![]()
測(cè)試時(shí)推理(Test-Time Reasoning)
強(qiáng)化學(xué)習(xí)(RL)讓模型在給出答案之前先思考,這一過(guò)程被稱為測(cè)試時(shí)推理。要將這種能力服務(wù)于數(shù)十億用戶,關(guān)鍵在于高效使用推理 tokens。為此,Meta 主要依賴兩個(gè)核心手段:一是通過(guò)思考時(shí)間懲罰來(lái)優(yōu)化 token 使用效率,二是通過(guò)多智能體協(xié)同,在不顯著增加響應(yīng)時(shí)間的情況下提升性能。
為了實(shí)現(xiàn)每個(gè) token 帶來(lái)更多智能,其 RL 訓(xùn)練目標(biāo)是在引入思考時(shí)間懲罰的前提下最大化正確率。在 AIME 等部分評(píng)測(cè)中,這一機(jī)制會(huì)引發(fā)一種相變現(xiàn)象:模型最初通過(guò)延長(zhǎng)思考時(shí)間來(lái)提升表現(xiàn),但隨著長(zhǎng)度懲罰的引入,開始?jí)嚎s推理過(guò)程,Muse Spark 能用更少的 tokens 完成同樣的問(wèn)題求解。
在完成壓縮之后,模型又會(huì)適度延展推理過(guò)程,以進(jìn)一步提升整體表現(xiàn),實(shí)現(xiàn)效率與性能之間的動(dòng)態(tài)平衡。
![]()
為了在不顯著增加延遲的情況下投入更多測(cè)試時(shí)推理計(jì)算,可以通過(guò)增加并行協(xié)作的 agent 數(shù)量來(lái)解決復(fù)雜問(wèn)題。下圖展示了這一方法的優(yōu)勢(shì):相比傳統(tǒng)測(cè)試時(shí)擴(kuò)展(讓單個(gè) agent 思考更久),通過(guò)多 agent 協(xié)同推理來(lái)擴(kuò)展 Muse Spark,可以在保持相近響應(yīng)速度的同時(shí),實(shí)現(xiàn)更優(yōu)的性能表現(xiàn)。
![]()
https://ai.meta.com/blog/introducing-muse-spark-msl/
https://venturebeat.com/technology/goodbye-llama-meta-launches-new-proprietary-ai-model-muse-spark-first-since
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.