![]()
Meta Platforms今日發布了一款全新推理模型Muse Spark,該模型在回答健康類問題及分析多模態數據方面表現尤為出色。
未來幾周內,Meta將把這一算法逐步部署至面向消費者的Meta AI服務中。與此同時,Muse Spark也將通過應用程序編程接口(API)向開發者開放,目前該API處于私有預覽階段。
Meta表示,Muse Spark在多項基準測試中的表現超越了Claude 4.6 Opus、Gemini 3.1 Pro和GPT 5.4。其中一項測試為HealthBench Hard,專門用于衡量AI模型回答醫學問題的能力。Muse Spark的得分比排名第二的GPT 5.4高出逾2個百分點。
該模型的出色表現,部分源于Meta在逾1000名醫生的協助下整理編制的臨床訓練數據集。這一數據集是公司對AI開發流程進行全面升級的重要成果之一。據這家Facebook母公司介紹,其工程師還對模型架構及訓練后工作流程進行了優化改進。
Meta在今日發布的博客文章中表示:"與我們的上一代模型Llama 4 Maverick相比,我們僅需不到其十分之一的算力,便能達到相同的能力水平。這一進步也使Muse Spark相較于目前主要的可比基礎模型,在效率上具備顯著優勢。"
科學圖表分析是Muse Spark另一項領先競品的能力。在CharXiv Reasoning這一由技術圖表構成的基準數據集上,Muse Spark的表現超越了Opus 4.6及其他競爭模型。這種視覺推理能力同樣適用于更廣泛的應用場景——用戶可以在Meta AI應用中上傳一張超市貨架的照片,并讓模型估算每種食品的卡路里含量。
Meta還對Muse Spark進行了另外十余項基準測試。在許多測試中,其得分與Opus 4.6、Gemini 3.1 Pro和GPT 5.4相差無幾,且在多項評估中均領先于至少一款競爭模型。這些基準測試涵蓋代碼生成、機器人導航和工具調用等多個應用場景。
Muse Spark還可通過開啟"深思模式(Contemplating mode)"來提升輸出質量。該功能會同時啟動多個AI智能體,將任務分解為若干子步驟并行處理。Meta表示,這項技術使Muse Spark在HLE這一AI領域公認的最難基準測試之一上的得分提升了約8%。
Muse Spark是Meta規劃中的系列多模態推理模型中的首款產品。Meta在今日的博客文章中寫道:"我們正處于可預期且高效的規模擴展軌道上,期待很快向外界分享在通往個人超級智能道路上能力日益增強的系列模型。"
Q&A
Q1:Muse Spark在醫療健康方面有什么突出表現?
A:Muse Spark在HealthBench Hard基準測試中表現優異,該測試專門衡量AI模型回答醫學問題的能力。Muse Spark的得分比排名第二的GPT 5.4高出逾2個百分點。這一成績部分得益于Meta聯合逾1000名醫生共同編制的臨床訓練數據集,使模型在醫療問答領域具備較強的專業能力。
Q2:Muse Spark的"深思模式"是什么,有什么作用?
A:深思模式(Contemplating mode)是Muse Spark的一項可選功能,開啟后會同時啟動多個AI智能體,將復雜任務拆解為若干子步驟并行處理,從而提升輸出質量。根據Meta的測試數據,該模式使Muse Spark在AI領域公認的高難度基準測試HLE上的得分提升了約8%,有效增強了模型面對復雜任務時的推理表現。
Q3:Muse Spark和上一代模型Llama 4 Maverick相比效率提升了多少?
A:根據Meta的官方說法,Muse Spark僅需Llama 4 Maverick不到十分之一的算力,便能達到相同的能力水平。這意味著在計算資源消耗方面實現了數量級的大幅降低,使Muse Spark相較于目前市場上主要的可比基礎模型在運行效率上具備顯著優勢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.