<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛!Meta發布多模態推理模型Muse Spark

      0
      分享至

      AIPress.com.cn報道

      2025年4月,Llama 4 翻車扎克伯格宣布成立Meta超級智能實驗室(MSL),并把Scale AI創始人Alexandr Wang挖來擔任Meta首任首席AI官。為此,Meta以143億美元收購Scale AI 49%的無投票權股份。

      9個月后,原生多模態推理模型Muse Spark發布了,這是他們交出的第一份答卷。

      Alexandr Wang在X上寫道:"9個月前我們從零開始重建了AI技術?!禄A設施、新架構、新數據管線。Muse Spark就是這項工作的成果,現在它為Meta AI提供動力。"


      斥資千億培養的“偏科生”

      Muse Spark是原生多模態模型,支持語音、文本和圖像輸入,目前僅輸出文本。它有兩個運行模式:快速模式用于日常查詢,以及一個新推出的"Contemplating"沉思模式,通過編排多個子Agent并行推理來處理高難度任務,對標Google Gemini Deep Think和OpenAI GPT Pro的深度推理模式。

      相較Llama 4,Muse Spark明顯有了巨大的提升。Muse Spark在Artificial Analysis Intelligence Index v4.0上排名第四,得分52,落后于Gemini 3.1 Pro Preview和GPT-5.4(均為57分)以及Claude Opus 4.6(53分)。


      得益于與1000多位醫生合作策劃的訓練數據,Muse Spark在醫學推理上的表現較為突出。在HealthBench Hard 開放式健康問答中得分 42.8,超過 GPT 5.4 的40.1、Gemini 3.1 Pro 的 20.6 和 Opus 4.6 的 14.8。


      在CharXiv Reasoning(圖表理解)上,Muse Spark在沉思模式下獲得86.4分,超過Gemini 3.1 Pro的80.2和GPT-5.4的82.8。


      但很明顯,Muse Spark是一個偏科的學生。

      GPQA Diamond(研究生級科學推理)得分89.5,落后于Gemini 3.1 Pro的94.3、GPT-5.4的92.8和Claude Opus 4.6的92.7;ARC AGI 2(抽象推理)在沉思模式下得分42.5,大幅落后于Gemini 3.1 Pro的76.5和GPT-5.4的76.1。


      簡單說,Muse Spark在健康和視覺理解方面確實做到了前沿水平,但在抽象推理和編碼方面仍有明顯短板。Meta顯然選擇了先在自己有數據優勢的領域打出差異化,而不是在所有維度上追求全面領先。

      "個人超級智能"落地長什么樣

      跑分之外,Muse Spark更值得關注的是它的應用方向。Meta把它定位為"個人超級智能"的第一步,而不僅僅是一個聊天機器人。

      多模態交互是第一個重點。Muse Spark從架構層面原生整合了跨領域的視覺信息處理能力,在視覺STEM問題、實體識別和定位方面表現出色。官方演示中展示了幾個有意思的場景:拍一張照片讓它變成一個可玩的數獨游戲;對著咖啡機拍照,生成一個互動教程教你怎么做拿鐵,鼠標懸停在步驟上還會高亮對應的機器部件。


      健康方向是另一個著力點,也是Meta數據優勢最能體現的領域。Muse Spark可以對著一桌菜拍照,根據你的飲食限制(比如魚素、高膽固醇)在每道菜上標注綠色或紅色的推薦標記,附帶個性化的健康評分和營養成分。也可以對著瑜伽姿勢拍照,標出正在拉伸的肌肉群,并給出動作糾正建議。


      這些場景有一個共同特點:它們不只是"理解圖片然后回答問題",而是理解圖片之后生成可交互的視覺輸出。這種"看懂世界然后幫你操作世界"的能力,是Meta給"個人超級智能"這個概念的具體注腳。

      當然,這些演示都是精心挑選的最佳場景。實際大規模使用中表現如何,還需要社區驗證。但從通用聊天轉向個性化、視覺化、可交互的AI助手的方向,是Meta憑借30億用戶的數據優勢最有可能做出差異化的地方。

      技術棧重建的真實回報

      技術棧層面的改進是Muse Spark最扎實的成果。

      Meta披露的Codebase Perplexity對比顯示,在相同性能水平下,Muse Spark比Llama 4 Maverick節省10.3倍算力,比DeepSeek-V3.1節省8.2倍,比Kimi-K2節省3.3倍。


      實現這個效率提升的關鍵技巧叫"思維壓縮":在強化學習階段對模型的思考時間施加懲罰,迫使模型學會用更少的推理token解決問題。Meta稱這會導致一個有趣的"相變",模型先學會延長思考來提升能力,然后在懲罰下壓縮推理過程,最后再從壓縮后的基礎上繼續提升。

      強化學習的擴展曲線同樣平滑:pass@1從約46%持續爬升至超過60%,pass@16從近68%升至近80%。


      Yuchen Jin評論說:基礎設施才是AI實驗室真正的護城河。好的基礎設施讓研究員能用更快的速度訓練模型、用更短的周期驗證更多想法。從這個角度看,MSL九個月重建技術棧的投入,可能比跑分本身更有長期價值。


      Muse Spark知道自己在被測試

      第三方機構Apollo Research報告稱,Muse Spark展現了他們觀察到的所有模型中最高水平的"評估意識"。模型在測試中頻繁識別出場景是"對齊陷阱",并推理出應該誠實回答,因為自己正在被評估。

      一個知道"我現在在考試"的AI模型,和一個不知道的AI模型,它們的行為差異意味著什么?

      Meta表示后續調查發現這種意識可能在少量評估中影響了行為,但與危險能力無關,不構成發布阻礙。不過他們也承認這個現象"值得進一步研究"。

      及格了,但還遠遠不夠

      九個月重建、數百億投入、70多名頂尖研究員、一位28歲的首席AI官,Muse Spark交出的這份答卷,稱得上合格。

      健康領域的垂直優勢足夠亮眼,算力效率的提升確有真實價值,技術棧重建讓Meta重新擁有了可預測的擴展路徑。但ARC AGI 2上的斷崖落差、編碼任務上被GPT-5.4輕松超越、圖表風波暴露的敘事焦慮、以及閉源轉向對社區信任的潛在沖擊……它們共同勾勒出的,仍然是一個在追趕、而不是領先的Meta AI。

      不過MSL的故事才剛開始。如果把Muse Spark看作九個月的階段性成果而非最終答案,Meta至少證明了一件事:重建后的技術棧是能跑起來的,而且跑得比之前高效得多。

      至于能不能追上前面的人,用Alexandr Wang自己的話說,"大的還在后面"。


      (轉載自:)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      半個世紀后,人類終于繞回月亮背后,順手拍了幾張絕版壁紙

      半個世紀后,人類終于繞回月亮背后,順手拍了幾張絕版壁紙

      果殼
      2026-04-08 16:12:00
      iPhone Ultra 售價曝光,國行起售價 17,999 !

      iPhone Ultra 售價曝光,國行起售價 17,999 !

      XCiOS俱樂部
      2026-04-09 13:52:43
      “桎梏”不要再讀 zhì kù,或 zhì gào,丟不起那個人!

      “桎梏”不要再讀 zhì kù,或 zhì gào,丟不起那個人!

      未央看點
      2026-04-10 00:09:02
      中俄關系到底如何處理?這個問題事關中國國運

      中俄關系到底如何處理?這個問題事關中國國運

      小哥很OK
      2025-02-08 15:02:44
      2026年交通執法新規!無證據不攔車,隨意檢查正式成為歷史

      2026年交通執法新規!無證據不攔車,隨意檢查正式成為歷史

      復轉這些年
      2026-04-08 12:36:32
      瘋魔歸來!但曼聯前方又是十字路口

      瘋魔歸來!但曼聯前方又是十字路口

      足球周刊
      2026-04-11 11:17:57
      奧妹這一脫,又為藝術獻身了

      奧妹這一脫,又為藝術獻身了

      來看美劇
      2026-04-10 16:22:16
      開路虎加油逃單后續:正臉曝光社死,身份被扒還是慣犯,警方介入

      開路虎加油逃單后續:正臉曝光社死,身份被扒還是慣犯,警方介入

      離離言幾許
      2026-04-10 17:14:42
      有個美好的漢字,中國人取名卻都不敢用,說:誰用都會覺得羞恥

      有個美好的漢字,中國人取名卻都不敢用,說:誰用都會覺得羞恥

      長風文史
      2026-04-10 14:52:36
      為什么日本不怕甚至盼望再次與中國開戰?因本土沒被中國摸過一下

      為什么日本不怕甚至盼望再次與中國開戰?因本土沒被中國摸過一下

      掠影后有感
      2026-04-11 09:37:42
      實錘!伊朗系發射C-802反艦導彈,或真打中了英國海軍龍號驅逐艦

      實錘!伊朗系發射C-802反艦導彈,或真打中了英國海軍龍號驅逐艦

      軍機Talk
      2026-04-10 13:06:47
      隨著24歲阿根廷悍將無敵雙響炮+西漢姆聯4-0,英超最新積分榜出爐

      隨著24歲阿根廷悍將無敵雙響炮+西漢姆聯4-0,英超最新積分榜出爐

      側身凌空斬
      2026-04-11 05:00:32
      特朗普、萬斯為歐爾班助選,可能起反作用了......

      特朗普、萬斯為歐爾班助選,可能起反作用了......

      山河路口
      2026-04-10 19:06:33
      鬧大了!“你不想畢業了,敢威脅我”,導師與學生的聊天炸開鍋了

      鬧大了!“你不想畢業了,敢威脅我”,導師與學生的聊天炸開鍋了

      火山詩話
      2026-04-11 08:55:49
      繼續封鎖海峽和推遲談判:伊朗讓特朗普更被動!我贊同博爾頓觀點

      繼續封鎖海峽和推遲談判:伊朗讓特朗普更被動!我贊同博爾頓觀點

      鷹眼Defence
      2026-04-10 11:31:27
      研究表明:性生活越頻繁,射精和勃起問題越少!

      研究表明:性生活越頻繁,射精和勃起問題越少!

      黯泉
      2026-04-05 20:40:12
      85名議員聯署罷免!馬斯克與萬斯聯手,美國“陳橋兵變”開始了?

      85名議員聯署罷免!馬斯克與萬斯聯手,美國“陳橋兵變”開始了?

      娛樂的宅急便
      2026-04-10 18:37:02
      賈淺淺《我的娘》才是最正宗“尿”詩,極具畫面感,您覺得如何?

      賈淺淺《我的娘》才是最正宗“尿”詩,極具畫面感,您覺得如何?

      讀睡
      2026-03-10 20:58:12
      科學家首次見證“猩猩帝國內戰”:首領重傷身亡后群體分裂,兩大幫派血腥殘殺

      科學家首次見證“猩猩帝國內戰”:首領重傷身亡后群體分裂,兩大幫派血腥殘殺

      紅星新聞
      2026-04-10 18:13:29
      7歲女童陰道炎反復難愈,手術后竟然取出一整支精華液!

      7歲女童陰道炎反復難愈,手術后竟然取出一整支精華液!

      深圳晚報
      2026-04-09 16:19:33
      2026-04-11 11:40:49
      鞭牛士 incentive-icons
      鞭牛士
      準確、快速、有深度的科技媒體
      106171文章數 61737關注度
      往期回顧 全部

      科技要聞

      阿爾忒彌斯2號成功濺落,隔熱罩驚險過關

      頭條要聞

      "遲重瑞與陳麗華年輕時合影"熱傳 當事女子:張冠李戴

      頭條要聞

      "遲重瑞與陳麗華年輕時合影"熱傳 當事女子:張冠李戴

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      浪姐7淘汰 該走的沒走,不該走的走了

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      本地
      房產
      家居
      游戲
      公開課

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      房產要聞

      28條新規落地!好房子,終于有了“廣州標準”!

      家居要聞

      復古風格 自然簡約

      《eFootball》下載量突破10億次 經典大師聯賽回歸

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版