<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,小扎砸143億的「牛油果」來了!硬剛GPT-5.4,硅谷最貴華人首作

      0
      分享至


      新智元報道

      編輯:好困 桃子

      【新智元導讀】太猛了!Meta超級智能實驗室沉寂9個月,首個大作Muse Spark深夜炸場。跑分直接從18飆到52,盤中暴漲10%,小扎這143億美元花得太值了。

      毫無預警!時隔一年,小扎終于殺回來了!

      就在剛剛,Meta超級智能實驗室(MSL)的第一個作品,上線了——

      Muse Spark,代號Avocado,就是傳聞中的那個「牛油果」。

      它是真正的「全能六邊形戰士」:原生多模態感知、工具調用、視覺思維鏈、多Agent編排,全點滿。


      先說最炸的一個數字。

      在Artificial Analysis的測試中,Muse Spark拿下了高達52分的戰績,僅次于Gemini 3.1 Pro、GPT-5.4和Opus 4.6。

      相比之下,去年的Llama 4 Maverick只有區區18分


      18到52,一步跨完,Meta盤中直接一度暴漲近10%


      Meta首席AI官Alexandr Wang激動得在X上連發九條推文。

      九個月前我們從零重建了整個AI技術棧,新基礎設施、新架構、新數據管線。Muse Spark就是這些工作的成果。


      MSL團隊的華人研究員也集體刷屏,這些人去年從OpenAI、DeepMind跳槽到一個剛組建的實驗室,賭的就是今天。

      MSL首席科學家Shengjia Zhao說得很直白,「我們重構了整個技術棧來支撐Scaling,這才剛剛開始」。





      值得一提的是,Muse Spark還上線了對標Gemini Deep Think和GPT Pro的「沉思模式」(Contemplating),多個Agent并行思考、協同作答。


      只需輸入「幫我規劃一個5口之家去佛羅里達的7天文化美食行程,3個孩子分別12、9、7歲」,Muse Spark就會同時派出三個子Agent,一個規劃美食文化路線,一個搜索親子活動,一個協調物流和住宿

      目前,模型已在meta.ai和Meta AI App上線,API預覽版向部分用戶開放。

      功能先在美國鋪開,未來幾周接入Facebook、Instagram和WhatsApp。

      免費用,不限量,但閉源。

      接下來,劃重點:

      ·Artificial Analysis得分52,Llama 4 Maverick只有18

      ·原生多模態 + 視覺思維鏈,視覺賽道僅次于Gemini 3.1 Pro

      ·「沉思模式」多Agent并行思考,HLE拿下58%

      ·預訓練算力需求砍到Llama 4的1/10

      ·1000+臨床醫生參與訓練,健康問答吊打全場

      ·思維會自己壓縮,Token消耗僅Opus的1/3

      ·Apollo Research發現它能感知自己在被安全測試

      跑分追上第一梯隊,但寫代碼還差口氣

      先看硬數據。

      Meta把Muse Spark(Thinking模式)和Opus 4.6、Gemini 3.1 Pro、GPT 5.4、Grok 4.2放在一起比了個遍,覆蓋多模態、文本思考、健康、Agent四個維度,總共20多個benchmark。


      Reddit網友重新標注的跑分

      多模態是Muse Spark最亮眼的部分。

      CharXiv理解86.4,超過GPT 5.4的82.8和Gemini 3.1 Pro的80.2。

      ScreenSpot Pro截圖定位84.1,比Opus 4.6的83.1略高。

      ZeroBench多步視覺33.0,Gemini 3.1 Pro是29.0。


      文本賽道上,互有勝負。

      GPQA Diamond博士級難題89.5,Opus 4.6拿了92.7,Gemini 3.1 Pro是94.3。

      ARC AGI 2抽象思維42.5,被Opus 4.6的63.3和Gemini的76.5甩開了一大截。

      LiveCodeBench Pro競賽編程80.0,Gemini 82.9,GPT 5.4拿了87.5。

      Meta自己也承認了,在代碼和長時間Agent任務上,Muse Spark和最強模型還有差距。


      不過,令全網震撼的是,Muse Spark可以直接將圖片轉化成代碼,效果非常驚艷!


      但是醫療健康這個賽道,Muse Spark打得很兇。

      HealthBench Hard開放式健康問答42.8,Gemini 3.1 Pro只有20.6,GPT 5.4是40.1。

      MedXpertQA多模態醫學78.4,也領先Gemini的81.3不遠(這里Gemini略高),但遠超Opus 4.6的64.8。

      Meta在訓練階段和1000多名臨床醫生合作的數據清洗和篩選,確實帶來了實打實的效果。


      Agent賽道同樣值得關注。

      DeepSearchQA搜索Agent拿了74.8,是五家中最高的。

      τ2-Bench工具使用91.5,和GPT 5.4并列。

      GDPval-AA Elo辦公Agent達到1444,超過了Gemini的1320但低于Opus 4.6的1606。

      SWE-Bench方面差距明顯,Verified 77.4 vs Opus 80.8 vs GPT 82.9(據稱78.2),Pro 52.4 vs GPT 57.7。


      一句話總結跑分,多模態和健康打贏了,思考持平,代碼和Agent差一口氣。


      Alexandr Wang:Llama 4的錯誤不會再犯,牛油果沒有刷分

      Artificial Analysis的獨立測試還揭示了一個重要細節,Token效率。

      跑完整個Intelligence Index測試套件,Muse Spark用了5800萬輸出Token,和Gemini 3.1 Pro(5700萬)相當,但遠低于Opus 4.6(1.57億)和GPT-5.4(1.2億)。

      同樣的智力水平,消耗的Token少了一半到三分之二。


      此外,在由數學大佬出題的FrontierMath上, Muse Spark在1-3層級上,直接碾壓Gemini 3.1 Pro,不過在4層級卻排在了倒數。


      更值得一提的是,在Vals指數排行榜上,Muse Spark強勢奪得第三名,具體指標如下。

      繼Llama 4發布一年之后,Meta再次重返AGI第一梯隊。


      多Agent并行思考

      58%拿下「人類最后一場考試」

      「沉思模式」是Muse Spark的殺手锏。

      傳統思考模式是一個Agent花更長時間想,沉思模式是多個Agent同時想,最后匯總答案。


      Humanity's Last Exam(無工具),Muse Spark沉思模式拿了50.2,Gemini Deep Think 48.4,GPT 5.4 Pro 43.9。

      Humanity's Last Exam(有工具),58.4,Gemini 53.4,GPT 5.4 Pro 58.7,幾乎打平。

      FrontierScience Research科學前沿研究38.3,Gemini Deep Think只有23.3,GPT 5.4 Pro是36.7。

      不過物理奧賽IPhO 2025理論題,Muse Spark沉思模式82.6,GPT 5.4 Pro拿了93.5,差距不小。

      整體看,沉思模式讓Muse Spark在最難的綜合思考任務上,確實摸到了第一梯隊的門檻。

      劍指「個人超級智能」

      拍張照就能當私人營養師

      Meta給Muse Spark定義的方向很明確,就是個人超級智能。

      翻譯成人話,就是一個懂你、懂你周圍世界的AI助手。

      多模態方面,Muse Spark從底層就為跨領域整合視覺信息而設計。

      官方演示了幾個場景。

      拍一張數獨照片,Muse Spark能把它變成一個可以在網頁上玩的互動游戲。


      拍咖啡機和磨豆機,它先標出所有核心部件,然后生成一份網頁版互動拿鐵教程。

      鼠標懸停到某個步驟時,照片中對應部件的邊界框自動高亮,視覺指引和操作步驟一一對應。


      健康場景更有想象空間。

      拍一桌子食物,告訴它「我膽固醇偏高,是魚素者」,Muse Spark會在推薦的食物上打綠點,不建議的打紅點。

      Prompt的控制粒度很細,直接把UI交互邏輯講清楚了。

      健康評分的數字不用懸停就直接顯示在點的正上方,懸停后彈出詳細的卡路里、碳水、蛋白質和脂肪數據,而且彈出框的層級被要求「永遠在最上層,不能被其他點擋住」。


      拍瑜伽動作也是同樣的思路。

      它識別出每個姿勢拉伸了哪些肌肉群,標注難度級別,懸停后還能給出體態糾正建議。兩個人的圖左右拼在一起,按1到10分分別打分。


      這些demo背后的底層支撐是視覺STEM問答、實體識別和目標定位的組合。

      單項看都不稀奇,但串聯成場景后,確實能看到「個人超級智能」這個詞背后的產品意圖。

      還有一個新功能值得單獨拎出來說,「購物模式」。


      Wang在推文中說,購物模式能「識別你在Instagram、Facebook和Threads上關注的創作者、品牌和風格內容,轉化成個性化推薦」。


      這是Meta獨有的數據優勢,30億日活用戶的社交行為數據 + AI購物助手,商業化想象空間很大。

      三條Scaling曲線

      算力砍90%,思維還會自我壓縮

      技術博客的重頭戲不在跑分,在Scaling。

      Meta把Muse Spark的表現來源拆成三條軸線講,預訓練、強化學習、測試時計算。每一條都有對應的縮放曲線做支撐。

      預訓練:同樣的能力,算力砍到1/10

      過去九個月,Meta對預訓練技術棧做了大換血,架構、優化算法、數據策略全部重做。

      為了衡量效果,Meta在一系列小尺寸版本上擬合了Scaling Law,然后對比達到同一個性能水平需要多少訓練FLOPs。

      結論很硬,同樣的能力水平,Muse Spark需要的算力不到Llama 4 Maverick的十分之一。

      這條曲線說明了一件事,Meta不只是砸更多GPU,而是從底層提升了每一單位算力的產出。


      華盛頓大學的Yuchen Jin在X上的評價很到位,「我仍然認為基礎設施才是AI實驗室的真正護城河。因為你能更快地訓練,研究員就能更快地實驗更多想法。」


      強化學習:對數線性增長,泛化到沒見過的題

      大規模RL出了名的不穩定,但Meta說,新技術棧的RL曲線異常平滑。

      左圖是訓練集上的表現。pass@1和pass@16(16次嘗試中至少對1次)都呈對數線性增長。

      這說明RL在提升可靠性的同時,沒有折損解題多樣性,Muse Spark沒有「一條路走到黑」,它還保持著探索不同解法的靈活性。

      右圖更重要,是留出評估集上的準確率。

      曲線同樣穩步上升,說明RL帶來的進步不是死記硬背,而是能泛化到從沒見過的新題。


      測試時推理:思維先膨脹、再壓縮、再膨脹

      這是全文技術含量最高、也最有意思的部分。

      RL教會了Muse Spark在回答前先「在腦子里推演一遍」,這就是測試時推理。

      但問題是,給幾十億用戶提供這種服務,Token成本扛不住。


      Meta的解法分兩步。

      第一步,在RL訓練中加入「思考時間懲罰」。你可以想更久,但想太久會被扣分。

      這個約束引發了一個有意思的「相變」現象。

      AIME子集上的表現是這樣的,訓練早期,Muse Spark通過想更久來提升正確率,曲線向右延伸。

      然后,長度懲罰觸發了「思維壓縮」。Muse Spark學會了用少得多的Token把同一道題解出來,曲線向左折返。

      壓縮完成之后,它又一次拉長了解題過程,去挑戰更難的題。

      整條軌跡畫出來,是一個先右拐、再左拐、再右拐的三段式進化路徑。

      第二步是解決延遲問題。


      單個Agent想得更久,延遲線性增加。

      Meta的做法是擴展并行Agent數量,1個、2個、4個、16個Agent同時思考。

      從圖上看,16個Agent在相近的延遲水平下,準確率從約54%跳到約58%。

      傳統的測試時Scaling是拿時間換質量,多Agent Scaling是拿并行度換質量,延遲幾乎不變。

      硅谷「最貴華人」團隊

      交了第一份卷子

      Muse Spark的背后,是扎克伯格去年對Meta AI體系的一次徹底重構。

      2025年6月,Meta以143億美元收購Scale AI 49%股權,將其創始人Alexandr Wang挖來擔任Meta首任首席AI官,組建Meta超級智能實驗室(MSL)。

      同期加入的還有前GitHub CEO Nat Friedman(聯合負責產品和應用研究)、SSI聯合創始人Daniel Gross,以及從OpenAI、DeepMind、Anthropic挖來的11名研究員。


      如今,Muse Spark的發布證明了一件事,Meta超級智能實驗室九個月的重構是有產出的。

      預訓練效率翻了一個數量級,RL擴展曲線平滑可預測,多模態和醫療賽道摸到了第一梯隊。

      但代碼和Agent的差距擺在那里,沉思模式還沒全面開放,開源時間表也還是一個「希望」。

      更現實的壓力是,同一周Anthropic發布了據稱「太強而不能公開」的Mythos,OpenAI代號Spud的新作也在路上。

      143億買來了一張入場券。接下來的考試,才是真正的。

      參考資料:

      https://ai.meta.com/blog/introducing-muse-spark-msl/

      https://ai.meta.com/blog/scaling-how-we-build-test-advanced-ai/

      https://ai.meta.com/static-resource/muse-spark-eval-methodology

      https://x.com/alexandr_wang/status/2041909376508985381

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美伊戰火打醒中東土豪!伊朗導彈一炸,阿聯酋連夜拔管法國大飛機

      美伊戰火打醒中東土豪!伊朗導彈一炸,阿聯酋連夜拔管法國大飛機

      青青子衿
      2026-04-10 20:26:18
      突發!FCC擬禁止中國三大運營商!中方回應

      突發!FCC擬禁止中國三大運營商!中方回應

      EETOP半導體社區
      2026-04-10 08:36:04
      全紅嬋后續:四人已被帶走,全網追問群主,陳芋汐確認在群里!

      全紅嬋后續:四人已被帶走,全網追問群主,陳芋汐確認在群里!

      眼光很亮
      2026-04-10 13:53:56
      全紅嬋后續:陳若琳被曝光,更多細節浮現,隊友開始慌亂,求放過

      全紅嬋后續:陳若琳被曝光,更多細節浮現,隊友開始慌亂,求放過

      眼光很亮
      2026-04-10 14:04:08
      退圈女星自曝,被注射不明物質,不聽話就頭疼,秦嵐也被牽連其中

      退圈女星自曝,被注射不明物質,不聽話就頭疼,秦嵐也被牽連其中

      阿纂看事
      2026-04-10 14:27:16
      鄭麗文在北京新造型!穿藍紫色西服彰顯貴氣,還雙手背后很有氣勢

      鄭麗文在北京新造型!穿藍紫色西服彰顯貴氣,還雙手背后很有氣勢

      八八尚語
      2026-04-10 12:58:23
      大快人心!網暴全紅嬋之人落網 警方:系31歲徐姓男子 行拘10日

      大快人心!網暴全紅嬋之人落網 警方:系31歲徐姓男子 行拘10日

      念洲
      2026-04-10 19:31:28
      巴基斯坦狠批以色列,并部署空軍進入伊朗

      巴基斯坦狠批以色列,并部署空軍進入伊朗

      世家寶
      2026-04-10 13:49:33
      王毅訪朝第2天!高市不裝了,降級中日關系,中方的回應不簡單

      王毅訪朝第2天!高市不裝了,降級中日關系,中方的回應不簡單

      共工之錨
      2026-04-10 19:28:56
      市值蒸發9.65億!8人小公司掏空上市巨頭,內鬼毀掉床墊巨頭

      市值蒸發9.65億!8人小公司掏空上市巨頭,內鬼毀掉床墊巨頭

      毒sir財經
      2026-04-10 16:26:57
      印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

      印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

      離離言幾許
      2026-04-10 14:51:25
      看笑了!大連國腳與浙江外援沖突后捂著嘴交流,都怕因罵人被處罰

      看笑了!大連國腳與浙江外援沖突后捂著嘴交流,都怕因罵人被處罰

      我愛英超
      2026-04-10 22:30:45
      山西一局長在辦公室突發疾病不幸去世,單位正申報因公殉職,生前曾獲省五一勞動獎章

      山西一局長在辦公室突發疾病不幸去世,單位正申報因公殉職,生前曾獲省五一勞動獎章

      大風新聞
      2026-04-10 11:26:15
      為什么現在的美女都長一個樣?因為她們整容用的都是同一套醫美模版

      為什么現在的美女都長一個樣?因為她們整容用的都是同一套醫美模版

      三言四拍
      2026-04-10 08:36:03
      62歲退休大爺:人老了出軌雖然很有激情,但最終下場很慘

      62歲退休大爺:人老了出軌雖然很有激情,但最終下場很慘

      熱心柚子姐姐
      2026-04-09 16:04:48
      42萬開賣蔚來ES9,廣告法今晚都對李斌失效了

      42萬開賣蔚來ES9,廣告法今晚都對李斌失效了

      智能車參考
      2026-04-10 11:49:19
      【微特稿】美媒曝光多起疑似涉伊朗戰事“內幕交易”

      【微特稿】美媒曝光多起疑似涉伊朗戰事“內幕交易”

      新華社
      2026-04-10 15:25:30
      觀察|脆弱休戰下的美以伊三方:“嘴炮”不停,備戰不止

      觀察|脆弱休戰下的美以伊三方:“嘴炮”不停,備戰不止

      澎湃新聞
      2026-04-10 13:10:26
      又打起來了!美國大使館遇襲,以色列本土被炸,巴基斯坦要發威了

      又打起來了!美國大使館遇襲,以色列本土被炸,巴基斯坦要發威了

      策略述
      2026-04-10 16:23:16
      全紅嬋群內被罵果斷報警!周繼紅霸氣護犢:管你是誰依法辦!

      全紅嬋群內被罵果斷報警!周繼紅霸氣護犢:管你是誰依法辦!

      不似少年游
      2026-04-09 17:13:43
      2026-04-11 00:52:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14941文章數 66763關注度
      往期回顧 全部

      科技要聞

      馬斯克狂發大火箭也養不起AI 年虧50億美元

      頭條要聞

      73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

      頭條要聞

      73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達成共識

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      黃景瑜王玉雯否認戀情!聚會細節被扒

      財經要聞

      李強主持召開經濟形勢專家和企業家座談會

      汽車要聞

      搭載第二代刀片電池及閃充技術 騰勢N8L閃充版預售35萬起

      態度原創

      房產
      健康
      親子
      游戲
      藝術

      房產要聞

      28條新規落地!好房子,終于有了“廣州標準”!

      干細胞抗衰4大誤區,90%的人都中招

      親子要聞

      武漢兒童配眼鏡推薦,別再一著急就買,家長先把這5件事弄明白

      《霍格沃茨之遺2》傳聞2027年發售!今年有望首曝

      藝術要聞

      深圳頂級海景地段,為啥留下一排“幽靈別墅群”?真相成謎!

      無障礙瀏覽 進入關懷版