<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Meta億元天團首個大模型交卷!耗時九個月,一雪Llama前恥

      0
      分享至

      再見了,所有的羊駝。

      亞歷山大王帶隊9個月從零重構Meta所有AI技術棧,在不斷的質疑中交出超級智能實驗室第一個模型:

      主打原生多模態的Muse Spark



      模型發布后,Meta股價火速拉升約7%,中間一度漲超近10%,當日整體上漲6%左右。

      市場的反應可謂相當熱烈。

      隨手一扒你就會發現,這款模型背后藏著不少我們熟悉的高手:思維鏈作者Jason Wei、o1核心貢獻者Hyung Won Chung、被小扎天價挖來的余家輝、擴散模型核心人物宋飏……

      嗯?當這群人湊在一起,很明顯你就會找到一個關鍵詞:推理

      沒錯,據Jason Wei爆料,9個月前他們坐在一起討論時,首先寫下的就是一款用于推理的llama模型腳本,而現在,完全體終于誕生。

      而頂尖高手+耗時9個月打磨,Muse Spark也總算讓Meta在第三方測評中趕上第一梯隊,一雪llama 4帶來的前恥。



      而且很有意思的一點是,Meta這次一反常態,沒有反復強調自己拿了多少SOTA,而是稍顯克制地表示:

      Muse Spark在多模態感知、推理、健康和自主任務方面表現不錯,但在編程長時間自主運行方面仍與對家的頂尖模型存在差距。

      咳咳,看來之前llama 4確實給Meta留下了心理陰影(doge)。

      另外,Muse Spark的出生也終于讓長期以來有關“Meta開閉源”的討論蓋棺定論:

      這次是真閉源了

      目前這款模型已上線Meta網站和APP,API僅向部分合作伙伴開放。

      (不過亞歷山大王還是留了個口子,表示“計劃未來開源后續版本”)

      “Meta回來了”

      老規矩,先看一波測評成績。



      作為Meta迄今最強大的模型,Muse Spark這次主要在三個方面表現突出:

      一是多模態理解能力

      不管是看論文圖表還是屏幕,各項得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。

      從網友們的測試來看,它好像尤為擅長圖片轉代碼。



      當然文本能力也不差(doge),在網友的激情測試中,它就火速通過了新版弱智吧風格的洗車測試。

      100米外有個洗車店,我該開車去還是走路去。
      Muse Spark:洗車當然要把車開過去,但沒必要搞得跟上下班通勤似的。

      (當然也不排除是數據污染的問題,畢竟問題出來也挺久了…)



      再一個就是工具調用能力,測評情況也和多模態理解能力類似。

      以及這次Muse Spark著重強調的醫學能力

      由于和1000+醫生展開了合作,它不僅在開放式健康問答HealthBench Hard上拿到42.8的最高分,而且在多模態醫學問答MedXpertQA MM中位居前列。

      不過短板我們開頭也說了,Muse Spark仍在編程和Agent類任務上與其他頂尖選手存在差距。

      可能也是為了盡量彌補這一點,他們這次還專門推出了Contemplating沉思模式

      主要是讓多個Agent同時思考同一個問題,然后匯總結果找出最好的。

      在這套打法下,Muse Spark就能和Gemini Deep Think、 GPT Pro這類極限推理模式展開正面PK了。

      比如在“人類最后的考試”中,Muse Spark明顯壓過一頭(不過在物理奧賽理論題中還是略遜一籌)。

      (目前沉思模式正在Meta網站灰度測試)



      另外值得一提的是,Meta這次無預告直接上線了“購物模式”。

      亞歷山大王表示,模型會結合用戶在ins、Facebook、Threads上關注的創作者和品牌偏好,做個性化的購物推薦。

      好好好,這次也不給你討論的機會了,之前OpenAI可沒少因為廣告挨罵。



      目前,隨著Muse Spark測評一同出爐的,還有第三方機構的測評。

      他們拿到Muse Spark的早期訪問權測了一波,然后給出了一個結論:Meta回來了!

      在關鍵指標人工智能分析指數上,其得分僅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。



      這也和Muse Spark自己給出的測評成績差不多。

      對外界而言,初步來看,Muse Spark確實把Meta重新帶回了人工智能第一梯隊。

      背后訓練細節

      至于Muse Spark是如何做到這一點的,Meta也公布了背后的訓練細節。

      核心其實就是亞歷山大王提到的:9個月重構一切

      新的基礎設施、新的架構、新的數據管道。



      具體可以看網友給大家劃的重點:

      • 在預訓練階段,能夠以比Llama 4 少10倍以上的計算量達到相同的性能水平。
      • 強化學習訓練展現出平滑且可預測的改進,具有良好的泛化能力和可擴展性。
      • Test-time階段,在加入長度懲罰機制后,“思維壓縮”開始生效,模型學會了用更少的token解決問題。



      Meta在博客中介紹,過去9個月,他們對Muse Spark的預訓練技術棧進行了全面升級。

      所有改進的目標,都是為了讓每一分算力都能產生更大的價值。

      為了驗證效果,他們做了一個對比實驗:先用一系列小模型擬合出一條“算力-能力”的Scaling曲線,然后計算要達到某個性能水平具體需要多少算力。

      結果發現,相比Llama 4,Muse Spark達到同樣水平所需要的計算量低了一個數量級以上(10.3倍)。



      預訓練完成后,他們進一步用強化學習來提升模型能力。

      雖然大規模RL訓練通常很不穩定,但他們聲稱自己的新架構做到了“穩中有進”。

      如下圖所示,隨著RL訓練步數增加,模型在訓練數據上的成功率(無論是單次嘗試還是16次中至少成功一次)呈現對數線性增長。

      這說明,RL在提升可靠性的同時,沒有破壞推理的多樣性。

      而且在模型從未見過的任務上,準確率同樣在穩步提升——這說明RL帶來的能力提升是可預測、可泛化的,不是死記硬背。



      以及為了讓模型在回答復雜問題之前先“想一想”,團隊仍用強化學習訓練它具備這種“測試時推理”能力。

      不過需要注意,實踐證明Test-time階段的推理尤為耗費token,所以如何精打細算也是這一階段的重點。

      對此,他們用了兩個關鍵手段來平衡效果與效率:

      一是思考時間懲罰。鼓勵模型用更短的推理路徑得出正確答案,倒逼它學會“思維壓縮”。

      二是多智能體協作。讓多個模型或模塊協同工作,在保證響應速度不降的前提下提升整體表現。

      然后在AIME這類高難度評測集上,他們觀察到了一個有趣的“三階段變化”

      模型一開始會不自覺延長思考,希望通過拉長推理過程來提高正確率。

      但這會馬上觸發“思考時間懲罰”,于是模型被迫精簡推理,學會用更少的token解決問題。

      而在精簡之后,模型還表現出了擴展性能——在高效的基礎上繼續優化解法,最終實現用更少的資源獲得更強的性能表現。



      也不乏翻車的

      不過前面也說了,Muse Spark雖然將Meta帶回了第一梯隊,但在編程、Agent類任務上仍有不足。

      這不,模型剛發布,翻車集錦也來了……

      有人想用它生成網站,結果3個請求一個都沒實現,而且連最基本的前端都無。



      不過后來貼主發現可能是偶然錯誤,模型正常情況下做出來的前端是這樣的。



      一個簡單的編程任務,Muse Spark雖生成了一大堆東西,但根本跑不通。

      在一個Python文件里實現自動微分(autograd)和神經網絡。

      網友甚至調侃,模型根本沒在學,訓練了1800個epoch,損失函數卻一直卡在同一個值上沒動過。

      白白浪費算力了……

      (正常情況下,隨著訓練進行損失應該逐步下降,表明模型在“學習”)



      所以問題來了,有試過的朋友覺得亞歷山大王的首個模型如何?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張雪峰團隊復播,全網淚目!

      張雪峰團隊復播,全網淚目!

      銷售與管理
      2026-04-09 19:45:03
      鄭麗文承諾:2028擊敗賴清德!國防部發聲:解放軍強化反“臺獨”

      鄭麗文承諾:2028擊敗賴清德!國防部發聲:解放軍強化反“臺獨”

      林子說事
      2026-04-09 18:01:35
      穆杰塔巴·哈梅內伊發文

      穆杰塔巴·哈梅內伊發文

      南方都市報
      2026-04-09 23:10:07
      太炸裂了!欠五千房租失聯,房東上門收房,里面放了幾千斤尿液!

      太炸裂了!欠五千房租失聯,房東上門收房,里面放了幾千斤尿液!

      川渝視覺
      2026-04-09 17:01:12
      理想L系列未來產品矩陣公布:含旗艦SUV理想L8/L9

      理想L系列未來產品矩陣公布:含旗艦SUV理想L8/L9

      CNMO科技
      2026-04-10 09:16:04
      美媒稱特朗普要求內塔尼亞胡減少對黎巴嫩的打擊

      美媒稱特朗普要求內塔尼亞胡減少對黎巴嫩的打擊

      新華社
      2026-04-09 23:17:03
      “老舅媽”駱文蓮:嫁頭號粉絲,婚后不下廚,女兒是上海知名主持

      “老舅媽”駱文蓮:嫁頭號粉絲,婚后不下廚,女兒是上海知名主持

      往史過眼云煙
      2026-04-09 22:20:56
      美國華裔科學家李飛飛:若奪下諾貝爾獎,我定以中國人身份領獎!

      美國華裔科學家李飛飛:若奪下諾貝爾獎,我定以中國人身份領獎!

      南宗歷史
      2026-04-07 17:55:41
      不要再盼房價暴跌了!2026年最慘的不是炒房客,而是我們普通人!

      不要再盼房價暴跌了!2026年最慘的不是炒房客,而是我們普通人!

      細說職場
      2026-04-08 11:31:03
      油價大降超16.4%,汽柴油大降670元/噸,下次4月21日調價變下跌中

      油價大降超16.4%,汽柴油大降670元/噸,下次4月21日調價變下跌中

      豬友巴巴
      2026-04-09 14:10:16
      伊朗前外長哈拉齊遭襲去世

      伊朗前外長哈拉齊遭襲去世

      新京報
      2026-04-10 09:11:42
      官宣!4月10日起,歐洲最嚴出入境系統上線,申根簽證的注意了

      官宣!4月10日起,歐洲最嚴出入境系統上線,申根簽證的注意了

      探源歷史
      2026-04-10 09:14:15
      恩愛劇本不演了?奚夢瑤提離婚,何猷君掀桌子私生子傳聞真相大白

      恩愛劇本不演了?奚夢瑤提離婚,何猷君掀桌子私生子傳聞真相大白

      秋姐居
      2026-04-04 22:23:29
      特朗普稱已要求內塔尼亞胡在黎巴嫩行動“更低調”;內塔尼亞胡:解除真主黨武裝前不會停止在黎戰斗,已下令與黎巴嫩開展直接談判

      特朗普稱已要求內塔尼亞胡在黎巴嫩行動“更低調”;內塔尼亞胡:解除真主黨武裝前不會停止在黎戰斗,已下令與黎巴嫩開展直接談判

      魯中晨報
      2026-04-10 09:17:20
      全網恭喜!魯迅長孫周令飛正式上任,職務不一般,浙江人民有福了

      全網恭喜!魯迅長孫周令飛正式上任,職務不一般,浙江人民有福了

      以茶帶書
      2026-04-09 15:09:19
      訪華結束,印度代表團剛回國,不到72小時,莫迪對中國下達禁令

      訪華結束,印度代表團剛回國,不到72小時,莫迪對中國下達禁令

      萬國明信片
      2026-04-10 08:16:15
      百萬粉網紅狗頭蘿莉推出7777元商務套餐, 已經賣出777元老板套餐

      百萬粉網紅狗頭蘿莉推出7777元商務套餐, 已經賣出777元老板套餐

      墜入二次元的海洋
      2026-04-08 05:31:18
      劉小濤省長調研!這位南理工90后在常州干出潛在獨角獸

      劉小濤省長調研!這位南理工90后在常州干出潛在獨角獸

      創客公社-江蘇第一創投媒體
      2026-04-09 20:08:06
      李佳琦“宣布退休”?消失兩個月真相曝光,這波全網都被帶偏了

      李佳琦“宣布退休”?消失兩個月真相曝光,這波全網都被帶偏了

      羅超頻道
      2026-04-09 18:26:13
      美媒曝光內幕:特朗普政府低估伊朗軍事力量,高估美國軍事能力,低估伊朗封鎖海峽的意志和能力……多重誤判疊加,將美國推上戰爭之路

      美媒曝光內幕:特朗普政府低估伊朗軍事力量,高估美國軍事能力,低估伊朗封鎖海峽的意志和能力……多重誤判疊加,將美國推上戰爭之路

      魯中晨報
      2026-04-10 09:17:03
      2026-04-10 10:00:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12448文章數 176449關注度
      往期回顧 全部

      科技要聞

      程序員驚喜,每月100美元!OpenAI推新套餐

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      頭條要聞

      牛彈琴:巴基斯坦被以色列激怒了 這是一個不祥的信號

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      AI短劇"買臉"成風 肖像生意成灰色產業

      汽車要聞

      文飛掌舵,給神行者帶來了什么?

      態度原創

      時尚
      旅游
      本地
      親子
      軍事航空

      越來越流行的松弛感穿搭,照著穿就很好看

      旅游要聞

      “購在張家界”吸引更多入境游客

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      親子要聞

      兒童慢性咳嗽8個常見原因

      軍事要聞

      黎真主黨發射火箭彈 回應以違反停火協議

      無障礙瀏覽 進入關懷版