<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

^{<blockquote id="ogk3u"><i id="ogk3u"></i></blockquote>}

<strong id="ogk3u"><ruby id="ogk3u"></ruby></strong>

<cite id="ogk3u"></cite>

<blockquote id="ogk3u"></blockquote>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Meta億元天團首個大模型交卷！耗時九個月，一雪Llama前恥

2026-04-09 09:48:05　來源: 量子位

北京舉報

0

分享至

再見了，所有的羊駝。

亞歷山大王帶隊9個月從零重構Meta所有AI技術棧，在不斷的質疑中交出超級智能實驗室第一個模型：

主打原生多模態的Muse Spark。

模型發布后，Meta股價火速拉升約7%，中間一度漲超近10%，當日整體上漲6%左右。

市場的反應可謂相當熱烈。

隨手一扒你就會發現，這款模型背后藏著不少我們熟悉的高手：思維鏈作者Jason Wei、o1核心貢獻者Hyung Won Chung、被小扎天價挖來的余家輝、擴散模型核心人物宋飏……

嗯？當這群人湊在一起，很明顯你就會找到一個關鍵詞：推理。

沒錯，據Jason Wei爆料，9個月前他們坐在一起討論時，首先寫下的就是一款用于推理的llama模型腳本，而現在，完全體終于誕生。

而頂尖高手+耗時9個月打磨，Muse Spark也總算讓Meta在第三方測評中趕上第一梯隊，一雪llama 4帶來的前恥。

而且很有意思的一點是，Meta這次一反常態，沒有反復強調自己拿了多少SOTA，而是稍顯克制地表示：

Muse Spark在多模態感知、推理、健康和自主任務方面表現不錯，但在編程和長時間自主運行方面仍與對家的頂尖模型存在差距。

咳咳，看來之前llama 4確實給Meta留下了心理陰影（doge）。

另外，Muse Spark的出生也終于讓長期以來有關“Meta開閉源”的討論蓋棺定論：

這次是真閉源了。

目前這款模型已上線Meta網站和APP，API僅向部分合作伙伴開放。

（不過亞歷山大王還是留了個口子，表示“計劃未來開源后續版本”）

“Meta回來了”

老規矩，先看一波測評成績。

作為Meta迄今最強大的模型，Muse Spark這次主要在三個方面表現突出：

一是多模態理解能力。

不管是看論文圖表還是屏幕，各項得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。

從網友們的測試來看，它好像尤為擅長圖片轉代碼。

當然文本能力也不差（doge），在網友的激情測試中，它就火速通過了新版弱智吧風格的洗車測試。

100米外有個洗車店，我該開車去還是走路去。
Muse Spark：洗車當然要把車開過去，但沒必要搞得跟上下班通勤似的。

（當然也不排除是數據污染的問題，畢竟問題出來也挺久了…）

再一個就是工具調用能力，測評情況也和多模態理解能力類似。

以及這次Muse Spark著重強調的醫學能力。

由于和1000+醫生展開了合作，它不僅在開放式健康問答HealthBench Hard上拿到42.8的最高分，而且在多模態醫學問答MedXpertQA MM中位居前列。

不過短板我們開頭也說了，Muse Spark仍在編程和Agent類任務上與其他頂尖選手存在差距。

可能也是為了盡量彌補這一點，他們這次還專門推出了Contemplating沉思模式。

主要是讓多個Agent同時思考同一個問題，然后匯總結果找出最好的。

在這套打法下，Muse Spark就能和Gemini Deep Think、 GPT Pro這類極限推理模式展開正面PK了。

比如在“人類最后的考試”中，Muse Spark明顯壓過一頭（不過在物理奧賽理論題中還是略遜一籌）。

（目前沉思模式正在Meta網站灰度測試）

另外值得一提的是，Meta這次無預告直接上線了“購物模式”。

亞歷山大王表示，模型會結合用戶在ins、Facebook、Threads上關注的創作者和品牌偏好，做個性化的購物推薦。

好好好，這次也不給你討論的機會了，之前OpenAI可沒少因為廣告挨罵。

目前，隨著Muse Spark測評一同出爐的，還有第三方機構的測評。

他們拿到Muse Spark的早期訪問權測了一波，然后給出了一個結論：Meta回來了！

在關鍵指標人工智能分析指數上，其得分僅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。

這也和Muse Spark自己給出的測評成績差不多。

對外界而言，初步來看，Muse Spark確實把Meta重新帶回了人工智能第一梯隊。

背后訓練細節

至于Muse Spark是如何做到這一點的，Meta也公布了背后的訓練細節。

核心其實就是亞歷山大王提到的：9個月重構一切。

新的基礎設施、新的架構、新的數據管道。

具體可以看網友給大家劃的重點：

在預訓練階段，能夠以比Llama 4 少10倍以上的計算量達到相同的性能水平。
強化學習訓練展現出平滑且可預測的改進，具有良好的泛化能力和可擴展性。
Test-time階段，在加入長度懲罰機制后，“思維壓縮”開始生效，模型學會了用更少的token解決問題。

Meta在博客中介紹，過去9個月，他們對Muse Spark的預訓練技術棧進行了全面升級。

所有改進的目標，都是為了讓每一分算力都能產生更大的價值。

為了驗證效果，他們做了一個對比實驗：先用一系列小模型擬合出一條“算力-能力”的Scaling曲線，然后計算要達到某個性能水平具體需要多少算力。

結果發現，相比Llama 4，Muse Spark達到同樣水平所需要的計算量低了一個數量級以上（10.3倍）。

預訓練完成后，他們進一步用強化學習來提升模型能力。

雖然大規模RL訓練通常很不穩定，但他們聲稱自己的新架構做到了“穩中有進”。

如下圖所示，隨著RL訓練步數增加，模型在訓練數據上的成功率（無論是單次嘗試還是16次中至少成功一次）呈現對數線性增長。

這說明，RL在提升可靠性的同時，沒有破壞推理的多樣性。

而且在模型從未見過的任務上，準確率同樣在穩步提升——這說明RL帶來的能力提升是可預測、可泛化的，不是死記硬背。

以及為了讓模型在回答復雜問題之前先“想一想”，團隊仍用強化學習訓練它具備這種“測試時推理”能力。

不過需要注意，實踐證明Test-time階段的推理尤為耗費token，所以如何精打細算也是這一階段的重點。

對此，他們用了兩個關鍵手段來平衡效果與效率：

一是思考時間懲罰。鼓勵模型用更短的推理路徑得出正確答案，倒逼它學會“思維壓縮”。

二是多智能體協作。讓多個模型或模塊協同工作，在保證響應速度不降的前提下提升整體表現。

然后在AIME這類高難度評測集上，他們觀察到了一個有趣的“三階段變化”：

模型一開始會不自覺延長思考，希望通過拉長推理過程來提高正確率。

但這會馬上觸發“思考時間懲罰”，于是模型被迫精簡推理，學會用更少的token解決問題。

而在精簡之后，模型還表現出了擴展性能——在高效的基礎上繼續優化解法，最終實現用更少的資源獲得更強的性能表現。

也不乏翻車的

不過前面也說了，Muse Spark雖然將Meta帶回了第一梯隊，但在編程、Agent類任務上仍有不足。

這不，模型剛發布，翻車集錦也來了……

有人想用它生成網站，結果3個請求一個都沒實現，而且連最基本的前端都無。

不過后來貼主發現可能是偶然錯誤，模型正常情況下做出來的前端是這樣的。

一個簡單的編程任務，Muse Spark雖生成了一大堆東西，但根本跑不通。

在一個Python文件里實現自動微分（autograd）和神經網絡。

網友甚至調侃，模型根本沒在學，訓練了1800個epoch，損失函數卻一直卡在同一個值上沒動過。

白白浪費算力了……

（正常情況下，隨著訓練進行損失應該逐步下降，表明模型在“學習”）

所以問題來了，有試過的朋友覺得亞歷山大王的首個模型如何？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Meta重組AI團隊后首個模型來了：不是最強、不再開源、可能夠用

DeepTech深科技 2026-04-09 10:19:10
0 跟貼 0
我用Meta“華人天團”打造的新模型，一張圖復刻了一個“豆包App”

智東西 2026-04-09 15:28:20
0 跟貼 0

狂攬4萬星！換掉OpenClaw太爽了，5美元就能養個AI打工人

新智元 2026-04-09 19:19:45
925 跟貼 925

大模型實現“8小時工作制” ！智譜GLM-5.1大幅提升長程任務能力

財聯社 2026-04-10 09:39:08
0 跟貼 0
Sakana AI造了個數字生命「培養皿」，AI學會打架、結盟、搶地盤

機器之心Pro 2025-11-05 13:58:14
0 跟貼 0

對話鹿明機器人：在具身智能的“數據荒”里，做一個送水人｜AI Founder 請回答

鈦媒體APP 2026-01-11 12:48:38
0 跟貼 0

Meta發新模型Muse Spark，被DeepSeek、千問逼急了？

雷科技 2026-04-09 20:19:50
1 跟貼 1
北大團隊提出 SHINE：任意文本轉化大模型 LoRA，僅一次前向傳播

機器之心Pro 2026-03-23 15:46:38
0 跟貼 0

「敢不敢」勝過「能不能」，萬字解析可靈 AI 的「非典型」突圍路

鈦媒體APP 2026-04-09 19:29:35
0 跟貼 0
CVPR 2026｜1分鐘單圖變4D視頻！AI看圖直接腦補物理規律

機器之心Pro 2026-04-08 12:04:29
0 跟貼 0
一文速通「機器人3D場景表示」發展史

機器之心Pro 2026-01-23 13:01:05
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
「同事.Skill」出圈，打工的盡頭是被蒸餾？

鈦媒體APP 2026-04-09 18:13:16
1 跟貼 1
豆包AI手機究竟是人工智能還是人工智障？

每日經濟新聞 2026-01-13 22:08:29
0 跟貼 0
AI「做號黨」驚動微信！官方出手封殺，人類編輯不怕失業了？

雷科技 2026-04-09 19:33:41
0 跟貼 0
DeepSeek“落子”200萬人小城，梁文鋒“看上”烏蘭察布？

華爾街見聞官方 2026-04-10 09:31:04
0 跟貼 0
退休金1萬2吃榴蓮被女兒質問，你配嗎？給她斷供后他們一家傻眼了

雪姐故事多 2026-04-08 09:08:16
0 跟貼 0
牛彈琴：巴基斯坦被以色列激怒了這是一個不祥的信號

現代快報 2026-04-10 08:34:10
4026 跟貼 4026
美軍拯救2名F15飛行員全過程曝光！這次特朗普沒有吹牛

知識圈 2026-04-07 14:35:09
13162 跟貼 13162
MiniMax發布MMX-CLI，兩行代碼安裝調用，“龍蝦”多模態能力大漲

智東西 2026-04-09 15:44:48
2 跟貼 2
這理解能力真奇葩！

打小不講李 2026-04-09 14:39:35
0 跟貼 0
鄭麗文聽到臺灣小伙娶了上海姑娘，笑得合不攏嘴

喜文多見01 2026-04-09 11:18:23
66 跟貼 66
動畫詳解：瘋狂的 F-15 救援任務

不一定有用的頻道 2026-04-08 07:57:38
6553 跟貼 6553
鄭麗文在洋山港區被記者包圍近1米8的身高"鶴立雞群"

全球速覽 2026-04-09 10:46:54
31 跟貼 31
涉霍爾木茲海峽馬來西亞和新加坡吵了起來

澎湃新聞 2026-04-10 08:05:06
2472 跟貼 2472
爬山遇到拾荒美女，簡直就是最美的巡山“清道夫”

美女歡樂多 2026-04-07 18:01:00
0 跟貼 0
FysicsWorld：填補全模態交互與物理感知評測的空白

機器之心Pro 2025-12-29 14:38:56
0 跟貼 0
你這人這樣理解能力

甜崽妹妹 2026-04-08 20:02:31
0 跟貼 0
星巴克中國“易主”，“新東家”亮相：將開更多新店！星巴克全球CFO：中國將繼續是我們全球業務中非常重要的一部分

每日經濟新聞 2026-04-09 14:19:51
9059 跟貼 9059
僅憑一個細節就能破案，這推理能力太絕了，真相背后大有文章

尚悅電影 2026-04-09 11:00:40
1 跟貼 1
5個衰老的“指標”！如果一個沒有，說明你還很年輕！

阿爾米修斯 2026-04-09 05:07:05
0 跟貼 0
鄭麗文前往浙江參訪男保鏢抿嘴警惕女保鏢緊盯接待方

全球速覽 2026-04-09 10:02:03
29 跟貼 29
姐姐讓妹妹去買蘋果，說完價格姐姐直接驚住，這理解能力絕了！

小飛熊愛搞笑 2026-04-07 13:29:26
2 跟貼 2
Meta面了127人后，發現數據工程師最缺的不是SQL

字節漫游指南 2026-04-10 08:56:22
0 跟貼 0
鄭麗文一行參觀上海洋山港接待人員神情輕松聊天

全球速覽 2026-04-09 10:12:35
8 跟貼 8
賣餅30年，杭州菜市場55歲“蛋餅姐”突然爆火！網友：賈樟柯一輩子都想拍出的鏡頭

環球網資訊 2026-04-09 17:53:15
2198 跟貼 2198
伊朗無人機航拍美軍被炸運輸機殘骸燒得一片漆黑

軍情透視 2026-04-05 18:30:31
472 跟貼 472
軍安精密：智能柔性夾具自適應各種異形曲面一套柔性夾具全搞定

大喵軍安柔性夾持 2026-04-09 11:38:52
4 跟貼 4
全程燒腦！這部高分推理韓綜值得一看！

韓影推薦MC 2026-04-08 12:55:13
1 跟貼 1
鄭麗文發現被拍放緩腳步還朝網友比了個"OK"手勢

全球速覽 2026-04-09 11:38:43
0 跟貼 0

張雪峰團隊復播，全網淚目！

銷售與管理

2026-04-09 19:45:03

鄭麗文承諾：2028擊敗賴清德！國防部發聲：解放軍強化反“臺獨”

鄭麗文承諾：2028擊敗賴清德！國防部發聲：解放軍強化反“臺獨”

林子說事

2026-04-09 18:01:35

穆杰塔巴·哈梅內伊發文

南方都市報

2026-04-09 23:10:07

太炸裂了！欠五千房租失聯，房東上門收房，里面放了幾千斤尿液！

太炸裂了！欠五千房租失聯，房東上門收房，里面放了幾千斤尿液！

川渝視覺

2026-04-09 17:01:12

理想L系列未來產品矩陣公布：含旗艦SUV理想L8/L9

理想L系列未來產品矩陣公布：含旗艦SUV理想L8/L9

CNMO科技

2026-04-10 09:16:04

美媒稱特朗普要求內塔尼亞胡減少對黎巴嫩的打擊

美媒稱特朗普要求內塔尼亞胡減少對黎巴嫩的打擊

新華社

2026-04-09 23:17:03

“老舅媽”駱文蓮：嫁頭號粉絲，婚后不下廚，女兒是上海知名主持

“老舅媽”駱文蓮：嫁頭號粉絲，婚后不下廚，女兒是上海知名主持

往史過眼云煙

2026-04-09 22:20:56

美國華裔科學家李飛飛：若奪下諾貝爾獎，我定以中國人身份領獎！

美國華裔科學家李飛飛：若奪下諾貝爾獎，我定以中國人身份領獎！

南宗歷史

2026-04-07 17:55:41

不要再盼房價暴跌了！2026年最慘的不是炒房客，而是我們普通人！

不要再盼房價暴跌了！2026年最慘的不是炒房客，而是我們普通人！

細說職場

2026-04-08 11:31:03

油價大降超16.4%，汽柴油大降670元/噸，下次4月21日調價變下跌中

油價大降超16.4%，汽柴油大降670元/噸，下次4月21日調價變下跌中

豬友巴巴

2026-04-09 14:10:16

伊朗前外長哈拉齊遭襲去世

新京報

2026-04-10 09:11:42

官宣！4月10日起，歐洲最嚴出入境系統上線，申根簽證的注意了

官宣！4月10日起，歐洲最嚴出入境系統上線，申根簽證的注意了

探源歷史

2026-04-10 09:14:15

恩愛劇本不演了？奚夢瑤提離婚，何猷君掀桌子私生子傳聞真相大白

恩愛劇本不演了？奚夢瑤提離婚，何猷君掀桌子私生子傳聞真相大白

秋姐居

2026-04-04 22:23:29

特朗普稱已要求內塔尼亞胡在黎巴嫩行動“更低調”；內塔尼亞胡：解除真主黨武裝前不會停止在黎戰斗，已下令與黎巴嫩開展直接談判

特朗普稱已要求內塔尼亞胡在黎巴嫩行動“更低調”；內塔尼亞胡：解除真主黨武裝前不會停止在黎戰斗，已下令與黎巴嫩開展直接談判

魯中晨報

2026-04-10 09:17:20

全網恭喜！魯迅長孫周令飛正式上任，職務不一般，浙江人民有福了

全網恭喜！魯迅長孫周令飛正式上任，職務不一般，浙江人民有福了

以茶帶書

2026-04-09 15:09:19

訪華結束，印度代表團剛回國，不到72小時，莫迪對中國下達禁令

訪華結束，印度代表團剛回國，不到72小時，莫迪對中國下達禁令

萬國明信片

2026-04-10 08:16:15

百萬粉網紅狗頭蘿莉推出7777元商務套餐，已經賣出777元老板套餐

百萬粉網紅狗頭蘿莉推出7777元商務套餐，已經賣出777元老板套餐

墜入二次元的海洋

2026-04-08 05:31:18

劉小濤省長調研！這位南理工90后在常州干出潛在獨角獸

劉小濤省長調研！這位南理工90后在常州干出潛在獨角獸

創客公社-江蘇第一創投媒體

2026-04-09 20:08:06

李佳琦“宣布退休”？消失兩個月真相曝光，這波全網都被帶偏了

李佳琦“宣布退休”？消失兩個月真相曝光，這波全網都被帶偏了

羅超頻道

2026-04-09 18:26:13

美媒曝光內幕：特朗普政府低估伊朗軍事力量，高估美國軍事能力，低估伊朗封鎖海峽的意志和能力……多重誤判疊加，將美國推上戰爭之路

美媒曝光內幕：特朗普政府低估伊朗軍事力量，高估美國軍事能力，低估伊朗封鎖海峽的意志和能力……多重誤判疊加，將美國推上戰爭之路

魯中晨報

2026-04-10 09:17:03

追蹤人工智能動態

12448文章數 176449關注度

往期回顧全部

科技要聞

程序員驚喜，每月100美元！OpenAI推新套餐

頭條要聞

牛彈琴：巴基斯坦被以色列激怒了這是一個不祥的信號

頭條要聞

牛彈琴：巴基斯坦被以色列激怒了這是一個不祥的信號

體育要聞

8萬人面前心臟驟停現在他還站在球場上

娛樂要聞

金莎官宣結婚與老公孫丞瀟相差18歲

財經要聞

AI短劇"買臉"成風肖像生意成灰色產業

汽車要聞

文飛掌舵，給神行者帶來了什么？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

旅游

本地

親子

軍事航空

越來越流行的松弛感穿搭，照著穿就很好看

旅游要聞

“購在張家界”吸引更多入境游客

本地新聞

12噸巧克力有難，全網化身超級偵探添亂

親子要聞

兒童慢性咳嗽8個常見原因

軍事要聞

黎真主黨發射火箭彈回應以違反停火協議

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<em id="rxi38"></em>

<cite id="rxi38"><track id="rxi38"></track></cite>

<em id="rxi38"><rt id="rxi38"></rt></em>

^{<blockquote id="rxi38"></blockquote>}