<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      一堆天才,燒光140億美元,給Meta做“閉源模型”,馬斯克Grok被打爆

      0
      分享至


      文丨蘇揚(yáng)

      編輯丨徐青陽

      繼Llama 4曝出基準(zhǔn)刷榜丑聞、旗艦?zāi)P虰ehemoth項(xiàng)目擱置等問題之后,扎克伯格決定徹底推倒重來。

      他曾砸下140億美元挖人,親自在帕洛阿爾托和太浩湖的豪宅里宴請(qǐng)頂級(jí)研究員,最終將前Scale AI首席執(zhí)行官汪韜(Alexandr Wang)延攬麾下,主持成立Meta超級(jí)智能實(shí)驗(yàn)室(Meta Superintelligence Labs),并用九個(gè)月時(shí)間將整個(gè)AI技術(shù)棧從頭重建。

      美國當(dāng)?shù)貢r(shí)間4月8日,這場(chǎng)豪賭的第一張答卷正式亮相:Muse Spark。

      這是Meta首款閉源大模型,告別了過去全面開源的路線,將直接為Meta AI助手提供支持,并以API私測(cè)形式向少數(shù)合作伙伴開放。

      根據(jù)Meta內(nèi)部基準(zhǔn)測(cè)試,Muse Spark在多項(xiàng)指標(biāo)上超越了谷歌Gemini,與OpenAI和Anthropic的同級(jí)模型互有勝負(fù),并在大多數(shù)測(cè)試中大幅領(lǐng)先于xAI的Grok。消息公布后,Meta股價(jià)當(dāng)日大漲6.5%,市值達(dá)到1.55萬億美元。


      扎克伯格在Threads上寫道:“我們計(jì)劃持續(xù)發(fā)布更先進(jìn)的模型,推動(dòng)智能與能力的邊界,包括新的開源模型。”這句話與他今年1月財(cái)報(bào)電話會(huì)議上的表態(tài)如出一轍。他早早管理了外界預(yù)期:“我預(yù)計(jì)我們的第一批模型會(huì)很好,但更重要的是,它將展示我們所處的快速發(fā)展軌跡。”

      01領(lǐng)跑多模態(tài)和前沿科學(xué)基準(zhǔn)測(cè)試


      成績(jī)單是檢驗(yàn)重建成果最直接的標(biāo)尺。

      Meta提供的基準(zhǔn)測(cè)試圖呈現(xiàn)了一份復(fù)雜的成績(jī)單:有亮點(diǎn),也有短板,這或許才是一款“起步款”模型最真實(shí)的面貌。

      在多模態(tài)理解方面,Muse Spark表現(xiàn)突出。圖表理解測(cè)試CharXiv Reasoning中得分86.4,領(lǐng)先Opus 4.6(65.3)和Grok 4.2(60.9),也高于GPT 5.4(82.8),僅略低于Gemini 3.1 Pro(80.2,但該項(xiàng)Muse Spark實(shí)為更高)。

      具身推理ERQA測(cè)試中得分64.7,同樣優(yōu)于Opus 4.6的51.6。健康領(lǐng)域是Muse Spark的另一個(gè)顯著優(yōu)勢(shì):開放式健康問答HealthBench Hard中得分42.8,遠(yuǎn)超Opus 4.6的14.8、Gemini 3.1 Pro的20.6和Grok 4.2的20.3,是幾家競(jìng)爭(zhēng)對(duì)手中的最高分。


      深思模式(Contemplating)的表現(xiàn)同樣值得關(guān)注。在“人類終極考試”(Humanity's Last Exam)無工具版本中,Muse Spark深思模式得分50.2,超過Gemini 3.1 Deep Think的48.4和GPT 5.4 Pro的43.9;啟用工具后得分58.4,超越Gemini 3.1 Deep Think的53.4,與GPT 5.4 Pro的58.7基本持平。

      在“前沿科學(xué)研究”(FrontierScience Research)測(cè)試中,Muse Spark深思模式得分38.3,不僅大幅領(lǐng)先Gemini 3.1 Deep Think(23.3)和GPT 5.4 Pro(36.7),更是幾家中的最高分。這是衡量模型逼近真實(shí)科研邊界的核心指標(biāo)之一。

      然而成績(jī)單并非全面飄紅。在抽象推理ARC AGI 2測(cè)試中,Muse Spark得分42.5,明顯落后于Opus 4.6(63.3)、Gemini 3.1 Pro(76.5)和GPT 5.4(76.1);智能體終端編程Terminal-Bench 2.0中得分59.0,低于Opus 4.6的65.4、Gemini 3.1 Pro的68.5和GPT 5.4的75.1;競(jìng)技編程LiveCodeBench Pro中得分80.0,也落后于Gemini 3.1 Pro的82.9和GPT 5.4的87.5。辦公任務(wù)綜合評(píng)估GDPval-AA Elo中,Muse Spark得分1444,低于Opus 4.6的1606和GPT 5.4的1672。

      MMMU-Pro多模態(tài)理解測(cè)試中,Muse Spark得分80.4,介于Opus 4.6(77.4)和Gemini 3.1 Pro(83.9)之間,與GPT 5.4(81.2)相近。博士級(jí)推理GPQA Diamond中得分89.5,低于Opus 4.6(92.7)、Gemini 3.1 Pro(94.3)和GPT 5.4(92.8),差距較為明顯。

      這份成績(jī)單的背景是“Muse系列首款模型”。Meta在發(fā)布文件中反復(fù)強(qiáng)調(diào),更大規(guī)模的后續(xù)模型已在研發(fā)之中,當(dāng)前結(jié)果的意義更多在于證明技術(shù)棧的規(guī)模化可行性,而非宣示性能天花板。

      Meta強(qiáng)在多模態(tài)感知與前沿科研推理,弱在抽象推理與智能體編程。這份有得有失的成績(jī)單,或許比一份完美的跑分更能說明問題:Meta的重建尚未完成,但方向已經(jīng)清晰。

      02 多智能體并行

      Muse Spark最引人注目的架構(gòu)亮點(diǎn),是多智能體并行編排機(jī)制與多模態(tài)感知能力的原生整合,二者共同構(gòu)成了這款模型區(qū)別于競(jìng)爭(zhēng)對(duì)手的核心底色。

      當(dāng)用戶提出一個(gè)復(fù)雜問題,Meta AI不再讓單個(gè)模型“想清楚再回答”,而是同時(shí)派出多個(gè)子智能體分頭行動(dòng)。以規(guī)劃一次佛羅里達(dá)家庭旅行為例:一個(gè)智能體負(fù)責(zé)起草總行程,另一個(gè)對(duì)比奧蘭多和基韋斯特各自的利弊,第三個(gè)同步搜尋親子友好型活動(dòng),三條線并行推進(jìn),最終匯總成一份更快、更完整的答案。

      與此對(duì)應(yīng),Muse Spark推出了“深思模式”(Contemplating mode),直接與Gemini Deep Think和GPT Pro的旗艦推理模式正面競(jìng)爭(zhēng)。多智能體并行并不意味著更長的等待,它用橫向擴(kuò)展取代了縱向堆疊,在可比時(shí)延下實(shí)現(xiàn)了更優(yōu)的綜合表現(xiàn)。

      大多數(shù)AI助手的局限在于只能理解用戶輸入的文字,Muse Spark試圖打破這一邊界。拍下機(jī)場(chǎng)便利店貨架,它能識(shí)別并篩選出蛋白質(zhì)含量最高的零食,無需費(fèi)力辨讀食品標(biāo)簽;掃描一款商品,即可即時(shí)與同類產(chǎn)品橫向比較。這種能力的本質(zhì)轉(zhuǎn)變,是AI從“等你解釋世界”到“直接與你共同觀察世界”。當(dāng)這一能力搭載于Meta AI眼鏡,感知的邊界將進(jìn)一步延伸,攝像頭即是AI的眼睛。


      健康是多模態(tài)能力最具現(xiàn)實(shí)價(jià)值的落地場(chǎng)景。Meta與逾1000名醫(yī)師合作策劃訓(xùn)練數(shù)據(jù),使Muse Spark能夠就常見健康問題提供更準(zhǔn)確、更全面的回應(yīng),涵蓋圖像與圖表的解讀。用戶可獲得交互式健康信息展示,直觀呈現(xiàn)不同食物的營養(yǎng)成分或運(yùn)動(dòng)動(dòng)作所激活的肌肉群,將枯燥的健康數(shù)據(jù)變成可視化的個(gè)人參考。

      視覺編程能力同樣值得一提。用戶只需一條自然語言提示,即可直接生成可交互的網(wǎng)頁應(yīng)用或小游戲,數(shù)獨(dú)、復(fù)古街機(jī)、飛行模擬器,乃至一個(gè)策劃盛大驚喜派對(duì)的管理看板,均可一鍵分享給他人。這不再是“幫你寫代碼”,而是“幫你造產(chǎn)品”。


      與OpenAI和Anthropic不同,Meta手里握著一張任何外部AI公司都無法復(fù)制的牌:十億級(jí)別的社交圖譜與內(nèi)容生態(tài)。Muse Spark充分利用了這一獨(dú)特資產(chǎn)。


      購物模式整合了Instagram、Facebook和Threads上已有的創(chuàng)作者內(nèi)容與品牌敘事,為用戶提供穿搭建議、家居方案或禮物推薦,靈感來源不是冷冰冰的算法匹配,而是用戶已在關(guān)注的真實(shí)社群。


      當(dāng)用戶搜索某個(gè)地點(diǎn)或想了解某個(gè)熱門話題,Meta AI會(huì)在對(duì)話中同步呈現(xiàn)豐富而相關(guān)的背景信息。點(diǎn)擊一個(gè)地點(diǎn),即可看到當(dāng)?shù)鼐用竦墓_帖子;詢問某件事的全貌,AI會(huì)從社區(qū)內(nèi)容中匯聚真實(shí)討論動(dòng)態(tài),來自用戶自己圈子的信息,在最需要的時(shí)刻觸手可及。

      這是一種與通用搜索截然不同的信息整合邏輯:數(shù)據(jù)源不是泛化的互聯(lián)網(wǎng),而是用戶自己的社交世界。Meta還透露,隨著功能的持續(xù)擴(kuò)展,Reels短視頻、圖片與動(dòng)態(tài)帖子將被直接織入對(duì)話答案,并附帶對(duì)原創(chuàng)內(nèi)容創(chuàng)作者的歸因致謝,這既是對(duì)創(chuàng)作者生態(tài)的承諾,也是Meta區(qū)別于所有競(jìng)爭(zhēng)對(duì)手的核心護(hù)城河。

      扎克伯格對(duì)此的定義,是“個(gè)人超級(jí)智能”:“一個(gè)不只回答問題,而是真正理解你世界的AI,因?yàn)樗揪徒⒃谀愕氖澜缰稀!?/p>

      03 三條規(guī)模化軸線:下一代已在路上

      發(fā)布會(huì)的另一層信號(hào),比產(chǎn)品本身更值得關(guān)注。Meta首次系統(tǒng)性地公開了其規(guī)模化路線圖的底層邏輯。


      預(yù)訓(xùn)練:同等能力,十分之一的算力。過去九個(gè)月,Meta從模型架構(gòu)、優(yōu)化方法、數(shù)據(jù)策劃三個(gè)維度全面重構(gòu)了預(yù)訓(xùn)練技術(shù)棧。

      通過對(duì)一系列小模型擬合規(guī)模化定律,Meta得出結(jié)論:與Llama 4 Maverick相比,Muse Spark達(dá)到相同能力水準(zhǔn)所需的訓(xùn)練計(jì)算量減少了一個(gè)數(shù)量級(jí)以上。這一效率優(yōu)勢(shì),也使其在主流基礎(chǔ)模型橫向比較中脫穎而出。


      強(qiáng)化學(xué)習(xí):平滑增益,可預(yù)測(cè)泛化。大規(guī)模強(qiáng)化學(xué)習(xí)以訓(xùn)練不穩(wěn)定著稱,但Meta的新技術(shù)棧交出了平滑、可預(yù)測(cè)的增益曲線。

      訓(xùn)練數(shù)據(jù)上pass@1與pass@16呈對(duì)數(shù)線性增長,表明強(qiáng)化學(xué)習(xí)在提升模型可靠性的同時(shí),并未損害推理多樣性;留存評(píng)估集上的準(zhǔn)確率同步穩(wěn)定提升,證明訓(xùn)練收益能夠真實(shí)泛化到未見任務(wù)上——而不是"只會(huì)考試"。


      推理時(shí)計(jì)算:“思維壓縮”后再提速。強(qiáng)化學(xué)習(xí)訓(xùn)練使模型在回答前學(xué)會(huì)了“思考”,但向數(shù)十億用戶提供這一能力,對(duì)token效率提出了極高要求。

      Meta采用了兩個(gè)關(guān)鍵手段:其一是思考時(shí)長懲罰項(xiàng),在AIME等評(píng)測(cè)中觸發(fā)了一個(gè)有趣的相變——模型先通過延長思考時(shí)間提升表現(xiàn),隨后長度懲罰觸發(fā)“思維壓縮”,以大幅減少的token數(shù)量完成同等難度的推理,之后再次延伸解題鏈路實(shí)現(xiàn)更強(qiáng)表現(xiàn);其二是多智能體并行編排,在不顯著增加響應(yīng)時(shí)延的前提下,用橫向擴(kuò)展取代縱向堆疊。

      從這三條軸線來看,Meta在這份技術(shù)報(bào)告中著墨最多的,恰恰不是當(dāng)前成績(jī),而是規(guī)模化的可預(yù)測(cè)性。這正是資本市場(chǎng)和生態(tài)合作伙伴最想看到的東西。

      04 起點(diǎn)

      Muse Spark在設(shè)計(jì)上“以小巧、快速為先”,這不是能力不足的委婉說法,而是一種刻意選擇的方法論。Meta將Muse系列定位為嚴(yán)格遞進(jìn)式的擴(kuò)展路線:每一代在前代基礎(chǔ)上驗(yàn)證、突破,再向更大規(guī)模邁進(jìn)。更大參數(shù)量的后續(xù)模型已在研發(fā)之中。

      回到九個(gè)月前那個(gè)艱難的起點(diǎn),Meta用Muse Spark證明了兩件事:技術(shù)棧在有效擴(kuò)展,組織在重建之后重新凝聚了方向。

      但Meta想要追趕OpenAI、Anthropic和谷歌DeepMind等主要競(jìng)爭(zhēng)對(duì)手,僅憑一款“起步款”模型遠(yuǎn)遠(yuǎn)不夠。該公司后續(xù)發(fā)布的其他系列模型,將決定扎克伯格的這場(chǎng)豪賭,究竟是翻盤,還是又一次代價(jià)高昂的重來。

      特約編譯無忌對(duì)本文亦有貢獻(xiàn)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      伊朗:球在美國這邊

      伊朗:球在美國這邊

      極目新聞
      2026-04-12 13:26:30
      股價(jià)一年暴漲2500%!存儲(chǔ)熱潮下閃迪“升咖”:4月20日將躋身納指100

      股價(jià)一年暴漲2500%!存儲(chǔ)熱潮下閃迪“升咖”:4月20日將躋身納指100

      財(cái)聯(lián)社
      2026-04-11 14:24:34
      沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復(fù)肌力的7種食物

      沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復(fù)肌力的7種食物

      健康之光
      2026-01-04 09:31:45
      任何一艘美航母上,都要帶足大量女兵?她們?cè)诤侥干嫌惺裁醋饔茫?>
    </a>
        <h3>
      <a href=老屬科普
      2026-04-12 11:34:11
      張萌要虧麻了!《楚喬傳》續(xù)作開播差評(píng)一片,不僅僅因?yàn)榕魇撬?>
    </a>
        <h3>
      <a href=一娛三分地
      2026-04-09 17:33:48
      強(qiáng)弱瞬息萬變,國羽4席闖進(jìn)亞錦賽決賽,多項(xiàng)目面臨洗牌

      強(qiáng)弱瞬息萬變,國羽4席闖進(jìn)亞錦賽決賽,多項(xiàng)目面臨洗牌

      真理是我親戚
      2026-04-11 21:14:52
      政變只是一個(gè)開始,伊朗要變天了,中國最擔(dān)心的事情,恐將發(fā)生

      政變只是一個(gè)開始,伊朗要變天了,中國最擔(dān)心的事情,恐將發(fā)生

      舊鐵皮往南開
      2026-04-12 12:31:02
      蘋果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

      蘋果8號(hào)員工干了49年:裁員名單繞著他走,因?yàn)橘r不起

      世界圈
      2026-04-04 13:13:03
      周日雙色球2026040期精準(zhǔn)研判:小號(hào)藍(lán)球回補(bǔ)+三區(qū)降溫

      周日雙色球2026040期精準(zhǔn)研判:小號(hào)藍(lán)球回補(bǔ)+三區(qū)降溫

      芭比衣櫥
      2026-04-12 12:42:33
      2-1,美國女足擊敗日本女足,豪取10連勝,拉韋爾一球一助攻

      2-1,美國女足擊敗日本女足,豪取10連勝,拉韋爾一球一助攻

      凌空倒鉤
      2026-04-12 08:49:45
      日乒也選錯(cuò)人?21歲大藤讓最強(qiáng)橋本三局僅8分 此前連勝王曼昱陳熠

      日乒也選錯(cuò)人?21歲大藤讓最強(qiáng)橋本三局僅8分 此前連勝王曼昱陳熠

      顏小白的籃球夢(mèng)
      2026-04-12 08:24:04
      約翰遜親赴烏克蘭前線:烏克蘭一定會(huì)贏

      約翰遜親赴烏克蘭前線:烏克蘭一定會(huì)贏

      桂系007
      2026-04-11 19:44:08
      當(dāng)換電「不值一提」,蔚來開始破圈

      當(dāng)換電「不值一提」,蔚來開始破圈

      極客公園
      2026-04-11 12:11:54
      李斌罵完埃爾法,加價(jià)30萬到?jīng)]人搶,保姆MPV如何被國產(chǎn)車型超車

      李斌罵完埃爾法,加價(jià)30萬到?jīng)]人搶,保姆MPV如何被國產(chǎn)車型超車

      標(biāo)體
      2026-04-12 12:17:23
      外媒:鄭麗文大陸行,中南海第一女保鏢全程護(hù)送,彰顯北京誠意!

      外媒:鄭麗文大陸行,中南海第一女保鏢全程護(hù)送,彰顯北京誠意!

      影像溫度
      2026-04-12 11:58:21
      安切洛蒂:內(nèi)馬爾還有時(shí)間證明,會(huì)讓他踢中路,恩德里克大有可為

      安切洛蒂:內(nèi)馬爾還有時(shí)間證明,會(huì)讓他踢中路,恩德里克大有可為

      仰臥撐FTUer
      2026-04-12 07:52:03
      伊朗公布從美軍“大力神”軍用運(yùn)輸機(jī)繳獲的激光發(fā)射器的畫面

      伊朗公布從美軍“大力神”軍用運(yùn)輸機(jī)繳獲的激光發(fā)射器的畫面

      音樂時(shí)光的娛樂
      2026-04-12 12:40:13
      回到臺(tái)灣就被抓?鄭麗文和大陸談完,臨走前達(dá)成共識(shí),賴清德急了

      回到臺(tái)灣就被抓?鄭麗文和大陸談完,臨走前達(dá)成共識(shí),賴清德急了

      南宗歷史
      2026-04-12 10:51:14
      涉嫌嚴(yán)重違紀(jì)違法,卯祥云被查

      涉嫌嚴(yán)重違紀(jì)違法,卯祥云被查

      吉刻新聞
      2026-04-12 11:55:29
      55歲上海炒股冠軍罕見發(fā)聲:吃透“月線+周線+日線”掙得懷疑人生

      55歲上海炒股冠軍罕見發(fā)聲:吃透“月線+周線+日線”掙得懷疑人生

      股經(jīng)縱橫談
      2026-04-06 11:57:45
      2026-04-12 13:56:49
      呼呼歷史論
      呼呼歷史論
      分享有趣的歷史
      382文章數(shù) 16808關(guān)注度
      往期回顧 全部

      科技要聞

      理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

      頭條要聞

      媒體:伊朗新領(lǐng)袖"冒死接班"1個(gè)月未露面 突然全面亮劍

      頭條要聞

      媒體:伊朗新領(lǐng)袖"冒死接班"1個(gè)月未露面 突然全面亮劍

      體育要聞

      五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

      娛樂要聞

      46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

      財(cái)經(jīng)要聞

      三輪磋商談至深夜 美伊談判三大議題仍待解

      汽車要聞

      煥新極氪007/007GT上市 限時(shí)19.39萬起

      態(tài)度原創(chuàng)

      數(shù)碼
      藝術(shù)
      游戲
      房產(chǎn)
      健康

      數(shù)碼要聞

      小米電視桌面4.0重磅升級(jí)來了!流暢度大提升 多賽事同屏播放

      藝術(shù)要聞

      2025殊相——中國油畫學(xué)會(huì)創(chuàng)作研修作品展 | 油畫選刊(六)

      PS5界面又有大變化!觀感更醒目 體驗(yàn)升級(jí)

      房產(chǎn)要聞

      土地供應(yīng)突然暴跌!2026海口樓市,格局大變!

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      無障礙瀏覽 進(jìn)入關(guān)懷版