<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Claude Mythos核心架構(gòu)開源!22歲天才一人破解,融合DeepSeek思路

      0
      分享至


      新智元報道

      編輯:桃子

      【新智元導(dǎo)讀】Claude Mythos核心架構(gòu),竟被一個22歲天才扒了個精光!OpenMythos現(xiàn)已全開源,不靠堆參數(shù),原地「循環(huán)思考」16次就能推理。閉源實驗室的護(hù)城河,真的還在嗎?

      簡直太瘋狂了!

      Anthropic捂得最嚴(yán)實的Claude Mythos,竟被一個22歲的年輕人扒開了。


      不是泄露,不是內(nèi)部員工跳槽帶出來的。

      是一個叫Kye Gomez的初創(chuàng)CEO,以第一性原理,硬生生把Claude Mythos的核心架構(gòu)從頭推導(dǎo)了出來。

      更炸裂的是,他把這一項目——OpenMythos全開源了



      復(fù)現(xiàn)帖引近100萬人圍觀

      一時間,全網(wǎng)都坐不住了,網(wǎng)友們紛紛驚嘆Mythos背景精妙的設(shè)計。




      不堆參數(shù),原地「循環(huán)思考」16次

      先說結(jié)論,Kye Gomez認(rèn)為——

      Claude Mythos的核心不是一個更大的Transformer,而是一種叫做「循環(huán)深度Transformer」(Recurrent-Depth Transformer, RDT)的架構(gòu)

      說白了就是,同一套權(quán)重,在一次前向傳播里循環(huán)跑最多16次。


      傳統(tǒng)大模型像蓋高樓,一層一層往上堆參數(shù)。100層不夠就200層,200層不夠就500層。

      參數(shù)越多,模型越大,顯存吃得越猛,訓(xùn)練成本越恐怖。

      但RDT完全換了一個思路:不蓋高樓,原地跑圈。

      模型只有一個核心計算塊,但這個塊會被反復(fù)執(zhí)行。每循環(huán)一次,隱藏狀態(tài)就更新一次,就相當(dāng)于「多想了一步」。

      而且所有的思考都在連續(xù)潛空間里默默進(jìn)行——不用像思維鏈(CoT)那樣,每一步都吐出可見的token。

      這不是重復(fù)計算,是迭代推理。


      架構(gòu)全拆解:三段式設(shè)計

      整個OpenMythos的架構(gòu)分三段:

      Prelude(序曲)→ Recurrent Block(循環(huán)核心)→ Coda(終章)

      Prelude和Coda是標(biāo)準(zhǔn)的Transformer層,各跑一次。

      真正的計算核心是中間的「循環(huán)塊」,它最多循環(huán)16次,每次循環(huán)的更新規(guī)則是:

      h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

      其中e是Prelude編碼后的原始輸入,每一步都會被重新注入,防止模型在循環(huán)中「跑偏」。


      MoE給廣度,循環(huán)給深度

      光靠循環(huán)能解釋Mythos推理的「深度」,但解釋不了廣度。

      OpenMythos在循環(huán)核心的每個FFN層,都替換成了MoE層,設(shè)計參考了DeepSeek-MoE:

      • 大量細(xì)粒度的路由專家;

      • 每個token只激活其中一小部分;

      • 少量「共享專家」始終激活,負(fù)責(zé)吸收跨領(lǐng)域的通用知識。

      最精妙的一點,隨著隱藏狀態(tài)h_t在循環(huán)中不斷演化,路由器在每一層循環(huán)深度會選擇不同的專家子集。

      也就是說,雖然權(quán)重共享,但每次循環(huán)的計算路徑完全不同:

      MoE提供廣度,循環(huán)提供深度。


      項目地址:https://github.com/kyegomez/OpenMythos

      注意力機(jī)制默認(rèn)使用「多潛變量注意力」(Multi-Latent Attention),來自DeepSeek-V2,把KV緩存壓縮成低秩潛變量,在生產(chǎn)規(guī)模下能實現(xiàn)10-20倍的KV顯存節(jié)省。

      三個額外機(jī)制保證循環(huán)穩(wěn)定性:LTI約束注入(譜半徑強(qiáng)制小于1)、自適應(yīng)計算時間(ACT)逐位置停機(jī)、以及深度級LoRA適配器讓每次迭代都有獨立的行為調(diào)整能力。

      細(xì)思極恐,這套設(shè)計精密得像一臺瑞士鐘表。

      770M打平1.3B,參數(shù)效率直接翻倍

      這不是嘴上說說。

      此前,來自Parcae團(tuán)隊的實驗數(shù)據(jù):一個770M參數(shù)的循環(huán)模型,在同等訓(xùn)練數(shù)據(jù)下,能達(dá)到1.3B標(biāo)準(zhǔn)Transformer的下游任務(wù)質(zhì)量。

      換句話說——用一半的參數(shù),干了同樣的活。


      這對整個行業(yè)意味著什么?

      對消費級硬件來說,這是天大的利好。以前跑個像樣的模型,沒有A100你連門都進(jìn)不了。

      現(xiàn)在呢?推理深度是時間換空間——你不需要更多的顯存,只需要多跑幾圈。

      更重磅的是,這徹底改寫了AI的Scaling法則。以前拼的是誰的參數(shù)多、誰的GPU多、誰的電費賬單厚。

      現(xiàn)在的規(guī)則變了:未來最強(qiáng)的模型,不是參數(shù)最多的,而是想得最多次的。

      不過,作者也表示,這目前只是理論上的說法,還需要保留一些意見。


      高中畢業(yè),就當(dāng)上了CEO

      這位扒開22歲Claude Mythos黑箱的大男孩Kye Gomez,是Swarms的創(chuàng)始人,之前還領(lǐng)導(dǎo)過Agora Labs。

      他的研究重點是——大規(guī)模多智能體系統(tǒng)、替代模型架構(gòu)和多模態(tài)模型。


      個人主頁顯示,Kye Gomez高中畢業(yè)之后,就開始投身于創(chuàng)業(yè)。


      在2021年-2024年間,他同時擔(dān)任了三家公司的聯(lián)創(chuàng)/CEO,創(chuàng)建立了一個以「APAC」為品牌的生態(tài)體系。

      其覆蓋了AI深科技、媒體、食品科技等多個領(lǐng)域。


      22歲小哥,開源了Anthropic神級模型

      這件事最讓人震撼的,不是架構(gòu)本身有多厲害。

      是一個22歲的創(chuàng)業(yè)者,只用公開論文和第一性原理,就把Anthropic藏了一年的黑箱直接復(fù)現(xiàn)了出來。

      還全開源了,而且只要幾行代碼就能跑。

      這意味著什么?

      閉源實驗室的架構(gòu)優(yōu)勢,正在以肉眼可見的速度消失。

      FT最新報道中,Dario Amodei重磅預(yù)測,中國將在12個月內(nèi),完全復(fù)刻出具備Claude Mythos級別能力的大模型。


      針對外界對LLM性能是否觸及天花板的質(zhì)疑,Amode用一句富有詩意的話給出了回應(yīng)——

      彩虹沒有盡頭,只有彩虹本身。

      他強(qiáng)調(diào),目前完全看不到技術(shù)放緩的跡象。

      當(dāng)一個人用公開信息就能重建最核心的技術(shù),護(hù)城河就不再是架構(gòu)了。

      參考資料:

      https://x.com/KyeGomezB/status/2045659150340723107?s=20

      https://github.com/kyegomez/OpenMythos

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      小學(xué)生拒絕借車遭毆打搜家,一名施暴者及家長上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調(diào)查

      小學(xué)生拒絕借車遭毆打搜家,一名施暴者及家長上門道歉,教育局稱校園欺凌專干介入,警方:“入室搶劫案”仍在調(diào)查

      極目新聞
      2026-04-20 16:20:59
      伊朗媒體:伊朗不參加談判的決定尚未改變

      伊朗媒體:伊朗不參加談判的決定尚未改變

      財聯(lián)社
      2026-04-20 23:03:06
      福原愛官宣三胎僅3天,男方被扒底朝天,前夫江宏杰的做法太體面

      福原愛官宣三胎僅3天,男方被扒底朝天,前夫江宏杰的做法太體面

      阿纂看事
      2026-04-20 14:51:18
      伊朗:盡管美副總統(tǒng)萬斯及美國談判團(tuán)隊成員正前往巴基斯坦,但伊朗不參加談判的決定尚未改變;特朗普威脅如停火到期美伊未達(dá)成協(xié)議,那么大量炸彈將開始爆炸

      伊朗:盡管美副總統(tǒng)萬斯及美國談判團(tuán)隊成員正前往巴基斯坦,但伊朗不參加談判的決定尚未改變;特朗普威脅如停火到期美伊未達(dá)成協(xié)議,那么大量炸彈將開始爆炸

      每日經(jīng)濟(jì)新聞
      2026-04-21 01:44:17
      網(wǎng)友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細(xì)登記;何潤東翻紅后,賬號漲粉近200萬

      網(wǎng)友喊話請何潤東代言霸王茶姬,有人都把圖P好了,客服:建議已詳細(xì)登記;何潤東翻紅后,賬號漲粉近200萬

      魯中晨報
      2026-04-20 14:48:15
      日本將地震震級調(diào)整至7.5級

      日本將地震震級調(diào)整至7.5級

      界面新聞
      2026-04-20 16:30:33
      睡一覺5萬沒了!全國多地爆發(fā)新型盜刷,睡前必查手機(jī)這4處

      睡一覺5萬沒了!全國多地爆發(fā)新型盜刷,睡前必查手機(jī)這4處

      洞見小能手
      2026-04-20 16:03:26
      震驚!網(wǎng)傳深圳中專打工女偽造百億富三代人設(shè),收割尊界S800車主

      震驚!網(wǎng)傳深圳中專打工女偽造百億富三代人設(shè),收割尊界S800車主

      火山詩話
      2026-04-20 13:37:00
      被蘋果、華為干倒的諾基亞,又殺回來了!

      被蘋果、華為干倒的諾基亞,又殺回來了!

      大佬灼見
      2026-04-19 10:28:53
      海外版“砍一刀”被美國消費者瘋狂吐槽:這質(zhì)量就是中國制造?

      海外版“砍一刀”被美國消費者瘋狂吐槽:這質(zhì)量就是中國制造?

      可達(dá)鴨面面觀
      2026-04-20 16:18:29
      人民日報聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請立刻升級系統(tǒng)!

      人民日報聯(lián)合工信部緊急預(yù)警:全體iPhone用戶,請立刻升級系統(tǒng)!

      小柱解說游戲
      2026-04-19 20:52:59
      不露面不知道,一露面嚇一跳,這些明星怎么都老成這個樣子了

      不露面不知道,一露面嚇一跳,這些明星怎么都老成這個樣子了

      孤城落日
      2026-04-20 19:26:14
      特朗普:如未能達(dá)成協(xié)議“幾無可能”再延長停火

      特朗普:如未能達(dá)成協(xié)議“幾無可能”再延長停火

      界面新聞
      2026-04-20 23:21:47
      中央層面整治形式主義為基層減負(fù)專項工作機(jī)制辦公室 中央紀(jì)委辦公廳公開通報4起整治形式主義為基層減負(fù)典型問題

      中央層面整治形式主義為基層減負(fù)專項工作機(jī)制辦公室 中央紀(jì)委辦公廳公開通報4起整治形式主義為基層減負(fù)典型問題

      新華社
      2026-04-20 17:44:02
      4月20日消息:油價大幅下調(diào),明晚4月21日24時將迎近六年最大跌幅

      4月20日消息:油價大幅下調(diào),明晚4月21日24時將迎近六年最大跌幅

      周哥一影視
      2026-04-21 01:58:33
      世錦賽戰(zhàn)報:六冠王7-10出局,16強(qiáng)決出7席中國3席!中國冠軍1-8

      世錦賽戰(zhàn)報:六冠王7-10出局,16強(qiáng)決出7席中國3席!中國冠軍1-8

      求球不落諦
      2026-04-21 00:55:34
      油價大暴跌!今天4月20日調(diào)整后,全國加油站92、95汽油最新售價

      油價大暴跌!今天4月20日調(diào)整后,全國加油站92、95汽油最新售價

      娛樂圈的筆娛君
      2026-04-21 01:58:23
      1983年,“收聽敵臺”的美女知青被執(zhí)行死刑…

      1983年,“收聽敵臺”的美女知青被執(zhí)行死刑…

      年代回憶
      2026-04-20 20:03:54
      西方媒體:就算中國全力以赴,也不可能按時建成這樣龐大的工程

      西方媒體:就算中國全力以赴,也不可能按時建成這樣龐大的工程

      泠泠說史
      2026-04-20 20:17:23
      我的腿長嗎:從問別人到不再問,我走了很遠(yuǎn)的路

      我的腿長嗎:從問別人到不再問,我走了很遠(yuǎn)的路

      疾跑的小蝸牛
      2026-04-20 21:38:06
      2026-04-21 03:59:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
      15021文章數(shù) 66791關(guān)注度
      往期回顧 全部

      科技要聞

      HUAWEI Pura X Max發(fā)布 售價10999元起

      頭條要聞

      19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

      頭條要聞

      19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

      體育要聞

      阿森納已拼盡全力,但你早干嘛去了...

      娛樂要聞

      《八千里路云和月》田家泰暗殺

      財經(jīng)要聞

      利潤暴跌7成,字節(jié)到底在做什么

      汽車要聞

      把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態(tài)度原創(chuàng)

      手機(jī)
      教育
      藝術(shù)
      公開課
      軍事航空

      手機(jī)要聞

      OPPO影像旗艦高端發(fā)力 Find X9 Ultra走出國門

      教育要聞

      大降溫:來澳洲留學(xué)的中國學(xué)生,創(chuàng)近12年新低!

      藝術(shù)要聞

      沙特官宣:全球最大單體建筑,延期十年!網(wǎng)友:又是畫餅?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:美艦向伊朗貨船開火炸出個洞

      無障礙瀏覽 進(jìn)入關(guān)懷版