<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Mythos核心架構開源!22歲天才一人破解,融合DeepSeek思路

      0
      分享至


      新智元報道

      編輯:桃子

      【新智元導讀】Claude Mythos核心架構,竟被一個22歲天才扒了個精光!OpenMythos現已全開源,不靠堆參數,原地「循環思考」16次就能推理。閉源實驗室的護城河,真的還在嗎?

      簡直太瘋狂了!

      Anthropic捂得最嚴實的Claude Mythos,竟被一個22歲的年輕人扒開了。


      不是泄露,不是內部員工跳槽帶出來的。

      是一個叫Kye Gomez的初創CEO,以第一性原理,硬生生把Claude Mythos的核心架構從頭推導了出來。

      更炸裂的是,他把這一項目——OpenMythos全開源了



      復現帖引近100萬人圍觀

      一時間,全網都坐不住了,網友們紛紛驚嘆Mythos背景精妙的設計。




      不堆參數,原地「循環思考」16次

      先說結論,Kye Gomez認為——

      Claude Mythos的核心不是一個更大的Transformer,而是一種叫做「循環深度Transformer」(Recurrent-Depth Transformer, RDT)的架構

      說白了就是,同一套權重,在一次前向傳播里循環跑最多16次。


      傳統大模型像蓋高樓,一層一層往上堆參數。100層不夠就200層,200層不夠就500層。

      參數越多,模型越大,顯存吃得越猛,訓練成本越恐怖。

      但RDT完全換了一個思路:不蓋高樓,原地跑圈。

      模型只有一個核心計算塊,但這個塊會被反復執行。每循環一次,隱藏狀態就更新一次,就相當于「多想了一步」。

      而且所有的思考都在連續潛空間里默默進行——不用像思維鏈(CoT)那樣,每一步都吐出可見的token。

      這不是重復計算,是迭代推理。


      架構全拆解:三段式設計

      整個OpenMythos的架構分三段:

      Prelude(序曲)→ Recurrent Block(循環核心)→ Coda(終章)

      Prelude和Coda是標準的Transformer層,各跑一次。

      真正的計算核心是中間的「循環塊」,它最多循環16次,每次循環的更新規則是:

      h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

      其中e是Prelude編碼后的原始輸入,每一步都會被重新注入,防止模型在循環中「跑偏」。


      MoE給廣度,循環給深度

      光靠循環能解釋Mythos推理的「深度」,但解釋不了廣度。

      OpenMythos在循環核心的每個FFN層,都替換成了MoE層,設計參考了DeepSeek-MoE:

      • 大量細粒度的路由專家;

      • 每個token只激活其中一小部分;

      • 少量「共享專家」始終激活,負責吸收跨領域的通用知識。

      最精妙的一點,隨著隱藏狀態h_t在循環中不斷演化,路由器在每一層循環深度會選擇不同的專家子集。

      也就是說,雖然權重共享,但每次循環的計算路徑完全不同:

      MoE提供廣度,循環提供深度。


      項目地址:https://github.com/kyegomez/OpenMythos

      注意力機制默認使用「多潛變量注意力」(Multi-Latent Attention),來自DeepSeek-V2,把KV緩存壓縮成低秩潛變量,在生產規模下能實現10-20倍的KV顯存節省。

      三個額外機制保證循環穩定性:LTI約束注入(譜半徑強制小于1)、自適應計算時間(ACT)逐位置停機、以及深度級LoRA適配器讓每次迭代都有獨立的行為調整能力。

      細思極恐,這套設計精密得像一臺瑞士鐘表。

      770M打平1.3B,參數效率直接翻倍

      這不是嘴上說說。

      此前,來自Parcae團隊的實驗數據:一個770M參數的循環模型,在同等訓練數據下,能達到1.3B標準Transformer的下游任務質量。

      換句話說——用一半的參數,干了同樣的活。


      這對整個行業意味著什么?

      對消費級硬件來說,這是天大的利好。以前跑個像樣的模型,沒有A100你連門都進不了。

      現在呢?推理深度是時間換空間——你不需要更多的顯存,只需要多跑幾圈。

      更重磅的是,這徹底改寫了AI的Scaling法則。以前拼的是誰的參數多、誰的GPU多、誰的電費賬單厚。

      現在的規則變了:未來最強的模型,不是參數最多的,而是想得最多次的。

      不過,作者也表示,這目前只是理論上的說法,還需要保留一些意見。


      高中畢業,就當上了CEO

      這位扒開22歲Claude Mythos黑箱的大男孩Kye Gomez,是Swarms的創始人,之前還領導過Agora Labs。

      他的研究重點是——大規模多智能體系統、替代模型架構和多模態模型。


      個人主頁顯示,Kye Gomez高中畢業之后,就開始投身于創業。


      在2021年-2024年間,他同時擔任了三家公司的聯創/CEO,創建立了一個以「APAC」為品牌的生態體系。

      其覆蓋了AI深科技、媒體、食品科技等多個領域。


      22歲小哥,開源了Anthropic神級模型

      這件事最讓人震撼的,不是架構本身有多厲害。

      是一個22歲的創業者,只用公開論文和第一性原理,就把Anthropic藏了一年的黑箱直接復現了出來。

      還全開源了,而且只要幾行代碼就能跑。

      這意味著什么?

      閉源實驗室的架構優勢,正在以肉眼可見的速度消失。

      FT最新報道中,Dario Amodei重磅預測,中國將在12個月內,完全復刻出具備Claude Mythos級別能力的大模型。


      針對外界對LLM性能是否觸及天花板的質疑,Amode用一句富有詩意的話給出了回應——

      彩虹沒有盡頭,只有彩虹本身。

      他強調,目前完全看不到技術放緩的跡象。

      當一個人用公開信息就能重建最核心的技術,護城河就不再是架構了。

      參考資料:

      https://x.com/KyeGomezB/status/2045659150340723107?s=20

      https://github.com/kyegomez/OpenMythos

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2027斯諾克世錦賽總獎金上漲至300萬英鎊,冠軍獨攬62.5萬

      2027斯諾克世錦賽總獎金上漲至300萬英鎊,冠軍獨攬62.5萬

      懂球帝
      2026-04-21 08:46:09
      最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

      最新:曝俄軍敗退扎波羅熱!丟失幾年來占領的全部土地

      項鵬飛
      2026-04-20 20:13:15
      蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉?

      蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉?

      小雪的運動之心
      2026-04-20 20:12:38
      毛主席警衛員講述:想進中南海見毛主席,只有3個人可以自由通行

      毛主席警衛員講述:想進中南海見毛主席,只有3個人可以自由通行

      老范談史
      2026-04-20 23:46:03
      俄烏戰爭最大諷刺:烏克蘭沒被打垮,反而坐上桌,開始教世界下棋

      俄烏戰爭最大諷刺:烏克蘭沒被打垮,反而坐上桌,開始教世界下棋

      壹只灰鴿子
      2026-04-19 11:05:55
      罕見!7.7級地震把半個日本都震醒了,日網民:快請發達中國救我

      罕見!7.7級地震把半個日本都震醒了,日網民:快請發達中國救我

      社會日日鮮
      2026-04-21 05:24:33
      2-1!沙特豪門逆轉日本黑馬,連續2年進亞冠決賽,距衛冕一步之遙

      2-1!沙特豪門逆轉日本黑馬,連續2年進亞冠決賽,距衛冕一步之遙

      我愛英超
      2026-04-21 06:19:22
      何潤東亮相蘇超僅3天,政治立場被扒底朝天,原來我們都被騙了

      何潤東亮相蘇超僅3天,政治立場被扒底朝天,原來我們都被騙了

      天馬幸福的人生
      2026-04-21 02:08:10
      太難了!張雪回應直播售后原因,機車遭頭部品牌聯合渠道“封殺”

      太難了!張雪回應直播售后原因,機車遭頭部品牌聯合渠道“封殺”

      火山詩話
      2026-04-21 06:18:53
      爸爸好心幫女兒晾曬內衣,女兒看到直接發火:他摸都不能摸!

      爸爸好心幫女兒晾曬內衣,女兒看到直接發火:他摸都不能摸!

      丫頭舫
      2026-04-20 23:11:09
      ASML總裁炮轟中國:若再繼續自主研究光刻機,將會破壞全球產業鏈

      ASML總裁炮轟中國:若再繼續自主研究光刻機,將會破壞全球產業鏈

      泠泠說史
      2026-04-20 17:52:42
      看哭了!張雪車隊64號頻頻摔車墊底,原來他的職責根本不是拿獎

      看哭了!張雪車隊64號頻頻摔車墊底,原來他的職責根本不是拿獎

      人間煙火記事本
      2026-04-21 00:57:18
      為什么沒有人賣給印度化肥?看看它的騷操作就明白了!

      為什么沒有人賣給印度化肥?看看它的騷操作就明白了!

      步論天下事
      2026-04-18 10:00:20
      黃山市一位副鄉長發了16條私信,把知名主播“磨”進大山里賣筍,知名演員鄧超也來了

      黃山市一位副鄉長發了16條私信,把知名主播“磨”進大山里賣筍,知名演員鄧超也來了

      揚子晚報
      2026-04-21 07:26:40
      中國絕不談判!光刻機封鎖,全球供應鏈陷入“地震”,誰最著急?

      中國絕不談判!光刻機封鎖,全球供應鏈陷入“地震”,誰最著急?

      觸摸史跡
      2026-04-20 10:52:09
      去臺灣玩了七天回來,說實在的,普通人來臺灣還真有點不適應

      去臺灣玩了七天回來,說實在的,普通人來臺灣還真有點不適應

      復轉這些年
      2026-04-20 18:03:08
      實在沒想到,窮困四十年的伊朗,和美國打了一仗后竟然翻身了

      實在沒想到,窮困四十年的伊朗,和美國打了一仗后竟然翻身了

      兵說
      2026-04-20 08:51:39
      澆小麥的地下水變成血紅色,誰來守護我們的生存底線?

      澆小麥的地下水變成血紅色,誰來守護我們的生存底線?

      記錄劉杰
      2026-04-19 21:39:47
      雖然贏不了中國隊,卻贏得了全世界球迷的心!

      雖然贏不了中國隊,卻贏得了全世界球迷的心!

      楊晨大神
      2026-04-20 12:06:28
      NBA歷史首現!文班全票當選最佳防守球員 成馬刺隊史第4位獲獎者

      NBA歷史首現!文班全票當選最佳防守球員 成馬刺隊史第4位獲獎者

      羅說NBA
      2026-04-21 06:20:00
      2026-04-21 09:23:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15023文章數 66792關注度
      往期回顧 全部

      科技要聞

      重磅官宣:庫克卸任,特努斯接任蘋果CEO

      頭條要聞

      牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

      頭條要聞

      牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

      體育要聞

      阿森納已拼盡全力,但你早干嘛去了...

      娛樂要聞

      《八千里路云和月》田家泰暗殺

      財經要聞

      減速機訂單已排到明年!

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      游戲
      教育
      時尚
      本地
      健康

      《星際爭霸》射擊新作細節曝光 游戲是逼真寫實風格

      教育要聞

      26年強基計劃專業大調整,你是否準備報考強基計劃

      “爆冷”又如何?陳法拉的人生本就是一場逆襲大戲

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      干細胞抗衰4大誤區,90%的人都中招

      無障礙瀏覽 進入關懷版