夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
聽說Mythos太危險被封印?有人反手就給他“重建”并開源了。
OpenMythos,整合了公開研究和目前對Claude Mythos架構的主流推測。
![]()
OpenMythos實現了一個帶有MoE路由機制的循環深度Transformer(Recurrent-Depth Transformer ,RDT),通過跨專家的權重共享和條件計算來實現迭代深度。
已有研究證實,這種架構僅用1半參數,就能獲得與傳統模型同等的效果。
不堆參數,堆循環
把這些碎片拼在一起的人叫Kye Gomez,22歲,Swarms智能體框架創始人。
![]()
他設計的RDT架構有三個核心點:
- 讓同一組權重最多反復跑16遍
- 每次走不同的專家路徑
- 推理全程在潛在空間完成。
三者合力,讓一個問題“想更多遍”比堆參數更高效。
過去兩年,AI行業的標準打法是堆疊上百層不同的Transformer層,每層學到不同的東西,參數量直接爆炸。
RDT不用上百層,只用幾層,最多反復循環跑16遍,每一遍都基于前一輪的結果繼續計算。
![]()
同一個東西跑16遍,那不是浪費算力嗎?
RDT的回答是不會重復,因為每次循環激活的是不同的“專家”。
循環塊內部用了混合專家層,MoE路由器在每次循環中激活不同的專家子集。
MoE的設計上借鑒了DeepSeekMoE:大量細粒度路由專家,加少量始終在線的共享專家。
Gomez把這套設計總結成一句話:
MoE提供領域知識的廣度,循環提供推理的深度。
廣度和深度都有了,還需要一套穩定性機制保證循環不會跑飛。
來自UCSD和Together AI的新論文Parcae: Scaling Laws For Stable Looped Language Models提出LTI穩定循環注入讓每輪不發散。
實驗中用770M參數的RDT追平了1.3B參數的標準Transformer。
參數量少了近一半,效果一樣。
![]()
最后一塊拼圖是連續潛在空間推理。16輪推理全部在hidden state向量中完成,不生成任何中間token。直到最后一輪循環結束,才輸出答案。
這和Chain-of-Thought完全不同。CoT是“想一步,寫一步,再想一步,再寫一步”,中間token全部暴露給人類閱讀。
RDT是“想完16遍才說一句話”,推理過程完全內化。
![]()
Kye還引用了俄亥俄州立大學的一篇論文,對循環Transformer架構做了兩個關鍵實驗。
![]()
第一個:系統性泛化。
訓練時從沒見過的知識組合,推理時循環Transformer照樣能答對,標準Transformer直接失敗。
這證明循環不是重復計算,是真正的”更深層思考”。
第二個:深度外推。
訓練時只教了20跳推理鏈,測試時直接給30跳。
循環Transformer的應對方式就是在推理時多加幾輪循環,標準Transformer直接崩潰。
這些結果說明當前大模型在預訓練中已經記住了大量事實,瓶頸在于知識組合。
它們無法將已知事實串聯起來回答新穎問題。循環似乎免費解鎖了這種組合能力。
如果這些結論成立,Scaling的主流將從”訓練更大的模型”轉向“讓現有模型在推理時多想幾遍”。
有了這些研究結果,Anthropic的Mythos是否真的用了這套架構,似乎已經不重要了。
對循環Transformer的猜想已經吸引了來自學術界的大量目光。
更多理論和實驗驗證正在路上。
GitHub:
https://github.com/kyegomez/OpenMythos#the-central-hypothesis
參考鏈接:
[1]
https://x.com/KyeGomezB/status/2045660378844024994
[2]
https://arxiv.org/abs/2604.07822
[3]
https://arxiv.org/abs/2604.12946
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.