網易首頁 > 網易號 > 正文申請入駐

螞蟻開源 Ring-1T，成就推理、編程、通用智能三冠王

2025-10-23 16:35:09　來源: AI科技評論

廣東舉報

分享至

AIME 93.4分，開源模型首次逼近人類極限。

作者丨鄭佳美

編輯丨馬曉寧

AI 能不能真正“動腦子”？這個問題有了新答案。

螞蟻開源團隊推出的Ring-1T模型，為這個長期存在的疑問提供了最具說服力的實證。不同于以往依賴海量數據“記憶”答案的語言模型，Ring-1T 試圖讓 AI 在復雜問題中真正“推理”出答案。

它通過強化學習與多階段推理機制的結合，使模型能夠在反饋中不斷修正思路、優化邏輯路徑，逐步形成更穩定、更接近人類思維的推理模式。

正是這種從“模仿”到“思考”的轉變，讓 Ring-1T 成為開源 AI 領域的一次里程碑式突破。接下來，讓我們看看這項研究是如何實現的。

論文地址：

https://arxiv.org/pdf/2510.18855

通用智能的火花

實驗中Ring-1T 模型在多個高難度推理與數學基準上進行了系統性評估，都取得了突破性的實驗成果。作為一個開源的萬億參數思考型模型，Ring-1T 分別在推理、數學、編程及通用智能任務上均展現出卓越的綜合能力。

在數學推理能力方面，Ring-1T 在 AIME-2025中取得 93.4 分的成績，接近人類頂尖選手水平；在 HMMT-2025 中得分 86.72，顯示其在跨領域數學推理與高復雜度邏輯演算中的強大能力；在 IMO-2025 模擬評測中達到銀牌水平，證明模型能夠在需要多步推理與創造性證明的問題中保持高準確率和穩定性。

在編程與算法能力上，模型在 Codeforces 平臺測試中獲得 2088 分，達到人類程序員的高水平區間。這表明 Ring-1T 不僅能夠理解算法邏輯，還能在有限時間內生成高效、可執行的代碼，具備良好的算法復雜度控制與問題分解能力。

在通用智能推理任務中，Ring-1T 在 ARC-AGI-v1 中取得 55.94 分，顯著超越此前開源模型的平均表現。該結果表明，模型在抽象模式識別、思維遷移與多步認知推理方面具備接近通用人工智能的潛力。

總體而言，Ring-1T 在各項基準測試中表現出優異的穩定性與一致性，尤其在復雜推理與多步邏輯任務中未出現顯著性能退化。與此前主要停留在百億或千億參數規模的開源模型相比，Ring-1T 在數學、推理與算法任務上全面刷新了開源模型的性能上限，成為新一代開源思考型模型的性能基準。

實驗結果還表明，該模型的高性能得益于論文提出的三項關鍵技術：

IcePop旨在提升強化學習訓練的穩定性，解決訓練與推理分布不一致的問題。它通過動態約束與梯度剪切，限制高熵樣本的影響，并自適應調整溫度參數，使模型在保持探索性的同時更穩定收斂，從而提高推理階段的可靠性。

C3PO++專注于提升長序列推理和大規模 rollout 的效率。該方法采用動態分區和 token 預算機制，將推理過程劃分為多個小批次，并利用持久化緩沖區續傳未完成任務，有效提升 GPU 利用率和整體訓練吞吐量。

而ASystem則是支撐萬億參數強化學習的分布式架構。它整合統一的訓練與推理運行時、高效的顯存管理、快速的參數同步以及安全的隔離執行環境，使大規模模型訓練具備更高的并行性、穩定性與容錯性。

算法與系統的共振

論文中體現的實驗過程，主要以Ring-1T 思考型模型為研究對象，研究人員設計了分階段的訓練體系，包括監督微調（SFT）、推理強化學習（Reasoning RL）和通用強化學習（General RL）。研究的主要突破集中在后兩個階段，通過引入IcePop、C3PO++與ASystem等方法，實現了在大規模強化學習中的穩定訓練與高效推理。

實驗中，Ring-1T 模型的訓練過程經過精心設計，以在萬億參數規模下同時保證穩定性和效率。團隊在訓練時采用AdamW 優化器，其超參數設定為 β?=0.9、β?=0.999，權重衰減為 0.01；同時固定了 MoE路由器的偏置項，以保持參數更新的穩定。推理與采樣階段的設置在兩個強化學習階段中保持一致，KL 系數設為 0.0，采樣溫度為 1.0，以減少訓練階段與推理階段分布不一致帶來的偏差。

在強化學習階段，Ring-1T 的性能提升主要依賴兩項關鍵技術：IcePop和C3PO++。其中，IcePop的目標是讓訓練過程更加穩定，避免模型在訓練和推理階段出現表現不一致的情況。

簡單來說，它會在每次更新模型參數時，對不穩定或異常的樣本進行“篩選”和“削弱”。具體做法是：計算訓練階段與推理階段之間的概率差異，如果某個 token 的概率偏離太大，就會被部分“掩蓋”或降低權重。這樣可以防止模型在訓練中因為極端樣本而產生劇烈波動。

除此之外，IcePop 采用了參數 α=0.5、β=5.0 的范圍，也就是只讓概率比值處于 [0.5, 5.0] 的樣本參與優化。研究人員還測試了不同范圍的配置（如 [0.5, 2.0]、[0.4, 5.0]），結果表明默認參數在訓練穩定性與性能之間達到了平衡。

而之后的 C3PO++ 則負責優化 rollout 過程，使訓練在大規模分布式環境下更加高效，特別是在處理超長序列時。傳統方法在遇到很長的推理樣本時會拖慢整個訓練進程，而 C3PO++ 通過“分段訓練”和“并行續傳”的方式解決了這個問題。

它設置了一個token 預算（Φ），當生成的 token 數達到預算上限時，就會立即觸發一次更新。系統分為兩個池子：推理池（P_infer）不斷生成新樣本，訓練池（Q_train）收集已經生成完成的樣本并進行更新，這樣推理和訓練就可以同時進行。

為了防止某些特別長的序列占用資源，C3PO++ 還給每個樣本設定了一個保留期（σ），超時未完成的樣本會被清除。而那些還沒生成完的樣本則會在下一輪繼續生成（即“跨迭代續傳”）。通過這些機制，C3PO++ 能讓訓練過程更加流暢高效，不會因為個別長樣本卡住整個系統。

總體來說，IcePop讓訓練更穩，C3PO++讓訓練更快，兩者結合，使 Ring-1T 能在萬億參數規模下保持高效、穩定的強化學習表現。

除此之外，為了讓萬億參數的 Ring-1T 模型能夠高效穩定地進行訓練，研究團隊還專門設計了一個分布式強化學習系統——ASystem。它的核心目標是：在海量 GPU 和超大模型的條件下，讓訓練、推理和參數更新能夠同時、高效地進行，而不會因為系統瓶頸導致中斷或效率下降。

ASystem 采用一種叫SingleController + SPMD的并行架構。簡單來說，就是用一個中央控制器來統一調度成千上萬的計算節點，讓每個節點都執行相同的訓練流程，從而保證全系統的同步與高效協作。

整個系統由四個主要模塊組成：

Hybrid Runtime：這是訓練和推理的統一執行環境，負責同時管理模型訓練和模型測試的計算任務，避免不同系統之間反復傳輸數據。

AMem：負責 GPU 顯存的管理和數據傳輸。它可以在不同顯卡之間切換內存、使用多條數據通道傳輸信息，并通過共享內存池減少顯存占用，從而支持更大的批量訓練而不會崩潰。

AState：負責在不同計算節點之間同步模型參數。它采用點對點（P2P）的高效傳輸方式，只同步必要的部分，能在大約 10 秒內完成萬億級參數的同步。

ASandbox：相當于一個安全的“實驗沙盒”，用于執行代碼生成、數學計算和邏輯驗證等推理任務。它像“函數即服務”一樣，可以在隔離環境中同時運行成千上萬個推理請求。

在系統設計上，ASystem 將控制邏輯和數據流分離，使訓練、推理和獎勵計算模塊都能獨立運行。它還具有“快速失敗與自動恢復”機制：如果某個節點出現問題，系統能自動檢測并恢復運行，而不會影響整體訓練進度。

通過這些設計，ASystem 讓 Ring-1T 能夠在成千 GPU 的大規模環境中穩定運行，實現高吞吐、高可靠的強化學習訓練。

開源智能的下一步

過去的模型大多依賴數據去模仿人類答案，但面對復雜推理或邏輯問題時容易出錯。Ring-1T 的研究探索了一種新的思路 —— 通過強化學習讓模型在反饋中不斷調整自己的思考方式，逐步形成更穩定、更清晰的推理能力。

它的另一個意義在于證明了超大規模強化學習是可以實現的。以前這種規模的模型常常訓練不穩、成本高、容易崩潰，而這項研究用新的算法和系統設計，找到了一種讓萬億參數模型穩定訓練的方法。這為后續更復雜、更自主的模型研究提供了可操作的經驗。

從更長遠的角度看，這項工作也讓開源模型有機會在高層次智能上追上閉源系統。它或許不只是一次技術升級，而是讓智能研究變得更開放、更有延續性的一步。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.