<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      螞蟻開源 Ring-1T,成就推理、編程、通用智能三冠王

      0
      分享至



      AIME 93.4分,開源模型首次逼近人類極限。

      作者丨鄭佳美

      編輯丨馬曉寧

      AI 能不能真正“動腦子”?這個問題有了新答案。

      螞蟻開源團隊推出的Ring-1T模型,為這個長期存在的疑問提供了最具說服力的實證。不同于以往依賴海量數據“記憶”答案的語言模型,Ring-1T 試圖讓 AI 在復雜問題中真正“推理”出答案。

      它通過強化學習與多階段推理機制的結合,使模型能夠在反饋中不斷修正思路、優化邏輯路徑,逐步形成更穩定、更接近人類思維的推理模式。

      正是這種從“模仿”到“思考”的轉變,讓 Ring-1T 成為開源 AI 領域的一次里程碑式突破。接下來,讓我們看看這項研究是如何實現的。


      論文地址:

      https://arxiv.org/pdf/2510.18855

      01

      通用智能的火花

      實驗中Ring-1T 模型在多個高難度推理與數學基準上進行了系統性評估,都取得了突破性的實驗成果。作為一個開源的萬億參數思考型模型,Ring-1T 分別在推理、數學、編程及通用智能任務上均展現出卓越的綜合能力。

      數學推理能力方面,Ring-1T 在 AIME-2025中取得 93.4 分的成績,接近人類頂尖選手水平;在 HMMT-2025 中得分 86.72,顯示其在跨領域數學推理與高復雜度邏輯演算中的強大能力;在 IMO-2025 模擬評測中達到銀牌水平,證明模型能夠在需要多步推理與創造性證明的問題中保持高準確率和穩定性。


      編程與算法能力上,模型在 Codeforces 平臺測試中獲得 2088 分,達到人類程序員的高水平區間。這表明 Ring-1T 不僅能夠理解算法邏輯,還能在有限時間內生成高效、可執行的代碼,具備良好的算法復雜度控制與問題分解能力。


      通用智能推理任務中,Ring-1T 在 ARC-AGI-v1 中取得 55.94 分,顯著超越此前開源模型的平均表現。該結果表明,模型在抽象模式識別、思維遷移與多步認知推理方面具備接近通用人工智能的潛力。

      總體而言,Ring-1T 在各項基準測試中表現出優異的穩定性與一致性,尤其在復雜推理與多步邏輯任務中未出現顯著性能退化。與此前主要停留在百億或千億參數規模的開源模型相比,Ring-1T 在數學、推理與算法任務上全面刷新了開源模型的性能上限,成為新一代開源思考型模型的性能基準。


      實驗結果還表明,該模型的高性能得益于論文提出的三項關鍵技術

      IcePop旨在提升強化學習訓練的穩定性,解決訓練與推理分布不一致的問題。它通過動態約束與梯度剪切,限制高熵樣本的影響,并自適應調整溫度參數,使模型在保持探索性的同時更穩定收斂,從而提高推理階段的可靠性。


      C3PO++專注于提升長序列推理和大規模 rollout 的效率。該方法采用動態分區和 token 預算機制,將推理過程劃分為多個小批次,并利用持久化緩沖區續傳未完成任務,有效提升 GPU 利用率和整體訓練吞吐量。


      ASystem則是支撐萬億參數強化學習的分布式架構。它整合統一的訓練與推理運行時、高效的顯存管理、快速的參數同步以及安全的隔離執行環境,使大規模模型訓練具備更高的并行性、穩定性與容錯性。

      02

      算法與系統的共振

      論文中體現的實驗過程,主要以Ring-1T 思考型模型為研究對象,研究人員設計了分階段的訓練體系,包括監督微調(SFT)、推理強化學習(Reasoning RL)通用強化學習(General RL)。研究的主要突破集中在后兩個階段,通過引入IcePop、C3PO++ASystem等方法,實現了在大規模強化學習中的穩定訓練與高效推理。


      實驗中,Ring-1T 模型的訓練過程經過精心設計,以在萬億參數規模下同時保證穩定性和效率。團隊在訓練時采用AdamW 優化器,其超參數設定為 β?=0.9、β?=0.999,權重衰減為 0.01;同時固定了 MoE路由器的偏置項,以保持參數更新的穩定。推理與采樣階段的設置在兩個強化學習階段中保持一致,KL 系數設為 0.0,采樣溫度為 1.0,以減少訓練階段與推理階段分布不一致帶來的偏差。

      在強化學習階段,Ring-1T 的性能提升主要依賴兩項關鍵技術:IcePopC3PO++。其中,IcePop的目標是讓訓練過程更加穩定,避免模型在訓練和推理階段出現表現不一致的情況。

      簡單來說,它會在每次更新模型參數時,對不穩定或異常的樣本進行“篩選”和“削弱”。具體做法是:計算訓練階段與推理階段之間的概率差異,如果某個 token 的概率偏離太大,就會被部分“掩蓋”或降低權重。這樣可以防止模型在訓練中因為極端樣本而產生劇烈波動。

      除此之外,IcePop 采用了參數 α=0.5、β=5.0 的范圍,也就是只讓概率比值處于 [0.5, 5.0] 的樣本參與優化。研究人員還測試了不同范圍的配置(如 [0.5, 2.0]、[0.4, 5.0]),結果表明默認參數在訓練穩定性與性能之間達到了平衡。


      而之后的 C3PO++ 則負責優化 rollout 過程,使訓練在大規模分布式環境下更加高效,特別是在處理超長序列時。傳統方法在遇到很長的推理樣本時會拖慢整個訓練進程,而 C3PO++ 通過“分段訓練”和“并行續傳”的方式解決了這個問題。

      它設置了一個token 預算(Φ),當生成的 token 數達到預算上限時,就會立即觸發一次更新。系統分為兩個池子:推理池(P_infer)不斷生成新樣本,訓練池(Q_train)收集已經生成完成的樣本并進行更新,這樣推理和訓練就可以同時進行。

      為了防止某些特別長的序列占用資源,C3PO++ 還給每個樣本設定了一個保留期(σ),超時未完成的樣本會被清除。而那些還沒生成完的樣本則會在下一輪繼續生成(即“跨迭代續傳”)。通過這些機制,C3PO++ 能讓訓練過程更加流暢高效,不會因為個別長樣本卡住整個系統。

      總體來說,IcePop讓訓練更穩,C3PO++讓訓練更快,兩者結合,使 Ring-1T 能在萬億參數規模下保持高效、穩定的強化學習表現。


      除此之外,為了讓萬億參數的 Ring-1T 模型能夠高效穩定地進行訓練,研究團隊還專門設計了一個分布式強化學習系統——ASystem。它的核心目標是:在海量 GPU 和超大模型的條件下,讓訓練、推理和參數更新能夠同時、高效地進行,而不會因為系統瓶頸導致中斷或效率下降。

      ASystem 采用一種叫SingleController + SPMD的并行架構。簡單來說,就是用一個中央控制器來統一調度成千上萬的計算節點,讓每個節點都執行相同的訓練流程,從而保證全系統的同步與高效協作。

      整個系統由四個主要模塊組成:

      Hybrid Runtime:這是訓練和推理的統一執行環境,負責同時管理模型訓練和模型測試的計算任務,避免不同系統之間反復傳輸數據。

      AMem:負責 GPU 顯存的管理和數據傳輸。它可以在不同顯卡之間切換內存、使用多條數據通道傳輸信息,并通過共享內存池減少顯存占用,從而支持更大的批量訓練而不會崩潰。

      AState:負責在不同計算節點之間同步模型參數。它采用點對點(P2P)的高效傳輸方式,只同步必要的部分,能在大約 10 秒內完成萬億級參數的同步。

      ASandbox:相當于一個安全的“實驗沙盒”,用于執行代碼生成、數學計算和邏輯驗證等推理任務。它像“函數即服務”一樣,可以在隔離環境中同時運行成千上萬個推理請求。

      在系統設計上,ASystem 將控制邏輯和數據流分離,使訓練、推理和獎勵計算模塊都能獨立運行。它還具有“快速失敗與自動恢復”機制:如果某個節點出現問題,系統能自動檢測并恢復運行,而不會影響整體訓練進度。

      通過這些設計,ASystem 讓 Ring-1T 能夠在成千 GPU 的大規模環境中穩定運行,實現高吞吐、高可靠的強化學習訓練。


      03

      開源智能的下一步

      過去的模型大多依賴數據去模仿人類答案,但面對復雜推理或邏輯問題時容易出錯。Ring-1T 的研究探索了一種新的思路 —— 通過強化學習讓模型在反饋中不斷調整自己的思考方式,逐步形成更穩定、更清晰的推理能力。

      它的另一個意義在于證明了超大規模強化學習是可以實現的。以前這種規模的模型常常訓練不穩、成本高、容易崩潰,而這項研究用新的算法和系統設計,找到了一種讓萬億參數模型穩定訓練的方法。這為后續更復雜、更自主的模型研究提供了可操作的經驗。

      從更長遠的角度看,這項工作也讓開源模型有機會在高層次智能上追上閉源系統。它或許不只是一次技術升級,而是讓智能研究變得更開放、更有延續性的一步。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      何晴葬禮剛結束,令人擔憂事發生!兒子被詬病,網友:簡直沒人性

      何晴葬禮剛結束,令人擔憂事發生!兒子被詬病,網友:簡直沒人性

      娛小余
      2025-12-17 19:30:13
      演員張澍:許亞軍為她放棄買第二套房子,何晴兒子對她稱呼太有愛

      演員張澍:許亞軍為她放棄買第二套房子,何晴兒子對她稱呼太有愛

      古希臘掌管月桂的神
      2025-12-17 19:24:57
      許亞軍也沒想到,何晴留給他的24歲兒子,如今卻成了他的“救贖”

      許亞軍也沒想到,何晴留給他的24歲兒子,如今卻成了他的“救贖”

      往史過眼云煙
      2025-12-18 19:44:53
      不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

      不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

      火山詩話
      2025-12-18 18:47:29
      騙走 80 后眼淚的神片:《媽媽再愛我一次》,中年再看全是PUA

      騙走 80 后眼淚的神片:《媽媽再愛我一次》,中年再看全是PUA

      白羽居士
      2025-12-09 18:38:18
      最能騙的上市公司,被姐弟倆5年掏空了

      最能騙的上市公司,被姐弟倆5年掏空了

      大貓財經Pro
      2025-12-16 18:29:58
      泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

      泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

      商務范
      2025-12-18 14:16:58
      打起來了!賴清德抓捕13個國民黨人,鄭麗文和蔣萬安宣戰賴清德!

      打起來了!賴清德抓捕13個國民黨人,鄭麗文和蔣萬安宣戰賴清德!

      特特農村生活
      2025-12-18 11:31:26
      中央明確規定:從明年起,將對普通高中進行擴招。

      中央明確規定:從明年起,將對普通高中進行擴招。

      百態人間
      2025-12-18 05:00:04
      曾導致馬爾卡寧交易告吹,記者:勇士比以往任何時候都更愿意交易波杰

      曾導致馬爾卡寧交易告吹,記者:勇士比以往任何時候都更愿意交易波杰

      懂球帝
      2025-12-18 14:33:16
      曝36歲江蘇瀧有2個孩子!爆料人稱女方是富二代,帶孩子在美國

      曝36歲江蘇瀧有2個孩子!爆料人稱女方是富二代,帶孩子在美國

      葉公子
      2025-12-17 20:44:50
      腎好人不老!多吃3種“補腎黃金”,夜尿少、腰不酸,60歲像40

      腎好人不老!多吃3種“補腎黃金”,夜尿少、腰不酸,60歲像40

      江江食研社
      2025-12-17 08:30:08
      洪森太太有多美?找遍中國古代詩詞,也無法形容她的絕世美貌!

      洪森太太有多美?找遍中國古代詩詞,也無法形容她的絕世美貌!

      古裝影視解說阿兇
      2025-10-20 06:32:17
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      衛報評2025百大球星70-11名:C羅51,梅西34,維尼修斯22

      衛報評2025百大球星70-11名:C羅51,梅西34,維尼修斯22

      懂球帝
      2025-12-18 23:00:09
      聯盟首筆雙贏交易出爐!掘金用25+7高炮搭首輪簽,換場均11+3鋒線

      聯盟首筆雙贏交易出爐!掘金用25+7高炮搭首輪簽,換場均11+3鋒線

      你的籃球頻道
      2025-12-18 13:35:38
      北控遭打擊:沈梓捷不到2分鐘受傷 腿部腫脹將去醫院檢查

      北控遭打擊:沈梓捷不到2分鐘受傷 腿部腫脹將去醫院檢查

      醉臥浮生
      2025-12-18 20:39:18
      被刪50多分鐘,無奈補拍多組鏡頭,仍被定級“成人藝術”

      被刪50多分鐘,無奈補拍多組鏡頭,仍被定級“成人藝術”

      棱鏡電影
      2025-12-18 22:08:53
      看西班牙王后穿大衣,我悟了:裙過膝,衣不花哨不緊身,高級顯貴

      看西班牙王后穿大衣,我悟了:裙過膝,衣不花哨不緊身,高級顯貴

      八分搭配
      2025-11-30 00:06:13
      3天狂跌30%,又一巨虧大妖股崩了?

      3天狂跌30%,又一巨虧大妖股崩了?

      財經銳眼
      2025-12-17 18:22:44
      2025-12-18 23:15:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7012文章數 20715關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽總決賽收官

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      頭條要聞

      在野黨參議員問了句日本"存亡危機" 高市早苗瞬間冷臉

      體育要聞

      紐約尼克斯,板正的球隊

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      房產
      游戲
      時尚
      教育
      數碼

      房產要聞

      搶藏瘋潮!封關時代,海口頂奢王炸壓軸,傳世資產即刻登場!

      德瑪西亞杯:痛苦終于結束了,TT零封ZSM!

      鞋子專場||穿了五年十年,掏心窩子說,最常穿的還是這一雙!

      教育要聞

      所謂教育,不過是三分說,七分等

      數碼要聞

      豪威集團發布超低功耗單芯片全彩場序微顯示器賦能新一代智能眼鏡

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产av剧情无码精品色午夜| 欧洲精品码一区二区三区| 天天噜噜噜在线视频| 亚洲av成人午夜福利| 91福利姬| 日韩人妻无码网站| 国语对白做受xxxxx在线中国| yy111111在线尤物| 国产熟妇??码视频| 报价| 77777亚洲午夜久久多人| 国产色无码专区在线观看| 亚洲123| 国内自拍欧美亚洲| 人妻丰满熟妇av无码区不卡| 欧美成人h亚洲综合在线观看| 全球顶级metart裸体自慰全部| 日韩?人妻?无码?制服| av明星换脸无码精品区| 最近中文国语字幕在线播放| 黑人成人网| 精品国产AV二区| 亚洲区日韩精品中文字幕| 亚洲精品不卡av在线播放| 老王av| 国产-第1页-浮力影院| 日本丰满熟妇乱子伦| 中文字幕一区二区三区擦澡| 国产浮力第一页| 亚洲综合伊人久久综合| 亚洲夂夂婷婷色拍ww47| 亚洲免费v片| 九月婷婷人人澡人人添人人爽| 五月丁香六月综合av| 国产免费久久精品44| 午夜社区| 亚洲精品久久久久成人2007| 在线免费不卡视频| 国产精品va| 天天干白白操| 福利cosplayh裸体の福利|