螞蟻最近好卷啊,
兩周內先后開源了Ring-1T-preview、Ling-1T和Ring-1T,Ring-1T同時是全球首個開源的萬億思考模型,這名頭夠響亮,也夠讓我半夜開機來個全面測試。
ling.tbox.cn
![]()
在正式開測前,我覺得需要理一下螞蟻這一系列新模型,螞蟻,就是我們手機里那個能種樹、能付錢的支付寶螞蟻,
他們發(fā)布的大模型中文名叫百靈,有三個系列,Ling代表語言模型,Ring代表思考模型,Ming則代表多模態(tài)模型。
![]()
跟preview版不同,正式版Ring-1T完成了完整的訓練流程,包括繼續(xù)通過大規(guī)模可驗證獎勵強化學習訓練提升了推理能力,通過RLHF訓練提升了模型通用能力。
來看看紙面實力吧,Ring-1T在數(shù)學競賽(AIME 25、HMMT 25),代碼生成(LiveCodeBench、CodeForce-Elo),邏輯推理(ARC-AGI-v1)上達到了開源SOTA水平。
![]()
光速開測,用的是我的大模型噩夢級測試案例1.1版,跟DeepSeek V3.2(開深度思考)來個PK。公開所有提示語,每個提示語跑三次,取效果最好的一次作為最終結果。包括SVG、物理模擬、前端設計、可交互3D四大類
有些提示語比較長,以及連同輸出的代碼和效果我都打包到文檔了,公眾號后臺發(fā)“ring”就好啦。
先來個SVG熱熱身,
繪制一個騎自行車的鵜鶘的 SVG 圖像
![]()
![]()
Ring-1T(左側)差個腳踏,輪子、車架、鳥本體都有了,而 DeepSeek V3.2 畫出來的鵜鶘還是如此穩(wěn)定實現(xiàn)了腳身分離,方向也反了,車把也沒了。
為了讓大家清晰看出差別,我又又又又把另外16個模型的跑出來的鵜鶘拿出來了,什么看到能忍不住不笑啊
![]()
再來看看常見的物理模擬,
用 HTML、CSS 和 JavaScript 實現(xiàn)這樣一個效果:一個小球被困在一個旋轉的六邊形內部。小球受到地球重力的作用,并與六邊形內壁產生摩擦。小球的彈跳需要看起來逼真自然。
Ring-1T:
DeepSeek V3.2:
Ring-1T和DeepSeek V3.2都提供了多項參數(shù)選擇,包含但不限于小球重置,增減六邊形旋轉速度,還可以取消動力,Ring-1T在這個基礎上還增加了反彈和墻面摩擦力。
接著測測UI組件,復刻我天天見的界面,
幫我做一個 Microsoft Word 的克隆版本,但只需要前端部分。
Ring-1T:
DeepSeek V3.2:
上次測試了Excel,這次測測看word文檔的復刻效果怎么樣,
除了加粗、斜體、下劃線,Ring-1T還可以實現(xiàn)字體大小調整,左中右對齊。界面本體和功能切換上真能唬住我,這種case測起來就有種驚喜感,明明沒有期待它能完成除了前端外的別的功能,但是抽盲盒能抽出來。
Create animated cards in HTML, JS, and CSS with hover effects, transitions, and responsive design. Include 3-5 cards with different content.
Ring-1T:
DeepSeek V3.2:
這個屬于是天氣組件的變體,不做任何限制,就讓模型出卡,它們都選擇了帶放大特效和按鈕變色。我發(fā)現(xiàn)DeepSeek V3.2特別喜歡用暖色,Ring-1T反而喜歡用冷色調,有點想測測它們的16人格了。
UI測完了,來個可交互的3D界面,
好久沒做貪吃蛇了,來看看現(xiàn)在能做到什么程度了
Build a complex Snake game in JavaScript with power-ups, multiple levels, and score tracking UI.
Ring-1T:
DeepSeek V3.2:
現(xiàn)在已經可以給貪吃蛇加上速度、磁力、雙倍積分和護盾了,DeepSeek V3.2把色塊做出來了,但是沒有起到作用。
回到模型本身,
Ring-1T在Ling-1T-base基礎上通過LongCoT-SFT + RLVR + RLHF多階段訓練出來的,Ling-1T用的是MoE結構,前4層是dense結構,后面76層才是MoE,一共256個專家,每次激活參數(shù)約51B,預訓練數(shù)據(jù)20T Tokens,全程采用FP8精度訓練
https://huggingface.co/inclusionAI/Ring-1T
https://modelscope.cn/models/inclusionAI/Ring-1T
![]()
除了直接對話,Ring-1T也已經上線到螞蟻的多Agent平臺百寶箱里了,
百寶箱我之前也做過測評,幾步就可以拉起一個自己的Agent團隊,還可以在支付寶上kuku收錢。
![]()
在訓練過程中,螞蟻還有兩大神器。
一個叫Icepop,中文叫棒冰的算法,它的作用就是當一根棒冰(字面意義上),給模型的強化學習訓練過程降溫,通過修正了訓練和推理階段的精度差異,避免了長周期訓練中GRPO算法可能出現(xiàn)的崩潰問題。
在技術報告里面放出了兩張圖,
![]()
圖左:GRPO訓推差異隨著訓練成指數(shù)上升,Icepop較為平穩(wěn);
圖右:訓推差異最大值,GRPO隨著訓練上升非常明顯,Icepop維持在較低水位
我用大白話解釋一下,
左圖看的是整體情況:IcePop整體很穩(wěn),GRPO整體上越來越不穩(wěn)定。
右圖看的是極端情況:GRPO不僅整體不穩(wěn)定,在最壞情況下的差異還在持續(xù)惡化。而IcePop在最壞情況下,差異也遠小于GRPO,并保持在相對可控的范圍內。
另一個則是自研的高性能強化學習系統(tǒng)ASystem,它的任務只有一個,搞定萬億參數(shù)這種巨無霸模型的訓練。
https://github.com/inclusionAI/AReaL
- 模型的個頭太大,把它塞進顯卡里,內存會爆掉。那就只把當前計算需要的那一小部分數(shù)據(jù)放進顯卡。
- 模型需要在一個安全的環(huán)境里不斷練習才能進步。那就提供多個獨立的練習房(沙箱),模型想練就練,而且每秒能支撐上萬次練習。
可能很多人不知道螞蟻還悶聲搞了不少事,
在模型層除了基礎語言模型Ling-1T和這次的推理模型Ring-1T,馬上還會更新多模態(tài)模型Ming,
框架層也沒放過,除了上面提到的Asystem,還有多智能體系統(tǒng)框架AWorld,
應用層也還有,除了上面提到的多Agent百寶箱,還有AI健康管家AQ、AI理財管家螞小財、AI生活管家
該有的都有了,
這樣來看,螞蟻開源模型更像是件順手的事。
那來都來了,
在線吃我一波催更再走吧。
@ 作者 / 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發(fā)|評論
如果想要第一時間收到推送,不妨給我個星標
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.