![]()
這項由Ubiquant公司研究團隊完成的突破性研究發(fā)表于2025年12月16日的arXiv預印本平臺(編號:arXiv:2512.14693v1),論文作者包括高子天、陳林霞、肖義豪、邢賀、陶然、羅浩明、周喬伊和戴布賴恩等研究者。有興趣深入了解技術細節(jié)的讀者可以通過該編號查詢完整論文。
當我們解決復雜數(shù)學題時,往往需要反復思考、修正錯誤、重新嘗試,這個循環(huán)過程正是人類智慧的體現(xiàn)。而現(xiàn)在,Ubiquant的研究團隊成功讓人工智能也學會了這種"反復琢磨"的思考方式,創(chuàng)造出了一個名為通用推理模型(Universal Reasoning Model,簡稱URM)的AI系統(tǒng)。
這個系統(tǒng)在目前最具挑戰(zhàn)性的AI推理測試——ARC-AGI測試中取得了令人矚目的成績。如果把這個測試比作AI界的高考,那么URM在ARC-AGI 1版本中達到了53.8%的正確率,在更困難的ARC-AGI 2版本中也獲得了16.0%的正確率。這些數(shù)字看起來可能不算驚人,但要知道,這些測試題目連很多聰明的人類都覺得頭疼,而且URM還在數(shù)獨游戲中達到了77.6%的準確率,證明了它確實具備了某種接近人類的推理能力。
研究團隊深入剖析了為什么有些AI模型在復雜推理任務上表現(xiàn)突出,他們發(fā)現(xiàn)關鍵并不在于模型有多么復雜的架構設計,而在于一種被稱為"循環(huán)歸納偏置"的機制。簡單來說,就像我們做難題時會反復思考一樣,這些優(yōu)秀的AI模型也會對同一個問題進行多輪處理,每一輪都能讓答案變得更加精確。
一、什么是通用變換器?為什么循環(huán)思考如此重要?
要理解URM的工作原理,我們首先需要了解它的基礎——通用變換器(Universal Transformer)。如果把傳統(tǒng)的AI模型比作流水線工廠,那么每個工作站點都有專門的工人負責特定任務,產(chǎn)品從第一個工作站依次傳遞到最后一個工作站完成生產(chǎn)。這種方式效率很高,但缺乏靈活性。
而通用變換器更像是一個熟練的工匠作坊,只有一個萬能工匠,但他可以對同一件作品進行反復加工和完善。工匠會拿起一件半成品,仔細檢查、修改、改進,然后再次檢查這個改進后的版本,如此循環(huán)往復,直到作品達到滿意的質(zhì)量。這個"反復加工"的過程就是循環(huán)計算,而"萬能工匠"就是參數(shù)共享機制。
研究團隊通過大量實驗證實了一個重要發(fā)現(xiàn):那些在復雜推理任務上表現(xiàn)優(yōu)異的AI模型,其成功的秘訣主要來自于這種循環(huán)處理機制,而不是復雜的模型架構。就像解數(shù)學題一樣,關鍵不在于你用了多少種不同的方法,而在于你是否愿意反復檢查和改進你的答案。
為了驗證這個發(fā)現(xiàn),研究團隊設計了一個對比實驗。他們比較了傳統(tǒng)變換器和通用變換器在相同計算資源下的表現(xiàn)。結果顯示,即使傳統(tǒng)變換器使用了32倍的參數(shù)量,在ARC-AGI測試中的正確率也只有23.75%,而參數(shù)量少得多的通用變換器卻能達到40.0%的正確率。這就像是用復雜昂貴的機器生產(chǎn)的產(chǎn)品,質(zhì)量反而不如經(jīng)驗豐富的手工藝人精心制作的作品。
二、URM的創(chuàng)新:短卷積模塊讓思考更加細致
雖然循環(huán)處理是關鍵,但研究團隊發(fā)現(xiàn)還有改進空間。他們注意到,在人類思考過程中,我們不僅會反復思考整體問題,還會特別關注細節(jié)之間的關系。比如在解決視覺推理題目時,我們會仔細觀察相鄰圖案之間的關系,尋找局部規(guī)律。
基于這個觀察,研究團隊為URM增加了一個名為ConvSwiGLU的短卷積模塊。如果把原來的處理方式比作用放大鏡逐個檢查每個部件,那么加入短卷積模塊后,AI就像戴上了特殊的眼鏡,能夠同時看清楚相鄰部件之間的微妙關系。
這個改進看似微小,但效果顯著。在ARC-AGI測試中,加入短卷積模塊后的模型正確率從45.3%提升到了53.8%,提升幅度相當可觀。研究團隊還發(fā)現(xiàn),這個模塊最好放置在模型的非線性處理部分,也就是說,在AI已經(jīng)對信息進行初步加工之后,再讓它關注局部細節(jié)關系,效果最佳。
三、截斷反向傳播:避免"想太多"的困擾
當AI模型進行太多輪循環(huán)思考時,就會出現(xiàn)一個有趣的現(xiàn)象,類似于人類"想太多"的情況。就像我們解題時如果反復糾結于前面的步驟,可能會影響整體的思考效率,甚至產(chǎn)生負面影響。
研究團隊發(fā)現(xiàn),當模型進行8輪循環(huán)處理時,如果讓所有8輪都參與學習過程的反饋調(diào)整,效果反而不如只讓后面6輪參與調(diào)整。這就像是告訴AI:"前面兩輪的思考就當作熱身,不用太在意對錯,從第三輪開始才認真計分。"
這種被稱為截斷反向傳播的技術,讓模型在保持循環(huán)思考優(yōu)勢的同時,避免了過度糾結早期步驟的問題。實驗結果顯示,采用這種方法后,模型在ARC-AGI測試中的正確率從36.25%提升到了39.13%,證明了這種"適度放松"策略的有效性。
四、非線性能力是推理的核心
研究團隊還做了一個有趣的實驗,逐步削弱模型的非線性處理能力,觀察推理性能的變化。結果令人印象深刻:隨著非線性能力的減弱,模型的推理表現(xiàn)呈現(xiàn)出明顯的下降趨勢。
具體來說,當他們將高級的SwiGLU激活函數(shù)替換為簡單的SiLU時,模型正確率從53.75%下降到29.75%。而當進一步簡化為更基礎的ReLU函數(shù)時,正確率繼續(xù)下降到28.63%。最極端的情況是完全移除注意力機制中的softmax函數(shù),這時模型幾乎完全失去了推理能力,正確率跌至僅有2.00%。
這個實驗揭示了一個重要真相:復雜推理任務需要強大的非線性處理能力。就像烹飪需要各種調(diào)料來創(chuàng)造豐富的口感一樣,AI推理也需要多樣化的非線性變換來處理復雜的邏輯關系。這解釋了為什么URM要特別強化非線性組件,以及為什么短卷積模塊能夠帶來顯著改善。
五、優(yōu)化器選擇:訓練效率的提升
在實際訓練過程中,研究團隊還比較了不同優(yōu)化算法的效果。他們發(fā)現(xiàn),使用名為Muon的先進優(yōu)化器比傳統(tǒng)的Adam優(yōu)化器能夠更快地達到相同的性能水平。在ARC-AGI 2測試中,Muon優(yōu)化器只需要大約60萬次訓練步驟就能達到11.5%的正確率,而Adam優(yōu)化器需要超過130萬次步驟才能達到同樣水平,訓練速度幾乎快了一倍。
不過有趣的是,雖然Muon優(yōu)化器能讓模型更快地學會推理技巧,但最終兩種優(yōu)化器訓練出的模型性能相當。這說明優(yōu)化器主要影響的是學習效率,而不是模型的最終能力上限。
六、與其他模型的全面對比
為了充分驗證URM的優(yōu)勢,研究團隊將其與目前最先進的同類模型進行了全面對比。在ARC-AGI 1測試中,URM的53.8%正確率遠超TRM模型的40.0%和HRM模型的34.4%。在更具挑戰(zhàn)性的ARC-AGI 2測試中,URM的16.0%正確率幾乎是HRM的三倍,是TRM的兩倍多。
這些對比不僅體現(xiàn)在單次嘗試的正確率上,當允許模型進行多次嘗試時,URM的優(yōu)勢更加明顯。比如在ARC-AGI 1測試中,當允許1000次嘗試時,URM的成功率能達到85.1%,而TRM和HRM分別只有64.4%和60.5%。這說明URM不僅在首次嘗試時表現(xiàn)優(yōu)異,而且具有更強的"舉一反三"能力,能夠通過多樣化的嘗試找到正確答案。
七、技術實現(xiàn)的精妙之處
URM的技術架構雖然聽起來復雜,但核心思想相當直觀。整個系統(tǒng)可以想象成一個既有固定流程又有循環(huán)改進的智能工廠。固定流程部分負責基礎的信息處理,就像流水線上的標準操作。而循環(huán)改進部分則像是質(zhì)檢環(huán)節(jié),會反復檢查和優(yōu)化產(chǎn)品質(zhì)量。
在循環(huán)處理的每一輪中,模型都會運用注意力機制來重新審視問題的各個方面,然后通過包含短卷積的前饋網(wǎng)絡來細化理解。這個過程會重復多次,每一次都在前一次的基礎上進一步改進。最終,模型會運用自適應計算時間機制,根據(jù)問題的復雜程度自動決定需要多少輪循環(huán)處理。
短卷積模塊的加入特別巧妙。它不是簡單地增加模型復雜度,而是專門針對相鄰信息的關系建模。研究團隊通過仔細實驗發(fā)現(xiàn),將這個模塊放在前饋網(wǎng)絡的特定位置效果最佳,這就像在合適的時機加入合適的調(diào)料,能夠顯著提升整道菜的味道。
八、實際應用的廣闊前景
雖然URM目前主要在學術測試中展現(xiàn)優(yōu)勢,但它的核心技術具有廣闊的應用前景。循環(huán)推理機制可以應用于任何需要多步驟邏輯分析的場景,比如醫(yī)療診斷、法律推理、工程設計等領域。
在醫(yī)療診斷中,醫(yī)生通常需要綜合考慮患者的各種癥狀、檢查結果和病史信息,然后反復推理得出診斷結論。URM的循環(huán)推理能力可以幫助AI系統(tǒng)模擬這種診斷過程,提高診斷的準確性和可靠性。
在工程設計領域,設計師經(jīng)常需要在多個約束條件之間尋找平衡,反復調(diào)整設計方案直到滿足所有要求。URM的這種反復優(yōu)化機制正好契合這類需求,可以幫助自動化設計系統(tǒng)生成更優(yōu)的解決方案。
研究團隊特別強調(diào),URM的優(yōu)勢不僅在于最終性能,還在于其參數(shù)效率。相比需要巨大參數(shù)量的大型語言模型,URM用相對較少的參數(shù)就能實現(xiàn)強大的推理能力,這使得它更適合在資源受限的環(huán)境中部署,比如移動設備或邊緣計算場景。
歸根結底,這項研究揭示了一個重要原理:在人工智能的推理任務中,"如何思考"比"知道多少"可能更加重要。URM通過模擬人類的循環(huán)思考過程,在復雜推理任務上取得了顯著突破。雖然目前的測試成績距離人類水平還有差距,但這種方法為AI推理能力的進一步提升指明了明確方向。
更重要的是,這項研究證明了一個令人鼓舞的觀點:我們不一定需要更大、更復雜的模型來提升AI的智能水平,而是需要更好地理解和模擬人類思維的本質(zhì)特征。當AI學會了像人類一樣反復思考、注重細節(jié)、適度放松時,它就能在復雜推理任務中展現(xiàn)出接近甚至超越人類的能力。這為未來AI技術的發(fā)展提供了全新的思路和可能性,也讓我們對真正智能的人工智能充滿期待。
Q&A
Q1:通用推理模型URM與傳統(tǒng)AI模型有什么區(qū)別?
A:URM最大的特點是采用循環(huán)思考機制,就像人類解難題時會反復思考一樣。傳統(tǒng)AI模型更像流水線,信息只處理一遍就輸出結果,而URM會對同一個問題進行多輪循環(huán)處理,每一輪都能讓答案更精確。這種設計讓URM在復雜推理任務上表現(xiàn)更好,用更少的參數(shù)就能達到更高的準確率。
Q2:URM在ARC-AGI測試中的53.8%正確率意味著什么?
A:ARC-AGI被認為是目前最具挑戰(zhàn)性的AI推理測試,連很多聰明的人類都覺得困難。URM在ARC-AGI 1中達到53.8%的正確率,遠超其他先進模型,這表明它具備了接近人類水平的抽象推理能力。更重要的是,當允許多次嘗試時,URM的成功率能達到85%以上,顯示出強大的問題解決潛力。
Q3:URM技術能應用到哪些實際場景中?
A:URM的循環(huán)推理機制可以應用于任何需要多步驟邏輯分析的領域。比如醫(yī)療診斷中,可以幫助AI模擬醫(yī)生反復分析癥狀的過程;在工程設計中,可以幫助系統(tǒng)在多個約束條件間尋找最優(yōu)解;在法律推理中,可以輔助分析復雜案例。由于URM參數(shù)效率高,還特別適合在手機等移動設備上部署。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.