Ubiquant團隊推出通用推理模型URM：讓AI像人類一樣循環(huán)思考

2025-12-20 21:12:41　來源: 科技行者

北京舉報

分享至

這項由Ubiquant公司研究團隊完成的突破性研究發(fā)表于2025年12月16日的arXiv預印本平臺（編號：arXiv:2512.14693v1），論文作者包括高子天、陳林霞、肖義豪、邢賀、陶然、羅浩明、周喬伊和戴布賴恩等研究者。有興趣深入了解技術細節(jié)的讀者可以通過該編號查詢完整論文。

當我們解決復雜數(shù)學題時，往往需要反復思考、修正錯誤、重新嘗試，這個循環(huán)過程正是人類智慧的體現(xiàn)。而現(xiàn)在，Ubiquant的研究團隊成功讓人工智能也學會了這種"反復琢磨"的思考方式，創(chuàng)造出了一個名為通用推理模型（Universal Reasoning Model，簡稱URM）的AI系統(tǒng)。

這個系統(tǒng)在目前最具挑戰(zhàn)性的AI推理測試——ARC-AGI測試中取得了令人矚目的成績。如果把這個測試比作AI界的高考，那么URM在ARC-AGI 1版本中達到了53.8%的正確率，在更困難的ARC-AGI 2版本中也獲得了16.0%的正確率。這些數(shù)字看起來可能不算驚人，但要知道，這些測試題目連很多聰明的人類都覺得頭疼，而且URM還在數(shù)獨游戲中達到了77.6%的準確率，證明了它確實具備了某種接近人類的推理能力。

研究團隊深入剖析了為什么有些AI模型在復雜推理任務上表現(xiàn)突出，他們發(fā)現(xiàn)關鍵并不在于模型有多么復雜的架構設計，而在于一種被稱為"循環(huán)歸納偏置"的機制。簡單來說，就像我們做難題時會反復思考一樣，這些優(yōu)秀的AI模型也會對同一個問題進行多輪處理，每一輪都能讓答案變得更加精確。

一、什么是通用變換器？為什么循環(huán)思考如此重要？

要理解URM的工作原理，我們首先需要了解它的基礎——通用變換器（Universal Transformer）。如果把傳統(tǒng)的AI模型比作流水線工廠，那么每個工作站點都有專門的工人負責特定任務，產(chǎn)品從第一個工作站依次傳遞到最后一個工作站完成生產(chǎn)。這種方式效率很高，但缺乏靈活性。

而通用變換器更像是一個熟練的工匠作坊，只有一個萬能工匠，但他可以對同一件作品進行反復加工和完善。工匠會拿起一件半成品，仔細檢查、修改、改進，然后再次檢查這個改進后的版本，如此循環(huán)往復，直到作品達到滿意的質(zhì)量。這個"反復加工"的過程就是循環(huán)計算，而"萬能工匠"就是參數(shù)共享機制。

研究團隊通過大量實驗證實了一個重要發(fā)現(xiàn)：那些在復雜推理任務上表現(xiàn)優(yōu)異的AI模型，其成功的秘訣主要來自于這種循環(huán)處理機制，而不是復雜的模型架構。就像解數(shù)學題一樣，關鍵不在于你用了多少種不同的方法，而在于你是否愿意反復檢查和改進你的答案。

為了驗證這個發(fā)現(xiàn)，研究團隊設計了一個對比實驗。他們比較了傳統(tǒng)變換器和通用變換器在相同計算資源下的表現(xiàn)。結果顯示，即使傳統(tǒng)變換器使用了32倍的參數(shù)量，在ARC-AGI測試中的正確率也只有23.75%，而參數(shù)量少得多的通用變換器卻能達到40.0%的正確率。這就像是用復雜昂貴的機器生產(chǎn)的產(chǎn)品，質(zhì)量反而不如經(jīng)驗豐富的手工藝人精心制作的作品。

二、URM的創(chuàng)新：短卷積模塊讓思考更加細致

雖然循環(huán)處理是關鍵，但研究團隊發(fā)現(xiàn)還有改進空間。他們注意到，在人類思考過程中，我們不僅會反復思考整體問題，還會特別關注細節(jié)之間的關系。比如在解決視覺推理題目時，我們會仔細觀察相鄰圖案之間的關系，尋找局部規(guī)律。

基于這個觀察，研究團隊為URM增加了一個名為ConvSwiGLU的短卷積模塊。如果把原來的處理方式比作用放大鏡逐個檢查每個部件，那么加入短卷積模塊后，AI就像戴上了特殊的眼鏡，能夠同時看清楚相鄰部件之間的微妙關系。

這個改進看似微小，但效果顯著。在ARC-AGI測試中，加入短卷積模塊后的模型正確率從45.3%提升到了53.8%，提升幅度相當可觀。研究團隊還發(fā)現(xiàn)，這個模塊最好放置在模型的非線性處理部分，也就是說，在AI已經(jīng)對信息進行初步加工之后，再讓它關注局部細節(jié)關系，效果最佳。

三、截斷反向傳播：避免"想太多"的困擾

當AI模型進行太多輪循環(huán)思考時，就會出現(xiàn)一個有趣的現(xiàn)象，類似于人類"想太多"的情況。就像我們解題時如果反復糾結于前面的步驟，可能會影響整體的思考效率，甚至產(chǎn)生負面影響。

研究團隊發(fā)現(xiàn)，當模型進行8輪循環(huán)處理時，如果讓所有8輪都參與學習過程的反饋調(diào)整，效果反而不如只讓后面6輪參與調(diào)整。這就像是告訴AI："前面兩輪的思考就當作熱身，不用太在意對錯，從第三輪開始才認真計分。"

這種被稱為截斷反向傳播的技術，讓模型在保持循環(huán)思考優(yōu)勢的同時，避免了過度糾結早期步驟的問題。實驗結果顯示，采用這種方法后，模型在ARC-AGI測試中的正確率從36.25%提升到了39.13%，證明了這種"適度放松"策略的有效性。

四、非線性能力是推理的核心

研究團隊還做了一個有趣的實驗，逐步削弱模型的非線性處理能力，觀察推理性能的變化。結果令人印象深刻：隨著非線性能力的減弱，模型的推理表現(xiàn)呈現(xiàn)出明顯的下降趨勢。

具體來說，當他們將高級的SwiGLU激活函數(shù)替換為簡單的SiLU時，模型正確率從53.75%下降到29.75%。而當進一步簡化為更基礎的ReLU函數(shù)時，正確率繼續(xù)下降到28.63%。最極端的情況是完全移除注意力機制中的softmax函數(shù)，這時模型幾乎完全失去了推理能力，正確率跌至僅有2.00%。

這個實驗揭示了一個重要真相：復雜推理任務需要強大的非線性處理能力。就像烹飪需要各種調(diào)料來創(chuàng)造豐富的口感一樣，AI推理也需要多樣化的非線性變換來處理復雜的邏輯關系。這解釋了為什么URM要特別強化非線性組件，以及為什么短卷積模塊能夠帶來顯著改善。

五、優(yōu)化器選擇：訓練效率的提升

在實際訓練過程中，研究團隊還比較了不同優(yōu)化算法的效果。他們發(fā)現(xiàn)，使用名為Muon的先進優(yōu)化器比傳統(tǒng)的Adam優(yōu)化器能夠更快地達到相同的性能水平。在ARC-AGI 2測試中，Muon優(yōu)化器只需要大約60萬次訓練步驟就能達到11.5%的正確率，而Adam優(yōu)化器需要超過130萬次步驟才能達到同樣水平，訓練速度幾乎快了一倍。

不過有趣的是，雖然Muon優(yōu)化器能讓模型更快地學會推理技巧，但最終兩種優(yōu)化器訓練出的模型性能相當。這說明優(yōu)化器主要影響的是學習效率，而不是模型的最終能力上限。

六、與其他模型的全面對比

為了充分驗證URM的優(yōu)勢，研究團隊將其與目前最先進的同類模型進行了全面對比。在ARC-AGI 1測試中，URM的53.8%正確率遠超TRM模型的40.0%和HRM模型的34.4%。在更具挑戰(zhàn)性的ARC-AGI 2測試中，URM的16.0%正確率幾乎是HRM的三倍，是TRM的兩倍多。

這些對比不僅體現(xiàn)在單次嘗試的正確率上，當允許模型進行多次嘗試時，URM的優(yōu)勢更加明顯。比如在ARC-AGI 1測試中，當允許1000次嘗試時，URM的成功率能達到85.1%，而TRM和HRM分別只有64.4%和60.5%。這說明URM不僅在首次嘗試時表現(xiàn)優(yōu)異，而且具有更強的"舉一反三"能力，能夠通過多樣化的嘗試找到正確答案。

七、技術實現(xiàn)的精妙之處

URM的技術架構雖然聽起來復雜，但核心思想相當直觀。整個系統(tǒng)可以想象成一個既有固定流程又有循環(huán)改進的智能工廠。固定流程部分負責基礎的信息處理，就像流水線上的標準操作。而循環(huán)改進部分則像是質(zhì)檢環(huán)節(jié)，會反復檢查和優(yōu)化產(chǎn)品質(zhì)量。

在循環(huán)處理的每一輪中，模型都會運用注意力機制來重新審視問題的各個方面，然后通過包含短卷積的前饋網(wǎng)絡來細化理解。這個過程會重復多次，每一次都在前一次的基礎上進一步改進。最終，模型會運用自適應計算時間機制，根據(jù)問題的復雜程度自動決定需要多少輪循環(huán)處理。

短卷積模塊的加入特別巧妙。它不是簡單地增加模型復雜度，而是專門針對相鄰信息的關系建模。研究團隊通過仔細實驗發(fā)現(xiàn)，將這個模塊放在前饋網(wǎng)絡的特定位置效果最佳，這就像在合適的時機加入合適的調(diào)料，能夠顯著提升整道菜的味道。

八、實際應用的廣闊前景

雖然URM目前主要在學術測試中展現(xiàn)優(yōu)勢，但它的核心技術具有廣闊的應用前景。循環(huán)推理機制可以應用于任何需要多步驟邏輯分析的場景，比如醫(yī)療診斷、法律推理、工程設計等領域。

在醫(yī)療診斷中，醫(yī)生通常需要綜合考慮患者的各種癥狀、檢查結果和病史信息，然后反復推理得出診斷結論。URM的循環(huán)推理能力可以幫助AI系統(tǒng)模擬這種診斷過程，提高診斷的準確性和可靠性。

在工程設計領域，設計師經(jīng)常需要在多個約束條件之間尋找平衡，反復調(diào)整設計方案直到滿足所有要求。URM的這種反復優(yōu)化機制正好契合這類需求，可以幫助自動化設計系統(tǒng)生成更優(yōu)的解決方案。

研究團隊特別強調(diào)，URM的優(yōu)勢不僅在于最終性能，還在于其參數(shù)效率。相比需要巨大參數(shù)量的大型語言模型，URM用相對較少的參數(shù)就能實現(xiàn)強大的推理能力，這使得它更適合在資源受限的環(huán)境中部署，比如移動設備或邊緣計算場景。

歸根結底，這項研究揭示了一個重要原理：在人工智能的推理任務中，"如何思考"比"知道多少"可能更加重要。URM通過模擬人類的循環(huán)思考過程，在復雜推理任務上取得了顯著突破。雖然目前的測試成績距離人類水平還有差距，但這種方法為AI推理能力的進一步提升指明了明確方向。

更重要的是，這項研究證明了一個令人鼓舞的觀點：我們不一定需要更大、更復雜的模型來提升AI的智能水平，而是需要更好地理解和模擬人類思維的本質(zhì)特征。當AI學會了像人類一樣反復思考、注重細節(jié)、適度放松時，它就能在復雜推理任務中展現(xiàn)出接近甚至超越人類的能力。這為未來AI技術的發(fā)展提供了全新的思路和可能性，也讓我們對真正智能的人工智能充滿期待。

Q&A

Q1：通用推理模型URM與傳統(tǒng)AI模型有什么區(qū)別？

A：URM最大的特點是采用循環(huán)思考機制，就像人類解難題時會反復思考一樣。傳統(tǒng)AI模型更像流水線，信息只處理一遍就輸出結果，而URM會對同一個問題進行多輪循環(huán)處理，每一輪都能讓答案更精確。這種設計讓URM在復雜推理任務上表現(xiàn)更好，用更少的參數(shù)就能達到更高的準確率。

Q2：URM在ARC-AGI測試中的53.8%正確率意味著什么？

A：ARC-AGI被認為是目前最具挑戰(zhàn)性的AI推理測試，連很多聰明的人類都覺得困難。URM在ARC-AGI 1中達到53.8%的正確率，遠超其他先進模型，這表明它具備了接近人類水平的抽象推理能力。更重要的是，當允許多次嘗試時，URM的成功率能達到85%以上，顯示出強大的問題解決潛力。

Q3：URM技術能應用到哪些實際場景中？

A：URM的循環(huán)推理機制可以應用于任何需要多步驟邏輯分析的領域。比如醫(yī)療診斷中，可以幫助AI模擬醫(yī)生反復分析癥狀的過程；在工程設計中，可以幫助系統(tǒng)在多個約束條件間尋找最優(yōu)解；在法律推理中，可以輔助分析復雜案例。由于URM參數(shù)效率高，還特別適合在手機等移動設備上部署。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.