<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Ubiquant團隊推出通用推理模型URM:讓AI像人類一樣循環(huán)思考

      0
      分享至


      這項由Ubiquant公司研究團隊完成的突破性研究發(fā)表于2025年12月16日的arXiv預印本平臺(編號:arXiv:2512.14693v1),論文作者包括高子天、陳林霞、肖義豪、邢賀、陶然、羅浩明、周喬伊和戴布賴恩等研究者。有興趣深入了解技術細節(jié)的讀者可以通過該編號查詢完整論文。

      當我們解決復雜數(shù)學題時,往往需要反復思考、修正錯誤、重新嘗試,這個循環(huán)過程正是人類智慧的體現(xiàn)。而現(xiàn)在,Ubiquant的研究團隊成功讓人工智能也學會了這種"反復琢磨"的思考方式,創(chuàng)造出了一個名為通用推理模型(Universal Reasoning Model,簡稱URM)的AI系統(tǒng)。

      這個系統(tǒng)在目前最具挑戰(zhàn)性的AI推理測試——ARC-AGI測試中取得了令人矚目的成績。如果把這個測試比作AI界的高考,那么URM在ARC-AGI 1版本中達到了53.8%的正確率,在更困難的ARC-AGI 2版本中也獲得了16.0%的正確率。這些數(shù)字看起來可能不算驚人,但要知道,這些測試題目連很多聰明的人類都覺得頭疼,而且URM還在數(shù)獨游戲中達到了77.6%的準確率,證明了它確實具備了某種接近人類的推理能力。

      研究團隊深入剖析了為什么有些AI模型在復雜推理任務上表現(xiàn)突出,他們發(fā)現(xiàn)關鍵并不在于模型有多么復雜的架構設計,而在于一種被稱為"循環(huán)歸納偏置"的機制。簡單來說,就像我們做難題時會反復思考一樣,這些優(yōu)秀的AI模型也會對同一個問題進行多輪處理,每一輪都能讓答案變得更加精確。

      一、什么是通用變換器?為什么循環(huán)思考如此重要?

      要理解URM的工作原理,我們首先需要了解它的基礎——通用變換器(Universal Transformer)。如果把傳統(tǒng)的AI模型比作流水線工廠,那么每個工作站點都有專門的工人負責特定任務,產(chǎn)品從第一個工作站依次傳遞到最后一個工作站完成生產(chǎn)。這種方式效率很高,但缺乏靈活性。

      而通用變換器更像是一個熟練的工匠作坊,只有一個萬能工匠,但他可以對同一件作品進行反復加工和完善。工匠會拿起一件半成品,仔細檢查、修改、改進,然后再次檢查這個改進后的版本,如此循環(huán)往復,直到作品達到滿意的質(zhì)量。這個"反復加工"的過程就是循環(huán)計算,而"萬能工匠"就是參數(shù)共享機制。

      研究團隊通過大量實驗證實了一個重要發(fā)現(xiàn):那些在復雜推理任務上表現(xiàn)優(yōu)異的AI模型,其成功的秘訣主要來自于這種循環(huán)處理機制,而不是復雜的模型架構。就像解數(shù)學題一樣,關鍵不在于你用了多少種不同的方法,而在于你是否愿意反復檢查和改進你的答案。

      為了驗證這個發(fā)現(xiàn),研究團隊設計了一個對比實驗。他們比較了傳統(tǒng)變換器和通用變換器在相同計算資源下的表現(xiàn)。結果顯示,即使傳統(tǒng)變換器使用了32倍的參數(shù)量,在ARC-AGI測試中的正確率也只有23.75%,而參數(shù)量少得多的通用變換器卻能達到40.0%的正確率。這就像是用復雜昂貴的機器生產(chǎn)的產(chǎn)品,質(zhì)量反而不如經(jīng)驗豐富的手工藝人精心制作的作品。

      二、URM的創(chuàng)新:短卷積模塊讓思考更加細致

      雖然循環(huán)處理是關鍵,但研究團隊發(fā)現(xiàn)還有改進空間。他們注意到,在人類思考過程中,我們不僅會反復思考整體問題,還會特別關注細節(jié)之間的關系。比如在解決視覺推理題目時,我們會仔細觀察相鄰圖案之間的關系,尋找局部規(guī)律。

      基于這個觀察,研究團隊為URM增加了一個名為ConvSwiGLU的短卷積模塊。如果把原來的處理方式比作用放大鏡逐個檢查每個部件,那么加入短卷積模塊后,AI就像戴上了特殊的眼鏡,能夠同時看清楚相鄰部件之間的微妙關系。

      這個改進看似微小,但效果顯著。在ARC-AGI測試中,加入短卷積模塊后的模型正確率從45.3%提升到了53.8%,提升幅度相當可觀。研究團隊還發(fā)現(xiàn),這個模塊最好放置在模型的非線性處理部分,也就是說,在AI已經(jīng)對信息進行初步加工之后,再讓它關注局部細節(jié)關系,效果最佳。

      三、截斷反向傳播:避免"想太多"的困擾

      當AI模型進行太多輪循環(huán)思考時,就會出現(xiàn)一個有趣的現(xiàn)象,類似于人類"想太多"的情況。就像我們解題時如果反復糾結于前面的步驟,可能會影響整體的思考效率,甚至產(chǎn)生負面影響。

      研究團隊發(fā)現(xiàn),當模型進行8輪循環(huán)處理時,如果讓所有8輪都參與學習過程的反饋調(diào)整,效果反而不如只讓后面6輪參與調(diào)整。這就像是告訴AI:"前面兩輪的思考就當作熱身,不用太在意對錯,從第三輪開始才認真計分。"

      這種被稱為截斷反向傳播的技術,讓模型在保持循環(huán)思考優(yōu)勢的同時,避免了過度糾結早期步驟的問題。實驗結果顯示,采用這種方法后,模型在ARC-AGI測試中的正確率從36.25%提升到了39.13%,證明了這種"適度放松"策略的有效性。

      四、非線性能力是推理的核心

      研究團隊還做了一個有趣的實驗,逐步削弱模型的非線性處理能力,觀察推理性能的變化。結果令人印象深刻:隨著非線性能力的減弱,模型的推理表現(xiàn)呈現(xiàn)出明顯的下降趨勢。

      具體來說,當他們將高級的SwiGLU激活函數(shù)替換為簡單的SiLU時,模型正確率從53.75%下降到29.75%。而當進一步簡化為更基礎的ReLU函數(shù)時,正確率繼續(xù)下降到28.63%。最極端的情況是完全移除注意力機制中的softmax函數(shù),這時模型幾乎完全失去了推理能力,正確率跌至僅有2.00%。

      這個實驗揭示了一個重要真相:復雜推理任務需要強大的非線性處理能力。就像烹飪需要各種調(diào)料來創(chuàng)造豐富的口感一樣,AI推理也需要多樣化的非線性變換來處理復雜的邏輯關系。這解釋了為什么URM要特別強化非線性組件,以及為什么短卷積模塊能夠帶來顯著改善。

      五、優(yōu)化器選擇:訓練效率的提升

      在實際訓練過程中,研究團隊還比較了不同優(yōu)化算法的效果。他們發(fā)現(xiàn),使用名為Muon的先進優(yōu)化器比傳統(tǒng)的Adam優(yōu)化器能夠更快地達到相同的性能水平。在ARC-AGI 2測試中,Muon優(yōu)化器只需要大約60萬次訓練步驟就能達到11.5%的正確率,而Adam優(yōu)化器需要超過130萬次步驟才能達到同樣水平,訓練速度幾乎快了一倍。

      不過有趣的是,雖然Muon優(yōu)化器能讓模型更快地學會推理技巧,但最終兩種優(yōu)化器訓練出的模型性能相當。這說明優(yōu)化器主要影響的是學習效率,而不是模型的最終能力上限。

      六、與其他模型的全面對比

      為了充分驗證URM的優(yōu)勢,研究團隊將其與目前最先進的同類模型進行了全面對比。在ARC-AGI 1測試中,URM的53.8%正確率遠超TRM模型的40.0%和HRM模型的34.4%。在更具挑戰(zhàn)性的ARC-AGI 2測試中,URM的16.0%正確率幾乎是HRM的三倍,是TRM的兩倍多。

      這些對比不僅體現(xiàn)在單次嘗試的正確率上,當允許模型進行多次嘗試時,URM的優(yōu)勢更加明顯。比如在ARC-AGI 1測試中,當允許1000次嘗試時,URM的成功率能達到85.1%,而TRM和HRM分別只有64.4%和60.5%。這說明URM不僅在首次嘗試時表現(xiàn)優(yōu)異,而且具有更強的"舉一反三"能力,能夠通過多樣化的嘗試找到正確答案。

      七、技術實現(xiàn)的精妙之處

      URM的技術架構雖然聽起來復雜,但核心思想相當直觀。整個系統(tǒng)可以想象成一個既有固定流程又有循環(huán)改進的智能工廠。固定流程部分負責基礎的信息處理,就像流水線上的標準操作。而循環(huán)改進部分則像是質(zhì)檢環(huán)節(jié),會反復檢查和優(yōu)化產(chǎn)品質(zhì)量。

      在循環(huán)處理的每一輪中,模型都會運用注意力機制來重新審視問題的各個方面,然后通過包含短卷積的前饋網(wǎng)絡來細化理解。這個過程會重復多次,每一次都在前一次的基礎上進一步改進。最終,模型會運用自適應計算時間機制,根據(jù)問題的復雜程度自動決定需要多少輪循環(huán)處理。

      短卷積模塊的加入特別巧妙。它不是簡單地增加模型復雜度,而是專門針對相鄰信息的關系建模。研究團隊通過仔細實驗發(fā)現(xiàn),將這個模塊放在前饋網(wǎng)絡的特定位置效果最佳,這就像在合適的時機加入合適的調(diào)料,能夠顯著提升整道菜的味道。

      八、實際應用的廣闊前景

      雖然URM目前主要在學術測試中展現(xiàn)優(yōu)勢,但它的核心技術具有廣闊的應用前景。循環(huán)推理機制可以應用于任何需要多步驟邏輯分析的場景,比如醫(yī)療診斷、法律推理、工程設計等領域。

      在醫(yī)療診斷中,醫(yī)生通常需要綜合考慮患者的各種癥狀、檢查結果和病史信息,然后反復推理得出診斷結論。URM的循環(huán)推理能力可以幫助AI系統(tǒng)模擬這種診斷過程,提高診斷的準確性和可靠性。

      在工程設計領域,設計師經(jīng)常需要在多個約束條件之間尋找平衡,反復調(diào)整設計方案直到滿足所有要求。URM的這種反復優(yōu)化機制正好契合這類需求,可以幫助自動化設計系統(tǒng)生成更優(yōu)的解決方案。

      研究團隊特別強調(diào),URM的優(yōu)勢不僅在于最終性能,還在于其參數(shù)效率。相比需要巨大參數(shù)量的大型語言模型,URM用相對較少的參數(shù)就能實現(xiàn)強大的推理能力,這使得它更適合在資源受限的環(huán)境中部署,比如移動設備或邊緣計算場景。

      歸根結底,這項研究揭示了一個重要原理:在人工智能的推理任務中,"如何思考"比"知道多少"可能更加重要。URM通過模擬人類的循環(huán)思考過程,在復雜推理任務上取得了顯著突破。雖然目前的測試成績距離人類水平還有差距,但這種方法為AI推理能力的進一步提升指明了明確方向。

      更重要的是,這項研究證明了一個令人鼓舞的觀點:我們不一定需要更大、更復雜的模型來提升AI的智能水平,而是需要更好地理解和模擬人類思維的本質(zhì)特征。當AI學會了像人類一樣反復思考、注重細節(jié)、適度放松時,它就能在復雜推理任務中展現(xiàn)出接近甚至超越人類的能力。這為未來AI技術的發(fā)展提供了全新的思路和可能性,也讓我們對真正智能的人工智能充滿期待。

      Q&A

      Q1:通用推理模型URM與傳統(tǒng)AI模型有什么區(qū)別?

      A:URM最大的特點是采用循環(huán)思考機制,就像人類解難題時會反復思考一樣。傳統(tǒng)AI模型更像流水線,信息只處理一遍就輸出結果,而URM會對同一個問題進行多輪循環(huán)處理,每一輪都能讓答案更精確。這種設計讓URM在復雜推理任務上表現(xiàn)更好,用更少的參數(shù)就能達到更高的準確率。

      Q2:URM在ARC-AGI測試中的53.8%正確率意味著什么?

      A:ARC-AGI被認為是目前最具挑戰(zhàn)性的AI推理測試,連很多聰明的人類都覺得困難。URM在ARC-AGI 1中達到53.8%的正確率,遠超其他先進模型,這表明它具備了接近人類水平的抽象推理能力。更重要的是,當允許多次嘗試時,URM的成功率能達到85%以上,顯示出強大的問題解決潛力。

      Q3:URM技術能應用到哪些實際場景中?

      A:URM的循環(huán)推理機制可以應用于任何需要多步驟邏輯分析的領域。比如醫(yī)療診斷中,可以幫助AI模擬醫(yī)生反復分析癥狀的過程;在工程設計中,可以幫助系統(tǒng)在多個約束條件間尋找最優(yōu)解;在法律推理中,可以輔助分析復雜案例。由于URM參數(shù)效率高,還特別適合在手機等移動設備上部署。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣廈110-80深圳迎5連勝,胡金秋11+5,孫銘徽11分,王浩然19+7

      廣廈110-80深圳迎5連勝,胡金秋11+5,孫銘徽11分,王浩然19+7

      懂球帝
      2025-12-27 21:45:19
      為報戰(zhàn)友救命之恩,我娶了他38歲的姐姐,結婚2年我才發(fā)現(xiàn)她身份

      為報戰(zhàn)友救命之恩,我娶了他38歲的姐姐,結婚2年我才發(fā)現(xiàn)她身份

      蕭竹輕語
      2025-12-12 16:25:15
      炸鍋!俄持續(xù)狂轟敖德薩,致平民死傷設施全毀,烏:這是蓄意屠殺

      炸鍋!俄持續(xù)狂轟敖德薩,致平民死傷設施全毀,烏:這是蓄意屠殺

      華言觀評
      2025-12-26 18:54:31
      科比遺孀圣誕曬全家福,三女綠裙同框似爸爸,她說永不再婚?

      科比遺孀圣誕曬全家福,三女綠裙同框似爸爸,她說永不再婚?

      科學發(fā)掘
      2025-12-27 14:00:26
      1960年代,許世友想要安徽一個湖,省委書記拍桌子:手伸太長!結局誰也沒想到

      1960年代,許世友想要安徽一個湖,省委書記拍桌子:手伸太長!結局誰也沒想到

      源溯歷史
      2025-12-22 12:14:11
      驚呆了!現(xiàn)役國手26分鐘得1分都難,球迷:打人機隊能1分不得?

      驚呆了!現(xiàn)役國手26分鐘得1分都難,球迷:打人機隊能1分不得?

      弄月公子
      2025-12-27 22:03:29
      突發(fā)!知名網(wǎng)紅“表哥”覃進展破產(chǎn),自曝原因惹爭議,已搬到農(nóng)村

      突發(fā)!知名網(wǎng)紅“表哥”覃進展破產(chǎn),自曝原因惹爭議,已搬到農(nóng)村

      裕豐娛間說
      2025-12-26 23:15:19
      優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

      優(yōu)質(zhì)“蛋白質(zhì)”排行榜!牛奶倒數(shù)第一,蝦肉才排第5,建議了解

      岐黃傳人孫大夫
      2025-12-20 10:00:03
      曼城幸運2分鐘!迪亞斯逃紅,賴因德斯閃擊,首次射正就領先

      曼城幸運2分鐘!迪亞斯逃紅,賴因德斯閃擊,首次射正就領先

      奧拜爾
      2025-12-27 21:47:27
      繪說現(xiàn)代化丨冰雪龍江 熱力全開

      繪說現(xiàn)代化丨冰雪龍江 熱力全開

      人民資訊
      2025-12-27 08:38:42
      遼寧推妻墜海案中,死者兒子案發(fā)后的舉動,才叫人頭皮發(fā)麻…

      遼寧推妻墜海案中,死者兒子案發(fā)后的舉動,才叫人頭皮發(fā)麻…

      媒體人溪婉
      2024-11-29 13:57:59
      一天只能吃一個雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

      一天只能吃一個雞蛋的謊言,被徹底拆穿了,我們被騙了近百年

      小胡軍事愛好
      2025-12-27 17:38:58
      中國又一技術震驚世界,西方巨頭紛紛求合作,這黑科技到底有多牛

      中國又一技術震驚世界,西方巨頭紛紛求合作,這黑科技到底有多牛

      通文知史
      2025-12-26 20:00:02
      陪睡陪玩不過是皮毛!萬達百億資產(chǎn)蒸發(fā)后,王思聰又曝驚天丑聞

      陪睡陪玩不過是皮毛!萬達百億資產(chǎn)蒸發(fā)后,王思聰又曝驚天丑聞

      牛鍋巴小釩
      2025-12-24 10:39:19
      日本高層赴俄,在中國背后捅刀,高市早苗知道:拼速度的時候到了

      日本高層赴俄,在中國背后捅刀,高市早苗知道:拼速度的時候到了

      歷史有些冷
      2025-12-26 18:45:05
      本賽季薪水最高的十名球星,其中四名球員高薪低能名不副實

      本賽季薪水最高的十名球星,其中四名球員高薪低能名不副實

      李帕在北漂
      2025-12-26 19:47:37
      慘!10天不到就裁掉!昔日天才榜眼啊,還不如落選秀

      慘!10天不到就裁掉!昔日天才榜眼啊,還不如落選秀

      格斗聯(lián)盟王大錘
      2025-12-27 21:09:48
      南博事件后續(xù),曝南京敏求藝術品公司人去樓空,牽扯到徐湘江

      南博事件后續(xù),曝南京敏求藝術品公司人去樓空,牽扯到徐湘江

      千言娛樂記
      2025-12-27 18:47:20
      萬科資不抵債

      萬科資不抵債

      地產(chǎn)微資訊
      2025-12-27 09:07:18
      驚魂!深圳一小汽車突發(fā)意外,失控沖出道路!車體4/5懸空,在懸崖邊緣搖搖欲墜…

      驚魂!深圳一小汽車突發(fā)意外,失控沖出道路!車體4/5懸空,在懸崖邊緣搖搖欲墜…

      廣東活動
      2025-12-27 12:11:49
      2025-12-27 22:28:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      6680文章數(shù) 544關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業(yè)界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

      財經(jīng)要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態(tài)度原創(chuàng)

      時尚
      教育
      手機
      本地
      公開課

      穿好雪地靴的4個訣竅,還挺有效!

      教育要聞

      30號展播!廣州市“Fun學英語”系列活動之“讀者劇場”展評活動|AI+教師發(fā)展公益行·廣州站

      手機要聞

      雷軍親自官宣:小米17 Ultra堪稱“顏值天花板”的小米影像旗艦手機

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 樟树市| 四虎影视永久在线观看| 成人av午夜在线观看| 玩弄丰满少妇一二三区| 美女成人网站| 宁明县| 在线精品视频一区二区三四| 中文日韩亚洲欧美字幕| 国产在线观看网址不卡一区 | 亚洲中文字幕无码一区| 国产永久免费高清在线观看| 欧美啪啪视频| AV无码人妻| 精品人妻少妇| 少妇粉嫩小泬喷水视频| 欧美精品国产综合久久| 制服中文字幕在线| 国精产品无码| 久久精品人人做人人爽电影蜜月| 国产亚洲AV| jizzjizz国产| AV天堂色| 乌克兰美女浓毛bbw| 欧美伊人| 专区国产无码| 成人AV综合网| 日本高清视频在线www色| 99久久久无码国产精品免费 | 一级毛片网| 国产精品天天干| jizz偷拍| 国产精品激情| 色色97| 99精品成人| av一本久道久久波多野结衣| 粗大的内捧猛烈进出| 成人欧美日韩一区二区三区| 国产ts| 午夜被窝网| 亚洲综合国产色| 波多野结衣av无码久久一区|