今年一開年,智元機器人就整了個大活。
它旗下的智元具身研究中心,這兩天發布了一套面向真實世界部署的在線后訓練系統——SOP(Scalable Online Post-training)框架。
為什么說它是個大活?
簡單講,現在的模型都是訓練完成后再上線,這導致搭載了模型的機器人一旦出廠就“智能凍結”,沒辦法根據真實物理世界的變化及時學習,也不能靈活地執行任務。
而SOP框架,就是針對這個問題的解決方案。它可以讓多個機器人在部署后同時執行任務,把任務執行中的數據(成功和失敗的都包括)一起傳到云端。如果一個機器人在真實場景中遇到問題,經過云端分鐘級在線更新策略,其他機器人也能立刻一起學會正確操作。
![]()
也就是說,現實世界不再是讓機器人懵逼的考場,反而成了能讓一堆機器人邊干邊學、更智能的訓練資源。這是現在全球AI重點探索方向——Online Learning,在機器人領域中的進展。
從技術角度拆解,這套SOP系統主要是通過優化后訓練模式,提升VLA模型在特定任務上的效果。
之前大語言模型(LLM)結合強化學習的后訓練,已經被證明有效并成為事實標準。但具身領域,VLA的后訓練由于數據偏移、真機后訓練規模受限、單一后訓練可能降低泛化能力,并沒有像LLM的后訓練一樣成功。
所以,SOP的這套框架,通過剛剛提到的多個機器人執行任務—實時上傳數據—云端學習、模型更新—立即下發的過程,在物理世界的后訓練中整合了在線、分布式和多任務。
這些特點,能讓多個機器人在真實大規模地持續學習中,迅速提升各個任務性能,同時不“忘記”之前學會的通用基礎能力。
那么這套方法的效果如何呢?
智元具身研究中心選擇了HG-DAgger(典型單機在線算法)和RECAP(最新SOTA離線算法)作對比。
能看出,經過SOP優化后的模型,在不同任務上的成功率都會更高。
![]()
在智元給出的真實任務展示中,還能看到經過SOP在線學習的機器人,在疊衣服和組裝紙盒的長程評估中,實現了超過36小時的連續運行,性能也沒有衰減。
*經加速展示
這項工作發布之后,智元合伙人兼首席科學家羅劍嵐接受了包括「四木相對論」在內的媒體訪談。他補充了SOP接下來的落地節奏,并對這套系統在機器人領域的價值做了更多梳理。
以下是對話全文(經整理):
Q:2025年機器人領域的關鍵詞是 VLA和世界模型。你覺得對2026年,機器人領域現在有什么共識?
羅劍嵐:不知道能不能代表機器人領域,我只講講自己的觀察。
我的觀察是,通用性固然很重要,但部署中的任務熟練度和可靠性,才是決定機器人能否真正落地的關鍵。過去幾年,大模型、VLA、預訓練有非常大的提升,但機器人能否穩定、高效、長時間完成具體任務是一個問號,這非常高度依賴真實世界的訓練閉環。
智元的判斷是,2026 年是機器人從會做很多事,但每個事做得不太好,走向把事情做好并落地的關鍵節點。這要求學習范式從靜態離線訓練升級為部署學習再部署的整套數據閉環系統,正是基于這個判斷,我們提出SOP系統級解決方案。
Q:從單機離線到分布式在線的系統化跨越,SOP系統起到了什么作用?對于機器人疊衣服柔性物體精細化操作的問題,解決了哪些過去難以突破的技術瓶頸?
羅劍嵐:SOP是一個系統、是一個框架,在系統層面把執行和學習真正耦合起來。具體來講,解決的核心技術瓶頸是三點。
一是非常低延遲的在線反饋。現在機器人犯錯以后,需要糾正并盡快反映到模型里。
二是分布式數據的多樣性和一致性。多機器人并行采集的時候,會經歷各種各樣不同的場景,需要穩定獲取高質量的數據經驗。
第三點是最重要的一點,SOP保證了它的通用性不退化。
像疊衣服、疊紙盒子、商超里 500 多種物體補貨、上貨,成功率很高,用的都是一個模型。而之前的工作,用一個通用VLA模型,在單個場景里微調,overfit(過擬合)到那一個場景上,機器人就會把之前的任務忘掉。而我們這個不會,SOP架構里是一個通用且泛化的模型,可以講它是一個通用的專才。提升某一個任務表現的時候,不會犧牲掉整體模型的泛化能力。
Q:SOP的一個關鍵點,在于把訓練由離線變成了在線。對機器人而言,它最革命性的改變是學得更快還是學的東西不一樣了?
羅劍嵐:我認為這兩者都有。它學得更快,學的東西也不一樣,但我更強調學得不一樣。因為在線后訓練的關鍵是真實場景發生犯的錯誤,這是真真實實的錯誤,而不是編出來的錯誤。把學習資源集中在當前錯誤的失敗模式上,所以它會更快、更貼近落地所需的可靠性。
Q:之前單個場景訓練時,單個場景也會發生很多錯誤。是不是也可以在單個場景訓練學到不一樣的東西?
羅劍嵐:但原來是離線訓練,就是在單個場景由人去遙操,去設想各種場景。首先這不是真的機器人執行時犯的錯誤,二是不包括經歷這些狀態時包含的錯誤。而在線多機訓練,是在真實的場景里執行這個策略,觀察這個策略會犯的錯誤,再把它糾正過來,這樣效率會高很多。
Q:關于在線學習,以前機器人學習的是正確的數據,而失敗數據對機器人也有價值。那么怎么防止機器人學壞?有什么機制?
羅劍嵐:負面數據對學習很有益。就像人做任何一件事都要經歷試錯,知道什么事做,什么事不做。
強化學習是一個很好的框架,可以從原理上處理負面數據,就是給負面數據低權重,讓它知道什么是好的什么是壞的,通過動態規劃把這一系列東西串起來。
整體來說,我們既要有正例數據,也要有負例數據。SOP加上強化學習,可以從原理上很好地利用負數據,有時候負數據甚至比正數據更有用。
關于安全約束的機制,在算法層面,負數據放到value function(價值函數)上,它會擬合這個value function。如果是錯誤的行為,它的權重會降低。
Q:什么樣的負面數據相對而言更有價值?
羅劍嵐:首先是hard case(長尾場景/難例),也就是難挖掘的能力。
舉個例子,在自動駕駛里的復雜高架橋場景,可能有一個高架橋有 3 層,有輔助、有主路,每次都會走錯。不走一兩次解決它,能力始終上不去。
回到機器人。比如機器人疊衣服,要甩一下、疊一下。之前的成功率上不去,是因為它抓不到衣角,就會一直空抓,導致工作時長很長但成功率很低。這些負例數據,可以很好地提升性能。
Q:SOP是分鐘級,甚至秒級回流。未來部署過程中,算力、帶寬和部署成本,會不會成為規模化落地的瓶頸制約?
羅劍嵐:這也是我們做SOP第一天就考慮的問題,就是要有一套非常魯棒、健壯、可擴展的軟件工程 infra。這套系統的軟件工程需要魯棒到,往里加一臺機器人、十臺機器人、一百臺機器人理論上沒有區別。
底層基礎設施也是有挑戰的。有的機器人初創公司在做海底光纜,超大帶寬的數據回流,這些我們也在看。這件事不僅需要軟件算法創新,也需要社會的基礎設施支持。
Q:SOP新機制上線后,原本的數采中心還有存在的必要嗎?
羅劍嵐:SOP是一個在線后訓練框架,它需要有一個預訓練模型,數采中心的離線數據可以給它提供基礎能力。
預訓練模型的能力等于出廠設置的能力。預訓練數據的來源,一開始大部分是數采中心,因為現在還沒有到大規模部署到真實世界的階段。隨著真實世界部署的機器數量越來越多,真實場景回流的數據也會變成訓練預訓練的數據,預訓練模型會變得越來越強。
有了SOP之后,在線部署能夠讓大量數據回流去訓練新的模型。隨著部署量越來越多,積累的數據會越來越多,后面的數據大頭來自真實世界部署產生的數據。
我認為現在離線的數據中心是主力,就像汽車的發電機把發動機打著的那一下,這還是很重要。因為我們不可能直接去部署一個零成功率的模型在真實世界,它要具備一定的基礎能力,才能通過SOP這套方法把效果拉起來。
Q:對SOP系統的規劃是?比如當機器人的數量達到多少,就能通過SOP實現怎樣的效果?
羅劍嵐:我們2026年有一個很大的重點是在真實世界部署通用機器人,目前業界還沒有人做。關于數量,論文里是幾十臺機器人,今年我們會部署比現在大幾個數量級以上的機器人,真正找到機器人真實場景部署和真實場景落地的Scaling law。
Q:SOP系統會不會受到機器人內部本體硬件差別的影響?
羅劍嵐:SOP的設計核心正是為了解決這一痛點。它支持多機器人、多本體的協同訓練,通過對數十臺機器人的數據進行任務均衡采樣,能夠有效隔離單一硬件的干擾,從而提取出跨本體的“最大公約數”。這種機制保證了模型不會被某類特定硬件“帶偏”。
簡單來說,如果集群中有100臺機器人,即便其中一臺噪聲很大,在其余99臺機器人的數據對沖下,該噪聲的影響也可以忽略不計。
Q:就是說就算機器人集群里有幾種不同的機器人,SOP系統也可以正常運行?
羅劍嵐:我們現在已經有這個結果了。它是可以跨本體的,但論文里我們沒有把這個結果放出來。其實我們用了自家機器人,也用了別家的好幾款機器人,最后的結果是可以跨本體泛化,下一個版本會放出來。
Q:智元接下來是否會考慮向行業開放SOP框架,或進行技術上的合作?在生態上有什么布局嗎?
羅劍嵐:首先SOP不是一個封閉系統,而是一種新的持續學習、在線學習、協同進化的方式。智元從成立之初就堅持走生態開放的路線。我們開源了很多數據和軟硬件,SOP這個工作當然也希望和更多的廠商一起共建。
在生態布局上,我們愿意和生態伙伴一起做場景共建,部署真實機器人。現在有些場景不是為機器人設計的,所以需要我們共同定義這個場景的任務規范、流程、監督信號、邊界等,把SOP的閉環真正接入業務流程里。
在這個層面我們很開放地希望和大家一起去共建,因為這不是某一家公司的事。我們會開放一些SOP的關鍵模塊和接口。因為SOP是個框架,任意的后訓練算法和模型都可以接進來。
從長遠來講,我們希望構建一個開放的機器人在線學習生態。不同的機器人本體都可以接入,讓數據共享上傳到云端一個大腦,數據回傳回來不斷進化,一起給大家使用。如果能找到行業伙伴,在各自擅長的場景中發揮優勢,我們可以一起推動整個機器人行業從靜態能力到動態進化的跨越。
Q:在工程制造、家庭服務或商用場景中,這套SOP適配難度有什么差異,現階段最容易落地的場景是什么?
羅劍嵐:難在不同的地方。工業制造對泛化性的要求會相對少一些,我們現在也在看一些工業制造的場景,但這種場景對整體的成功率和節拍、魯棒性要求非常高,否則會影響到線的產能。
家庭服務和商超,對成功率和性能的要求沒有工業場景那么苛刻,風險可控。但它是一個更加開放的場景,長尾任務更多。
我認為SOP在不同場景的適配難度存在明顯梯度。工業場景里的流程穩定、邊界清晰,責任、安全、工序劃分得很明確。我們把SOP引入到在線系統里面,機器人在這種可控的環境里,可以持續運行,不斷糾正失敗模式,能快速把成功率和節拍提升到可規模化的上線水平。
醫療護理的要求最高,對合規、安全、可解釋性的要求都很強。醫療護理的落地,會先從輔助性或非關鍵決策的環境開始。
對于家庭場景,實事求是地說,我不指望SOP能立馬覆蓋一個家庭,我認為這是一個逐步的過程。
就好像你有了預訓練模型,預訓練模型出廠就不可能是最優秀的模型一樣。有了預訓練模型再加上SOP,以逐步擴展任務能力的方式去落地,這是我認為這是未來有希望進入家庭的一種方式。通過部署更多的機器人,造成更多的數據回流,訓練更好的模型載體,部署更多的機器人。
所以,現階段最容易落地且明確產生商業價值的場景是工業制造和部分商業服務場景。
工業方面,我們已經有很多案例了。商業場景,比如商超和部分家庭,我們今年都會慢慢鋪開。商業場景既要保持高性能,也不能丟掉泛化能力,就要關注機器人在不同場景、門店等不同環境下的適應能力,通過機器人共享的經驗數據,不斷減少人工的介入。
SOP是個框架,框架是統一的,在任務的定義、監督上有一些小的適配差別。做SOP的初衷是希望有一個通用、可拓展的框架,不對場景做區分,只用少量適配就能各種場景一套系統全部拉通。
我們落地的整體原則是先在可控、可規模化的場景里把閉環跑穩,然后再逐步拓展到更復雜的真實世界。
Q:論文有一句話是“3小時SOP的經驗,對于機器人能力有30%的提升,80個小時的專家數據只有4%的提升。”似乎夸大一點講就是,對具身智能來說預訓練已死,未來是后訓練的世界。
羅劍嵐:這句話要拆開來講。我先講事實,3小時是在線訓練,這3個小時非常寶貴,是從錯誤里面恢復的數據,是糾正錯誤的數據。另外的80小時也好,160小時也好,是在數采中心里采集的靜態數據。
相當于機器人在做這件事的過程中犯錯,又在錯誤中吸取經驗。這樣的經歷只要有一點點,就比別人手把手教你做這件事重要得多。
再說回用離線數據做預訓練。現在很多公司有很多相關應用都看到性能上的瓶頸,所以大家在進行后訓練。但是你要說預訓練這么大的池子已經死了,我認為不會。就像Gemini 3的預訓練,依然能做出很多東西,比如多模態理解。而且這些在線數據也會回流回來,加到預訓練的池子里,去訓練預訓練的基座模型。
Q:這種在線后訓練的架構如果逐漸成熟,未來交付給客戶的機器人,會不會變成持續服務的模式?
羅劍嵐:和自動駕駛一樣,你買車回來以后,它會不斷更新版本一樣,模型會變得越來越好。
Q:但和車不一樣的是,工廠里可能不能接受一年后才能提升到100分的產品。
羅劍嵐:對于不同場景的適配梯度不一樣,工廠肯定不會先讓機器人跑一年。工廠是有一個成功率高的預訓練模型,因為它的場景相對結構化和固定。然后我們的微調時間很短,就可以上線。上線以后,持續學習的機制是在的,因為上線之后,就像用自動化設備過一段時間也得調整一次去適應新的情況。
當然這種情況,在工廠里的頻率比較低。如果是商超或超市,每天人來人往,每天情況不一樣,持續學習就是一個必要的措施。但即便是如此,也不代表每分每秒都在學習。特斯拉也不是每天在發版,而是幾個月發一次。可以通過scheduling(排期/調度),做到讓用戶沒什么感知,但真實性能提升的效果。
Q:技術博客提到多機采集可以阻止模型過擬合單機特定特征。那么多機特征會不會反過來影響到模型的學習?
羅劍嵐:我部分同意你的觀點,但我認為現在的AI或算法給我們的啟示是scale really matters(規模至關重要)。數據的多樣性和數據的規模,至少在現階段,遠比在特定場景去專門創建的數據重要得多。多機和單機,本質問題是單一場景還是多個廣泛場景,我認為后者的數據越來越多,對模型的魯棒性和健康性有更大的幫助。
Q:2026年對SOP落地應用的目標是什么,有沒有可量化的數據分享?
羅劍嵐:2026年我們考慮在真實世界大規模部署,SOP 是支撐這件事的基石。我們還在做相關工作,有進展的話,會第一時間對外部分享。
Q:明年智元會加大機器人在真實世界的部署。那么之后機器人公司的競爭核心,會不會從誰的模型更好,變成誰線下部署得最多、學得最快?
羅劍嵐:我認為這是一個閉環。誰部署的機器人最多,誰的真實世界的寶貴數據就更多,誰就能訓練出更好的模型。
Q:從真實世界邊做邊學數據回流的方式,從全球和行業來看是智元在獨創性地做嗎?
羅劍嵐:所有公司都想做這件事。但據我所知,我們是第一個把這個事做大的公司。我講得更嚴謹一點,現在它們并沒有真的部署在便利店等場景,當然這是智元今年的重點。但智元作為一家全棧公司,獨特優勢在于有能力去構建真實世界的閉環。硬件、本體、軟件、算法、工程,我們可以自己構造這樣一個閉環系統。這是我們的一個獨特優點。
我個人的一個夢想是希望今年在上海的超市看到機器人在真正干活,一個很大的規模。我們做這件事的優勢還有一個,本體量很大,部署量很大,數據量也會很大。
Q:聽下來SOP是機器人向真實世界邁入的第一小步,那么接下來第二步是什么?
羅劍嵐:是的,這是關鍵的第一步。第一步解決的是長期被忽略的問題,就是如何把真實部署中的經驗,穩定地低延遲地轉化為模型改進,并且在多機器人多任務下可規模化運行。如果這一步做不穩的話,后面所有的探索都是空談。所以我們扎扎實實先做好一個系統,把它跑穩。
在此基礎上,第二步的核心方向是三點。
一是,安全可控地在更開放的場景中擴展,因為現在更多是半結構化場景、可管理的環境。我們要逐步走向更復雜、更開放的真實世界。
二是,監督的進一步自動化。現在還有人類的干預,但隨著算法不斷提升,會減少對人類干預的依賴,會引入更成功、更自動的建模算法。
三是,持續學習能力的增強,也就是機器人不斷學習新任務新場景,同時避免遺忘已有的能力。我認為這是符合產業落地規律的選擇,也就是讓在線學習真正可用、可擴展地,逐步從封閉、半開放、開放的場景一步步驗證、部署、擴展、落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.