當(dāng)一句“把杯子拿過來”下達(dá)給機(jī)器人,它能聽懂指令、識(shí)別物體、規(guī)劃路徑,卻常在執(zhí)行瞬間動(dòng)作偏移、抓取失敗。長(zhǎng)期困擾具身智能領(lǐng)域的語義與運(yùn)動(dòng)銜接不足問題,讓高層推理與底層執(zhí)行相互割裂,最終導(dǎo)致機(jī)器人“想得明白,卻做不到位”。
核心原因在于,語義理解與運(yùn)動(dòng)控制之間,缺少一套穩(wěn)定、泛化、魯棒的閉環(huán)映射框架。
![]()
4月6日,智元機(jī)器人正式推出新一代具身智能基座大模型Genie Operator-2(GO-2),以統(tǒng)一架構(gòu)打通從邏輯推理到精準(zhǔn)動(dòng)作的執(zhí)行閉環(huán),依托數(shù)萬小時(shí)訓(xùn)練數(shù)據(jù)與架構(gòu)創(chuàng)新,在多項(xiàng)機(jī)器人基準(zhǔn)測(cè)試中取得行業(yè)領(lǐng)先成績(jī)。
01.
迭代升級(jí):GO-2 補(bǔ)齊規(guī)劃與執(zhí)行斷層,加速場(chǎng)景落地
2025年3月,智元推出GO-1基座模型,聚焦解決具身智能三大痛點(diǎn):語義與運(yùn)動(dòng)脫節(jié)、泛化能力不足、落地難度高。基于ViLLA架構(gòu),GO-1實(shí)現(xiàn)視覺、語言、動(dòng)作的統(tǒng)一建模,通過 VLM 多模態(tài)理解層、Latent Planner隱式規(guī)劃器與Action Expert動(dòng)作專家協(xié)同,完成 “理解-規(guī)劃-執(zhí)行”閉環(huán),讓機(jī)器人動(dòng)作生成更穩(wěn)定可靠。
![]()
搭配Genie Studio一站式開發(fā)平臺(tái),GO-1覆蓋數(shù)據(jù)采集至真機(jī)部署全流程,部署效率較傳統(tǒng)方案提升2-3倍,兼容通用數(shù)據(jù)格式,降低開發(fā)者上手與二次開發(fā)成本。該模型先后獲IROS最佳論文提名、機(jī)器人頂刊TRO接收、世界人工智能大會(huì)SAIL之星等榮譽(yù),已深度集成至Genie Studio平臺(tái),并完成真實(shí)場(chǎng)景規(guī)模化落地驗(yàn)證。
![]()
GO-1讓機(jī)器人具備可靠的理解能力,能聽懂指令、識(shí)別場(chǎng)景、自主規(guī)劃任務(wù)流程。但進(jìn)入復(fù)雜真實(shí)環(huán)境后,機(jī)器人雖能輸出合理規(guī)劃,卻難以保證動(dòng)作精準(zhǔn)落地。
舉個(gè)簡(jiǎn)單的例子,讓機(jī)器人整理廚房,它的邏輯很清晰:先從水池取出碗碟,放進(jìn)洗碗機(jī),再啟動(dòng)程序。理論上流程毫無問題,但實(shí)際操作中,可能因?yàn)橐曈X誤差抓偏了碗沿,或者轉(zhuǎn)身時(shí)手臂軌跡稍有偏移,最終導(dǎo)致碗碟掉落。
問題不在于規(guī)劃本身,而在于規(guī)劃與執(zhí)行之間存在銜接斷層,這也是行業(yè)長(zhǎng)期存在的語義 - 運(yùn)動(dòng)銜接難題。傳統(tǒng) VLA 模型鏈路為:高層語義推理→抽象表示→控制系統(tǒng)→機(jī)器人動(dòng)作,高層抽象指令與真實(shí)機(jī)器人動(dòng)作存在偏差,執(zhí)行階段控制模塊易脫離規(guī)劃,直接依據(jù)視覺信息生成動(dòng)作,導(dǎo)致長(zhǎng)程任務(wù)誤差累積、動(dòng)作偏離計(jì)劃、系統(tǒng)穩(wěn)定性下降。
GO-2 模型聚焦解決規(guī)劃到執(zhí)行的銜接問題,讓機(jī)器人不僅能 “看懂、聽懂”,更能穩(wěn)定、可靠地完成物理操作,實(shí)現(xiàn)知行合一。
02.
兩大核心架構(gòu):支撐機(jī)器人穩(wěn)定執(zhí)行復(fù)雜動(dòng)作
要讓機(jī)器人穩(wěn)定執(zhí)行任務(wù),需解決兩大關(guān)鍵:生成可落地的動(dòng)作規(guī)劃、在真實(shí)環(huán)境中穩(wěn)定執(zhí)行規(guī)劃。GO-2 圍繞這兩點(diǎn)構(gòu)建完整架構(gòu):通過動(dòng)作思維鏈完成高層動(dòng)作推理,通過異步雙系統(tǒng)保障穩(wěn)定執(zhí)行。
![]()
03.
動(dòng)作思維鏈:先推理,再執(zhí)行
傳統(tǒng)模型多直接生成動(dòng)作,GO-2 采用Action Chain-of-Thought(動(dòng)作思維鏈),在動(dòng)作空間完成前置推理(論文地址:https://arxiv.org/abs/2601.11404)。機(jī)器人先確定高層動(dòng)作序列,搭建宏觀行為路徑,再逐層拆解為可執(zhí)行步驟,貼近人類動(dòng)作規(guī)劃邏輯。
ACoT-VLA 架構(gòu)由顯式動(dòng)作推理器(EAR)與隱式動(dòng)作推理器(IAR)互補(bǔ)組成。EAR為輕量 Transformer,輸入視覺觀測(cè)與語言指令后,通過流匹配生成參考動(dòng)作軌跡,提供可執(zhí)行運(yùn)動(dòng)線索;IAR從VLM 隱層特征中提取視覺可及性、動(dòng)作語義等潛在先驗(yàn),補(bǔ)充隱性行為規(guī)律。
![]()
兩者輸出通過交叉注意力融合,送入動(dòng)作頭完成去噪,生成流暢精準(zhǔn)動(dòng)作。訓(xùn)練階段采用真實(shí)參考軌跡優(yōu)化,推理階段自主生成動(dòng)作,實(shí)現(xiàn)自條件生成。該技術(shù)相關(guān)論文《ACoT-VLA》已于 2026年3月9日被CVPR 2026接收。
04.
異步雙系統(tǒng):低頻規(guī)劃,高頻精準(zhǔn)跟隨
僅靠高層動(dòng)作規(guī)劃無法應(yīng)對(duì)真實(shí)環(huán)境擾動(dòng),傳感器噪聲、接觸狀態(tài)變化與場(chǎng)景干擾都會(huì)導(dǎo)致執(zhí)行偏差。GO-2 采用異步雙系統(tǒng)架構(gòu),以解耦節(jié)奏實(shí)現(xiàn)規(guī)劃與執(zhí)行的精準(zhǔn)匹配,機(jī)器人按“慢決策、快執(zhí)行”協(xié)同工作,穩(wěn)定將高層規(guī)劃轉(zhuǎn)化為真實(shí)動(dòng)作。
該系統(tǒng)由低頻語義規(guī)劃模塊與高頻動(dòng)作跟隨模塊協(xié)同構(gòu)成。語義規(guī)劃模塊以低頻率運(yùn)行,負(fù)責(zé)生成結(jié)構(gòu)化高層動(dòng)作序列,從宏觀意圖逐層拆解為分級(jí)子動(dòng)作指令,提供穩(wěn)定執(zhí)行導(dǎo)向;動(dòng)作跟隨模塊以高頻率運(yùn)行,實(shí)時(shí)接收規(guī)劃指令并結(jié)合現(xiàn)場(chǎng)觀測(cè)信息生成控制信號(hào),在擾動(dòng)中動(dòng)態(tài)修正姿態(tài)、力度與軌跡,始終貼合規(guī)劃路徑。
訓(xùn)練階段引入強(qiáng)制教學(xué)(teacher forcing)機(jī)制,以真實(shí)高層動(dòng)作序列為條件并注入規(guī)劃噪聲,讓模型在非完美規(guī)劃下仍可穩(wěn)定執(zhí)行,提升部署魯棒性。
![]()
最終,這套“低頻規(guī)劃 + 高頻跟隨”設(shè)計(jì),讓機(jī)器人兼顧任務(wù)穩(wěn)定性與精細(xì)控制能力,徹底打通規(guī)劃到執(zhí)行的關(guān)鍵鏈路。
05.
四項(xiàng)Benchmark全線第一!GO-2正在定義下一代具身智能標(biāo)準(zhǔn)
在全新架構(gòu)的支撐下,GO-2在多個(gè)主流具身智能基準(zhǔn)測(cè)試(benchmark)中,均取得了全面SOTA(現(xiàn)有最佳技術(shù))成績(jī),在任務(wù)成功率、環(huán)境魯棒性以及跨場(chǎng)景泛化能力上,都明顯領(lǐng)先于當(dāng)前主流模型,比如π05、NVIDIAGR00T。
具體來看各基準(zhǔn)測(cè)試的表現(xiàn),亮點(diǎn)十分突出:
? LIBERO Benchmark:GO-2在Spatial(空間)、Object(物體)、Goal(目標(biāo))與Long(長(zhǎng)程)四類任務(wù)中,均拿下排名第一的好成績(jī),平均成功率高達(dá)98.5%,展現(xiàn)出極強(qiáng)的基礎(chǔ)任務(wù)執(zhí)行能力。
![]()
? LIBERO-Plus Benchmark:這個(gè)測(cè)試專門設(shè)置了包含相機(jī)、光照、背景和噪聲等多種環(huán)境擾動(dòng)的場(chǎng)景,GO-2在零樣本測(cè)試中,平均成功率達(dá)到86.6%,遠(yuǎn)超目前已有的其他方法,充分體現(xiàn)出超強(qiáng)的環(huán)境適應(yīng)和泛化能力。
![]()
? VLA BenchBenchmark:在跨類別與紋理泛化測(cè)試中,GO-2平均得分達(dá)到47.4,尤其是在紋理泛化任務(wù)上,表現(xiàn)遠(yuǎn)優(yōu)于其他同類模型,進(jìn)一步驗(yàn)證了其跨場(chǎng)景適配能力。
![]()
? Genie Sim3.0 Benchmark(Sim-to-Real):這是面向真實(shí)世界遷移的評(píng)測(cè),GO-2僅使用仿真數(shù)據(jù)訓(xùn)練,在真實(shí)環(huán)境測(cè)試中就取得了82.9%的平均成功率,零樣本跨域遷移能力表現(xiàn)出色,明顯優(yōu)于π0.5的77.5%。
![]()
06.
從靜態(tài)模型到持續(xù)進(jìn)化的生產(chǎn)力系統(tǒng) GO-2模型構(gòu)建規(guī)模化落地閉環(huán)
在實(shí)驗(yàn)室場(chǎng)景的任務(wù)執(zhí)行能力表現(xiàn)出色,但真實(shí)場(chǎng)景下這套模型是否具備持續(xù)進(jìn)化的能力十分關(guān)鍵。研究團(tuán)隊(duì)采用“基座模型+分布式強(qiáng)化學(xué)習(xí)”模式,讓機(jī)器人能在真實(shí)環(huán)境中不斷學(xué)習(xí)、持續(xù)進(jìn)化,真正適配實(shí)際應(yīng)用中的復(fù)雜需求。
![]()
依托Genie Studio開發(fā)平臺(tái),整個(gè)系統(tǒng)構(gòu)建起了面向真實(shí)世界的閉環(huán)學(xué)習(xí)能力:通過云端與多臺(tái)機(jī)器人的協(xié)同聯(lián)動(dòng),不斷采集機(jī)器人與環(huán)境的交互數(shù)據(jù),再進(jìn)行在線后訓(xùn)練,讓模型在真實(shí)場(chǎng)景中實(shí)時(shí)優(yōu)化,這一點(diǎn)完全區(qū)別于依賴離線數(shù)據(jù)或仿真環(huán)境做“紙上談兵”的訓(xùn)練。對(duì)機(jī)器人來說,每一次任務(wù)執(zhí)行,都是一次數(shù)據(jù)積累;每一次環(huán)境反饋,都是一次能力升級(jí)。
從官方反饋的數(shù)據(jù)來看,在工程與算法的協(xié)同優(yōu)化下,這套體系已經(jīng)具備了規(guī)模化運(yùn)行的實(shí)力,能夠支持千臺(tái)級(jí)機(jī)器人的調(diào)度與同步訓(xùn)練,訓(xùn)練效率相比以往提升了約10倍;在工業(yè)任務(wù)中,實(shí)現(xiàn)了分鐘級(jí)收斂,任務(wù)成功率提升2-4倍,同時(shí)對(duì)數(shù)據(jù)的需求降低了50%以上,大幅降低了落地成本。
![]()
通過“預(yù)訓(xùn)練+后訓(xùn)練+數(shù)據(jù)閉環(huán)”的一套體系,GO-2變成了一個(gè)能夠扎根真實(shí)世界,持續(xù)學(xué)習(xí)、不斷進(jìn)化,真正能創(chuàng)造價(jià)值的生產(chǎn)力系統(tǒng)。
07.
邁向具身Agent:長(zhǎng)期記憶補(bǔ)齊智能最后一環(huán)
在GO-2的基礎(chǔ)上,智元正在進(jìn)一步探索完整的具身智能系統(tǒng)架構(gòu)。當(dāng)機(jī)器人已經(jīng)能夠穩(wěn)定行動(dòng)之后,它能不能記住過往的經(jīng)驗(yàn),并且在實(shí)踐中不斷變得更聰明?
![]()
圍繞這個(gè)方向,智元在今年3月率先推出了OpenClaw記憶系統(tǒng)(arXiv:https://arxiv.org/abs/2603.11558),這是一個(gè)面向長(zhǎng)周期機(jī)器人操作任務(wù)的智能體框架,統(tǒng)一數(shù)據(jù)收集、策略學(xué)習(xí)與任務(wù)執(zhí)行全流程,解決傳統(tǒng)視覺-語言-動(dòng)作(VLA)系統(tǒng)在長(zhǎng)周期任務(wù)中依賴人工、易出錯(cuò)、擴(kuò)展性差的問題。
![]()
框架以視覺-語言模型(VLM)為元控制器,通過上下文學(xué)習(xí)與思維鏈推理,結(jié)合結(jié)構(gòu)化記憶完成環(huán)境感知、任務(wù)規(guī)劃與技能調(diào)度。核心創(chuàng)新是糾纏動(dòng)作對(duì)(EAP),為每個(gè)操作策略配對(duì)正向執(zhí)行與逆向恢復(fù)行為,形成自復(fù)位循環(huán),讓機(jī)器人無需人工干預(yù)即可持續(xù)采集在線數(shù)據(jù),大幅降低人力成本。
OpenClaw框架在真實(shí)機(jī)器人平臺(tái)驗(yàn)證,長(zhǎng)周期任務(wù)成功率較基線提升25%,數(shù)據(jù)收集人力投入減少53.7%,子任務(wù)策略經(jīng)迭代數(shù)據(jù)學(xué)習(xí)后成功率明顯提升。
有了這個(gè)框架,機(jī)器人可以記錄下每次交互的經(jīng)驗(yàn),積累各類操作技能,遇到新任務(wù)時(shí),還能直接復(fù)用已經(jīng)掌握的知識(shí),不用再?gòu)牧汩_始學(xué)習(xí)。
![]()
當(dāng)動(dòng)作推理、分層執(zhí)行與長(zhǎng)期記憶真正結(jié)合,機(jī)器人將逐步具備真正的具身Agent能力:感知世界、推理邏輯、執(zhí)行動(dòng)作、記住經(jīng)驗(yàn)、再優(yōu)化行動(dòng),一個(gè)完整的智能閉環(huán)正在慢慢形成。而這,也將成為下一代具身基礎(chǔ)模型的重要發(fā)展方向。
08.
結(jié)語與未來:
智元 GO-2 的發(fā)布,推動(dòng)具身智能邁向推理與執(zhí)行協(xié)同的新階段。當(dāng)機(jī)器人具備感知、理解、物理交互與持續(xù)進(jìn)化能力,具身智能規(guī)模化落地的進(jìn)程將進(jìn)一步加快。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.