網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

重磅！智元GO-2基座模型發(fā)布：具身智能跨過“知行合一”關(guān)鍵門檻

2026-04-09 20:40:04　來源: 機(jī)器人大講堂

安徽舉報(bào)

分享至

當(dāng)一句“把杯子拿過來”下達(dá)給機(jī)器人，它能聽懂指令、識(shí)別物體、規(guī)劃路徑，卻常在執(zhí)行瞬間動(dòng)作偏移、抓取失敗。長(zhǎng)期困擾具身智能領(lǐng)域的語義與運(yùn)動(dòng)銜接不足問題，讓高層推理與底層執(zhí)行相互割裂，最終導(dǎo)致機(jī)器人“想得明白，卻做不到位”。

核心原因在于，語義理解與運(yùn)動(dòng)控制之間，缺少一套穩(wěn)定、泛化、魯棒的閉環(huán)映射框架。

4月6日，智元機(jī)器人正式推出新一代具身智能基座大模型Genie Operator-2（GO-2），以統(tǒng)一架構(gòu)打通從邏輯推理到精準(zhǔn)動(dòng)作的執(zhí)行閉環(huán)，依托數(shù)萬小時(shí)訓(xùn)練數(shù)據(jù)與架構(gòu)創(chuàng)新，在多項(xiàng)機(jī)器人基準(zhǔn)測(cè)試中取得行業(yè)領(lǐng)先成績(jī)。

01.

迭代升級(jí)：GO-2 補(bǔ)齊規(guī)劃與執(zhí)行斷層，加速場(chǎng)景落地

2025年3月，智元推出GO-1基座模型，聚焦解決具身智能三大痛點(diǎn)：語義與運(yùn)動(dòng)脫節(jié)、泛化能力不足、落地難度高。基于ViLLA架構(gòu)，GO-1實(shí)現(xiàn)視覺、語言、動(dòng)作的統(tǒng)一建模，通過 VLM 多模態(tài)理解層、Latent Planner隱式規(guī)劃器與Action Expert動(dòng)作專家協(xié)同，完成 “理解-規(guī)劃-執(zhí)行”閉環(huán)，讓機(jī)器人動(dòng)作生成更穩(wěn)定可靠。

搭配Genie Studio一站式開發(fā)平臺(tái)，GO-1覆蓋數(shù)據(jù)采集至真機(jī)部署全流程，部署效率較傳統(tǒng)方案提升2-3倍，兼容通用數(shù)據(jù)格式，降低開發(fā)者上手與二次開發(fā)成本。該模型先后獲IROS最佳論文提名、機(jī)器人頂刊TRO接收、世界人工智能大會(huì)SAIL之星等榮譽(yù)，已深度集成至Genie Studio平臺(tái)，并完成真實(shí)場(chǎng)景規(guī)模化落地驗(yàn)證。

GO-1讓機(jī)器人具備可靠的理解能力，能聽懂指令、識(shí)別場(chǎng)景、自主規(guī)劃任務(wù)流程。但進(jìn)入復(fù)雜真實(shí)環(huán)境后，機(jī)器人雖能輸出合理規(guī)劃，卻難以保證動(dòng)作精準(zhǔn)落地。

舉個(gè)簡(jiǎn)單的例子，讓機(jī)器人整理廚房，它的邏輯很清晰：先從水池取出碗碟，放進(jìn)洗碗機(jī)，再啟動(dòng)程序。理論上流程毫無問題，但實(shí)際操作中，可能因?yàn)橐曈X誤差抓偏了碗沿，或者轉(zhuǎn)身時(shí)手臂軌跡稍有偏移，最終導(dǎo)致碗碟掉落。

問題不在于規(guī)劃本身，而在于規(guī)劃與執(zhí)行之間存在銜接斷層，這也是行業(yè)長(zhǎng)期存在的語義 - 運(yùn)動(dòng)銜接難題。傳統(tǒng) VLA 模型鏈路為：高層語義推理→抽象表示→控制系統(tǒng)→機(jī)器人動(dòng)作，高層抽象指令與真實(shí)機(jī)器人動(dòng)作存在偏差，執(zhí)行階段控制模塊易脫離規(guī)劃，直接依據(jù)視覺信息生成動(dòng)作，導(dǎo)致長(zhǎng)程任務(wù)誤差累積、動(dòng)作偏離計(jì)劃、系統(tǒng)穩(wěn)定性下降。

GO-2 模型聚焦解決規(guī)劃到執(zhí)行的銜接問題，讓機(jī)器人不僅能 “看懂、聽懂”，更能穩(wěn)定、可靠地完成物理操作，實(shí)現(xiàn)知行合一。

02.

兩大核心架構(gòu)：支撐機(jī)器人穩(wěn)定執(zhí)行復(fù)雜動(dòng)作

要讓機(jī)器人穩(wěn)定執(zhí)行任務(wù)，需解決兩大關(guān)鍵：生成可落地的動(dòng)作規(guī)劃、在真實(shí)環(huán)境中穩(wěn)定執(zhí)行規(guī)劃。GO-2 圍繞這兩點(diǎn)構(gòu)建完整架構(gòu)：通過動(dòng)作思維鏈完成高層動(dòng)作推理，通過異步雙系統(tǒng)保障穩(wěn)定執(zhí)行。

03.

動(dòng)作思維鏈：先推理，再執(zhí)行

傳統(tǒng)模型多直接生成動(dòng)作，GO-2 采用Action Chain-of-Thought（動(dòng)作思維鏈），在動(dòng)作空間完成前置推理（論文地址：https://arxiv.org/abs/2601.11404）。機(jī)器人先確定高層動(dòng)作序列，搭建宏觀行為路徑，再逐層拆解為可執(zhí)行步驟，貼近人類動(dòng)作規(guī)劃邏輯。

ACoT-VLA 架構(gòu)由顯式動(dòng)作推理器（EAR）與隱式動(dòng)作推理器（IAR）互補(bǔ)組成。EAR為輕量 Transformer，輸入視覺觀測(cè)與語言指令后，通過流匹配生成參考動(dòng)作軌跡，提供可執(zhí)行運(yùn)動(dòng)線索；IAR從VLM 隱層特征中提取視覺可及性、動(dòng)作語義等潛在先驗(yàn)，補(bǔ)充隱性行為規(guī)律。

兩者輸出通過交叉注意力融合，送入動(dòng)作頭完成去噪，生成流暢精準(zhǔn)動(dòng)作。訓(xùn)練階段采用真實(shí)參考軌跡優(yōu)化，推理階段自主生成動(dòng)作，實(shí)現(xiàn)自條件生成。該技術(shù)相關(guān)論文《ACoT-VLA》已于 2026年3月9日被CVPR 2026接收。

04.

異步雙系統(tǒng)：低頻規(guī)劃，高頻精準(zhǔn)跟隨

僅靠高層動(dòng)作規(guī)劃無法應(yīng)對(duì)真實(shí)環(huán)境擾動(dòng)，傳感器噪聲、接觸狀態(tài)變化與場(chǎng)景干擾都會(huì)導(dǎo)致執(zhí)行偏差。GO-2 采用異步雙系統(tǒng)架構(gòu)，以解耦節(jié)奏實(shí)現(xiàn)規(guī)劃與執(zhí)行的精準(zhǔn)匹配，機(jī)器人按“慢決策、快執(zhí)行”協(xié)同工作，穩(wěn)定將高層規(guī)劃轉(zhuǎn)化為真實(shí)動(dòng)作。

該系統(tǒng)由低頻語義規(guī)劃模塊與高頻動(dòng)作跟隨模塊協(xié)同構(gòu)成。語義規(guī)劃模塊以低頻率運(yùn)行，負(fù)責(zé)生成結(jié)構(gòu)化高層動(dòng)作序列，從宏觀意圖逐層拆解為分級(jí)子動(dòng)作指令，提供穩(wěn)定執(zhí)行導(dǎo)向；動(dòng)作跟隨模塊以高頻率運(yùn)行，實(shí)時(shí)接收規(guī)劃指令并結(jié)合現(xiàn)場(chǎng)觀測(cè)信息生成控制信號(hào)，在擾動(dòng)中動(dòng)態(tài)修正姿態(tài)、力度與軌跡，始終貼合規(guī)劃路徑。

訓(xùn)練階段引入強(qiáng)制教學(xué)（teacher forcing）機(jī)制，以真實(shí)高層動(dòng)作序列為條件并注入規(guī)劃噪聲，讓模型在非完美規(guī)劃下仍可穩(wěn)定執(zhí)行，提升部署魯棒性。

最終，這套“低頻規(guī)劃 + 高頻跟隨”設(shè)計(jì)，讓機(jī)器人兼顧任務(wù)穩(wěn)定性與精細(xì)控制能力，徹底打通規(guī)劃到執(zhí)行的關(guān)鍵鏈路。

05.

四項(xiàng)Benchmark全線第一！GO-2正在定義下一代具身智能標(biāo)準(zhǔn)

在全新架構(gòu)的支撐下，GO-2在多個(gè)主流具身智能基準(zhǔn)測(cè)試（benchmark）中，均取得了全面SOTA（現(xiàn)有最佳技術(shù)）成績(jī)，在任務(wù)成功率、環(huán)境魯棒性以及跨場(chǎng)景泛化能力上，都明顯領(lǐng)先于當(dāng)前主流模型，比如π05、NVIDIAGR00T。

具體來看各基準(zhǔn)測(cè)試的表現(xiàn)，亮點(diǎn)十分突出：

? LIBERO Benchmark：GO-2在Spatial（空間）、Object（物體）、Goal（目標(biāo)）與Long（長(zhǎng)程）四類任務(wù)中，均拿下排名第一的好成績(jī)，平均成功率高達(dá)98.5%，展現(xiàn)出極強(qiáng)的基礎(chǔ)任務(wù)執(zhí)行能力。

? LIBERO-Plus Benchmark：這個(gè)測(cè)試專門設(shè)置了包含相機(jī)、光照、背景和噪聲等多種環(huán)境擾動(dòng)的場(chǎng)景，GO-2在零樣本測(cè)試中，平均成功率達(dá)到86.6%，遠(yuǎn)超目前已有的其他方法，充分體現(xiàn)出超強(qiáng)的環(huán)境適應(yīng)和泛化能力。

? VLA BenchBenchmark：在跨類別與紋理泛化測(cè)試中，GO-2平均得分達(dá)到47.4，尤其是在紋理泛化任務(wù)上，表現(xiàn)遠(yuǎn)優(yōu)于其他同類模型，進(jìn)一步驗(yàn)證了其跨場(chǎng)景適配能力。

? Genie Sim3.0 Benchmark(Sim-to-Real)：這是面向真實(shí)世界遷移的評(píng)測(cè)，GO-2僅使用仿真數(shù)據(jù)訓(xùn)練，在真實(shí)環(huán)境測(cè)試中就取得了82.9%的平均成功率，零樣本跨域遷移能力表現(xiàn)出色，明顯優(yōu)于π0.5的77.5%。

06.

從靜態(tài)模型到持續(xù)進(jìn)化的生產(chǎn)力系統(tǒng) GO-2模型構(gòu)建規(guī)模化落地閉環(huán)

在實(shí)驗(yàn)室場(chǎng)景的任務(wù)執(zhí)行能力表現(xiàn)出色，但真實(shí)場(chǎng)景下這套模型是否具備持續(xù)進(jìn)化的能力十分關(guān)鍵。研究團(tuán)隊(duì)采用“基座模型+分布式強(qiáng)化學(xué)習(xí)”模式，讓機(jī)器人能在真實(shí)環(huán)境中不斷學(xué)習(xí)、持續(xù)進(jìn)化，真正適配實(shí)際應(yīng)用中的復(fù)雜需求。

依托Genie Studio開發(fā)平臺(tái)，整個(gè)系統(tǒng)構(gòu)建起了面向真實(shí)世界的閉環(huán)學(xué)習(xí)能力：通過云端與多臺(tái)機(jī)器人的協(xié)同聯(lián)動(dòng)，不斷采集機(jī)器人與環(huán)境的交互數(shù)據(jù)，再進(jìn)行在線后訓(xùn)練，讓模型在真實(shí)場(chǎng)景中實(shí)時(shí)優(yōu)化，這一點(diǎn)完全區(qū)別于依賴離線數(shù)據(jù)或仿真環(huán)境做“紙上談兵”的訓(xùn)練。對(duì)機(jī)器人來說，每一次任務(wù)執(zhí)行，都是一次數(shù)據(jù)積累；每一次環(huán)境反饋，都是一次能力升級(jí)。

從官方反饋的數(shù)據(jù)來看，在工程與算法的協(xié)同優(yōu)化下，這套體系已經(jīng)具備了規(guī)模化運(yùn)行的實(shí)力，能夠支持千臺(tái)級(jí)機(jī)器人的調(diào)度與同步訓(xùn)練，訓(xùn)練效率相比以往提升了約10倍；在工業(yè)任務(wù)中，實(shí)現(xiàn)了分鐘級(jí)收斂，任務(wù)成功率提升2-4倍，同時(shí)對(duì)數(shù)據(jù)的需求降低了50%以上，大幅降低了落地成本。

通過“預(yù)訓(xùn)練+后訓(xùn)練+數(shù)據(jù)閉環(huán)”的一套體系，GO-2變成了一個(gè)能夠扎根真實(shí)世界，持續(xù)學(xué)習(xí)、不斷進(jìn)化，真正能創(chuàng)造價(jià)值的生產(chǎn)力系統(tǒng)。

07.

邁向具身Agent：長(zhǎng)期記憶補(bǔ)齊智能最后一環(huán)

在GO-2的基礎(chǔ)上，智元正在進(jìn)一步探索完整的具身智能系統(tǒng)架構(gòu)。當(dāng)機(jī)器人已經(jīng)能夠穩(wěn)定行動(dòng)之后，它能不能記住過往的經(jīng)驗(yàn)，并且在實(shí)踐中不斷變得更聰明？

圍繞這個(gè)方向，智元在今年3月率先推出了OpenClaw記憶系統(tǒng)（arXiv:https://arxiv.org/abs/2603.11558），這是一個(gè)面向長(zhǎng)周期機(jī)器人操作任務(wù)的智能體框架，統(tǒng)一數(shù)據(jù)收集、策略學(xué)習(xí)與任務(wù)執(zhí)行全流程，解決傳統(tǒng)視覺-語言-動(dòng)作（VLA）系統(tǒng)在長(zhǎng)周期任務(wù)中依賴人工、易出錯(cuò)、擴(kuò)展性差的問題。

框架以視覺-語言模型（VLM）為元控制器，通過上下文學(xué)習(xí)與思維鏈推理，結(jié)合結(jié)構(gòu)化記憶完成環(huán)境感知、任務(wù)規(guī)劃與技能調(diào)度。核心創(chuàng)新是糾纏動(dòng)作對(duì)（EAP），為每個(gè)操作策略配對(duì)正向執(zhí)行與逆向恢復(fù)行為，形成自復(fù)位循環(huán)，讓機(jī)器人無需人工干預(yù)即可持續(xù)采集在線數(shù)據(jù)，大幅降低人力成本。

OpenClaw框架在真實(shí)機(jī)器人平臺(tái)驗(yàn)證，長(zhǎng)周期任務(wù)成功率較基線提升25%，數(shù)據(jù)收集人力投入減少53.7%，子任務(wù)策略經(jīng)迭代數(shù)據(jù)學(xué)習(xí)后成功率明顯提升。

有了這個(gè)框架，機(jī)器人可以記錄下每次交互的經(jīng)驗(yàn)，積累各類操作技能，遇到新任務(wù)時(shí)，還能直接復(fù)用已經(jīng)掌握的知識(shí)，不用再?gòu)牧汩_始學(xué)習(xí)。

當(dāng)動(dòng)作推理、分層執(zhí)行與長(zhǎng)期記憶真正結(jié)合，機(jī)器人將逐步具備真正的具身Agent能力：感知世界、推理邏輯、執(zhí)行動(dòng)作、記住經(jīng)驗(yàn)、再優(yōu)化行動(dòng)，一個(gè)完整的智能閉環(huán)正在慢慢形成。而這，也將成為下一代具身基礎(chǔ)模型的重要發(fā)展方向。

08.

結(jié)語與未來：

智元 GO-2 的發(fā)布，推動(dòng)具身智能邁向推理與執(zhí)行協(xié)同的新階段。當(dāng)機(jī)器人具備感知、理解、物理交互與持續(xù)進(jìn)化能力，具身智能規(guī)模化落地的進(jìn)程將進(jìn)一步加快。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.