網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

不做“傳統(tǒng)機(jī)器人公司”的智元發(fā)了個(gè)大模型，要讓機(jī)器人看視頻就能進(jìn)化

2025-03-11 10:26:14　來源: 硅星GenAI

上海舉報(bào)

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

智元機(jī)器人發(fā)布了通用具身基座大模型——智元啟元大模型（Genie Operator-1，簡(jiǎn)稱GO-1）。

官方視頻中展示了機(jī)器人通過模仿人類操作，學(xué)習(xí)并完成各種家務(wù)任務(wù)，例如倒水、制作吐司早餐等。強(qiáng)調(diào)了機(jī)器人的物體追蹤能力、智能跟隨能力，以及通過學(xué)習(xí)大量人類視頻數(shù)據(jù)來實(shí)現(xiàn)快速泛化的能力。

那么，GO-1是如何實(shí)現(xiàn)這些功能的呢？其背后是ViLLA（視覺-語言-潛在動(dòng)作）架構(gòu)。

具體來看，該架構(gòu)由VLM（多模態(tài)大模型）+MoE（混合專家模型）組成。其中，MoE里包含2個(gè)關(guān)鍵的組成混合專家1 —— Latent Planner（隱式規(guī)劃器）和混合專家2 —— Action Expert（動(dòng)作專家）。將用于場(chǎng)景感知和語言理解的視覺語言模型與用于運(yùn)動(dòng)規(guī)劃和執(zhí)行的專家系統(tǒng)相結(jié)合。通過在人類操作視頻和真實(shí)機(jī)器人數(shù)據(jù)上進(jìn)行訓(xùn)練，能夠在極少輸入的情況下實(shí)現(xiàn)快速泛化。

簡(jiǎn)單理解，VLM用多模態(tài)大模型InternVL-2B“看懂”和“聽懂”任務(wù)，Latent Planner基于大量數(shù)據(jù)制定動(dòng)作“藍(lán)圖”，Action Expert基于真機(jī)經(jīng)驗(yàn)執(zhí)行具體動(dòng)作。

VLA模型通常基于大型神經(jīng)網(wǎng)絡(luò)，利用視覺輸入（如攝像頭圖像）和語言指令（如“拿起杯子”）生成動(dòng)作輸出（如機(jī)器人手臂的移動(dòng)），以執(zhí)行復(fù)雜任務(wù)。VLA 模型的興起得益于視覺-語言模型（VLM）和大語言模型（LLM）在機(jī)器人任務(wù)中的應(yīng)用。典型例子包括OpenVLA、Helix 和 Pi0，這些模型通過視覺和語言輸入直接生成動(dòng)作。這些模型表明，通過大規(guī)模數(shù)據(jù)和先進(jìn)的算法，機(jī)器人已經(jīng)能夠在一定程度上實(shí)現(xiàn)跨任務(wù)和跨場(chǎng)景的適應(yīng)。

與VLA模型直接基于視覺和語言條件生成動(dòng)作不同，ViLLA通過預(yù)測(cè)Latent Action Tokens(隱式動(dòng)作標(biāo)記)，彌合圖像-文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝。在真實(shí)世界的靈巧操作和長(zhǎng)時(shí)任務(wù)方面表現(xiàn)卓越，超過了已有的開源SOTA模型。

#01

數(shù)據(jù)之困：如何讓機(jī)器人“消化”海量網(wǎng)絡(luò)視頻？

相比于互聯(lián)網(wǎng)龐大的數(shù)據(jù)集，帶有明確動(dòng)作標(biāo)簽的機(jī)器人數(shù)據(jù)仍然很少。現(xiàn)有的VLA架構(gòu)由于依賴真機(jī)和合成數(shù)據(jù)，而未能充分利用互聯(lián)網(wǎng)視頻這一寶貴資源。

這些不同來源、不同格式、不同結(jié)構(gòu)的視頻數(shù)據(jù)，在編碼格式、幀率、分辨率、內(nèi)容類型等方面存在差異，因此在處理時(shí)需要額外的適配和優(yōu)化。導(dǎo)致機(jī)器人難以直接從視頻中學(xué)習(xí)并執(zhí)行任務(wù)。這種“翻譯”過程涉及動(dòng)作映射、環(huán)境適應(yīng)等復(fù)雜問題，使得機(jī)器人迭代成本更高，進(jìn)化速度更慢。

ViLLA的主要目的是為了利用利用這些視頻資源。為此，智元機(jī)器人和上海AI Lab的研究人員提出了一種新方法，利用“潛在動(dòng)作”來捕捉連續(xù)視頻幀之間的動(dòng)態(tài)關(guān)系。這樣，就可以把那些沒有動(dòng)作標(biāo)簽的網(wǎng)絡(luò)視頻，以及不同類型機(jī)器人的數(shù)據(jù)，一起用于訓(xùn)練。

簡(jiǎn)單來說，這種方法能從各種不同來源的視頻中學(xué)習(xí)真實(shí)世界的物理規(guī)律，并把這些知識(shí)轉(zhuǎn)化為通用的機(jī)器人操作能力。

智元機(jī)器人在2024年末開源了AgiBot World數(shù)據(jù)集，這是一個(gè)大規(guī)模、高質(zhì)量的現(xiàn)實(shí)世界機(jī)器人數(shù)據(jù)集，涵蓋了五個(gè)應(yīng)用領(lǐng)域的 217項(xiàng)任務(wù)，超過 100 萬條軌跡，被稱為具身智能的“ImageNet時(shí)刻”，GO-1的訓(xùn)練也利用了這些數(shù)據(jù)集數(shù)據(jù)集。

此外，數(shù)據(jù)方面，GO-1大模型的構(gòu)建和訓(xùn)練整合了四種數(shù)據(jù)類型：通過互聯(lián)網(wǎng)大規(guī)模純文本和圖文數(shù)據(jù)使機(jī)器人理解特定情境下指令的含義；借助人類和其他機(jī)器人操作視頻學(xué)習(xí)任務(wù)的關(guān)鍵環(huán)節(jié)；利用仿真數(shù)據(jù)模擬不同物體、環(huán)境條件下的操作流程以打通整個(gè)任務(wù)過程；最后，通過真機(jī)示教數(shù)據(jù)，實(shí)現(xiàn)精準(zhǔn)的操作執(zhí)行。這種多元數(shù)據(jù)融合使GO-1能夠從理解任務(wù)含義到精確完成實(shí)際操作的的能力。

#02

GO-1“野心”：智元不想只做一個(gè)“造機(jī)器人的公司”

一位Robotics行業(yè)從業(yè)者告訴硅星人，GO-1的亮點(diǎn)是引入了一個(gè)Latent空間，從而能夠利用互聯(lián)網(wǎng)的大量數(shù)據(jù)，但是技術(shù)路線基本是業(yè)內(nèi)探索過的。“前段時(shí)間的Figure的Helix，也是用Latent Code作為語言和動(dòng)作的橋梁，智元是把這個(gè)Latent code給明確化了，也確實(shí)是沿著之前的技術(shù)路線在走。”

Figure AI的具身大模型Helix 由System 2（S2）和 System 1（S1）組成。S2 是一個(gè)預(yù)訓(xùn)練的視覺-語言模型（VLM），負(fù)責(zé)場(chǎng)景理解和語言理解；S1 是一個(gè)快速反應(yīng)策略，負(fù)責(zé)將 S2 的輸出轉(zhuǎn)化為機(jī)器人動(dòng)作。S2 會(huì)生成“l(fā)atent semantic representations”（潛語義表示），S1則將其轉(zhuǎn)化為“precise continuous robot actions”（精確的連續(xù)機(jī)器人動(dòng)作）。

科技博主不是鄭小康也認(rèn)為，智元新推出的GenieOperator-1(GO-1)與Physical Intelligence去年10月發(fā)布的π0模型存在一些“異曲同工”之處。比如，兩者均為VLM+動(dòng)作專家模型，能通過視覺語言輸入執(zhí)行復(fù)雜任務(wù)。訓(xùn)練上都結(jié)合了互聯(lián)網(wǎng)數(shù)據(jù)與專業(yè)數(shù)據(jù)集——智元使用AgiBot World，PI則采用Open X Embodiment及自有數(shù)據(jù)。技術(shù)路線各有特色：GO-1配備隱式規(guī)劃器提升視頻學(xué)習(xí)能力；π0應(yīng)用流匹配Diffusion變體實(shí)現(xiàn)50Hz連續(xù)動(dòng)作輸出，動(dòng)作更為流暢。

具身大模型GO-1和數(shù)據(jù)集AgiBot World都是AgiBot World Colosseo的一部分。AgiBot World Colosseo由上海AI Lab與智元機(jī)器人聯(lián)合推出。主要貢獻(xiàn)在于構(gòu)建了大規(guī)模、高質(zhì)量的機(jī)器人學(xué)習(xí)數(shù)據(jù)集，以及開發(fā)了利用潛在動(dòng)作表示的機(jī)器人基礎(chǔ)策略，使其能夠在異構(gòu)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。技術(shù)報(bào)告中也明確提到，團(tuán)隊(duì)試圖為機(jī)器人領(lǐng)域提供類似于NLP和CV領(lǐng)域那樣的數(shù)據(jù)基礎(chǔ)。

其次是推動(dòng)通用機(jī)器人能力的研究。強(qiáng)調(diào)了從簡(jiǎn)單的實(shí)驗(yàn)室任務(wù)向復(fù)雜、長(zhǎng)期規(guī)劃的真實(shí)世界任務(wù)轉(zhuǎn)變的重要性。通過覆蓋家庭、零售、工業(yè)、餐廳和辦公室等多種真實(shí)場(chǎng)景，希望訓(xùn)練出能夠應(yīng)對(duì)開放環(huán)境復(fù)雜性的通用型機(jī)器人策略。

此外AgiBot World Colosseo通過提供標(biāo)準(zhǔn)化的數(shù)據(jù)收集管道和人在回路的驗(yàn)證機(jī)制，建立了一個(gè)可靠的平臺(tái)來評(píng)估不同算法的性能，使研究更具可比性和可重復(fù)性。

最后，根據(jù)AgiBot World Colosseo的實(shí)驗(yàn)，模型性能與數(shù)據(jù)規(guī)模之間存在冪律關(guān)系，這驗(yàn)證了“數(shù)據(jù)規(guī)模化”策略在機(jī)器人領(lǐng)域的有效性，為未來更大規(guī)模的數(shù)據(jù)收集提供了理論支持。

根據(jù)技術(shù)報(bào)告，GO-1模型在復(fù)雜任務(wù)中的成功率超過60%，比現(xiàn)有技術(shù)高出32%。另外值得關(guān)注的是，團(tuán)隊(duì)承諾將整個(gè)生態(tài)系統(tǒng)開源。目前，數(shù)據(jù)集、工具鏈和預(yù)訓(xùn)練模型均已開源。

GO-1的發(fā)布也透露出智元這家公司的野心。

“對(duì)機(jī)器人公司，你如果不做大模型，那是屬于沒有未來的機(jī)器人，沒有智能化，沒有作業(yè)能力只是一個(gè)硬件。他能做的事情非常有限，所以我們投入非常大的。”智元具身業(yè)務(wù)部總裁姚卯青在模型發(fā)布后點(diǎn)評(píng)到。

作為被大家因硬件創(chuàng)造能力而最初熟悉起來的公司，智元顯然不想變成又一個(gè)“傳統(tǒng)機(jī)器人公司”，不想只做機(jī)器人的本體和硬件產(chǎn)品。今天具身智能的火熱背后，是AI軟件層面的突破，算法模型和硬件的結(jié)合是一切想象力所在。這也是智元想讓外界注意到的能力。

GO-1這個(gè)名稱讓人聯(lián)想到AlphaGo這一AI史上的里程碑，這個(gè)充滿野心的模型發(fā)布后，要讓這個(gè)通用的模型真正變成機(jī)器人智能迭代的關(guān)鍵還有很多工作要做，但對(duì)智元來說，最重要的是它已經(jīng)邁出了這關(guān)鍵一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.