![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
智元機(jī)器人發(fā)布了通用具身基座大模型——智元啟元大模型(Genie Operator-1,簡(jiǎn)稱GO-1)。
官方視頻中展示了機(jī)器人通過模仿人類操作,學(xué)習(xí)并完成各種家務(wù)任務(wù),例如倒水、制作吐司早餐等。強(qiáng)調(diào)了機(jī)器人的物體追蹤能力、智能跟隨能力,以及通過學(xué)習(xí)大量人類視頻數(shù)據(jù)來實(shí)現(xiàn)快速泛化的能力。
![]()
那么,GO-1是如何實(shí)現(xiàn)這些功能的呢?其背后是ViLLA(視覺-語言-潛在動(dòng)作)架構(gòu)。
具體來看,該架構(gòu)由VLM(多模態(tài)大模型)+MoE(混合專家模型)組成。其中,MoE里包含2個(gè)關(guān)鍵的組成混合專家1 —— Latent Planner(隱式規(guī)劃器)和混合專家2 —— Action Expert(動(dòng)作專家)。將用于場(chǎng)景感知和語言理解的視覺語言模型與用于運(yùn)動(dòng)規(guī)劃和執(zhí)行的專家系統(tǒng)相結(jié)合。通過在人類操作視頻和真實(shí)機(jī)器人數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠在極少輸入的情況下實(shí)現(xiàn)快速泛化。
簡(jiǎn)單理解,VLM用多模態(tài)大模型InternVL-2B“看懂”和“聽懂”任務(wù),Latent Planner基于大量數(shù)據(jù)制定動(dòng)作“藍(lán)圖”,Action Expert基于真機(jī)經(jīng)驗(yàn)執(zhí)行具體動(dòng)作。
VLA模型通常基于大型神經(jīng)網(wǎng)絡(luò),利用視覺輸入(如攝像頭圖像)和語言指令(如“拿起杯子”)生成動(dòng)作輸出(如機(jī)器人手臂的移動(dòng)),以執(zhí)行復(fù)雜任務(wù)。VLA 模型的興起得益于視覺-語言模型(VLM)和大語言模型(LLM)在機(jī)器人任務(wù)中的應(yīng)用。典型例子包括OpenVLA、Helix 和 Pi0,這些模型通過視覺和語言輸入直接生成動(dòng)作。這些模型表明,通過大規(guī)模數(shù)據(jù)和先進(jìn)的算法,機(jī)器人已經(jīng)能夠在一定程度上實(shí)現(xiàn)跨任務(wù)和跨場(chǎng)景的適應(yīng)。
與VLA模型直接基于視覺和語言條件生成動(dòng)作不同,ViLLA通過預(yù)測(cè)Latent Action Tokens(隱式動(dòng)作標(biāo)記),彌合圖像-文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝。在真實(shí)世界的靈巧操作和長(zhǎng)時(shí)任務(wù)方面表現(xiàn)卓越,超過了已有的開源SOTA模型。
#01
數(shù)據(jù)之困:如何讓機(jī)器人“消化”海量網(wǎng)絡(luò)視頻?
相比于互聯(lián)網(wǎng)龐大的數(shù)據(jù)集,帶有明確動(dòng)作標(biāo)簽的機(jī)器人數(shù)據(jù)仍然很少。現(xiàn)有的VLA架構(gòu)由于依賴真機(jī)和合成數(shù)據(jù),而未能充分利用互聯(lián)網(wǎng)視頻這一寶貴資源。
這些不同來源、不同格式、不同結(jié)構(gòu)的視頻數(shù)據(jù),在編碼格式、幀率、分辨率、內(nèi)容類型等方面存在差異,因此在處理時(shí)需要額外的適配和優(yōu)化。導(dǎo)致機(jī)器人難以直接從視頻中學(xué)習(xí)并執(zhí)行任務(wù)。這種“翻譯”過程涉及動(dòng)作映射、環(huán)境適應(yīng)等復(fù)雜問題,使得機(jī)器人迭代成本更高,進(jìn)化速度更慢。
ViLLA的主要目的是為了利用利用這些視頻資源。為此,智元機(jī)器人和上海AI Lab的研究人員提出了一種新方法,利用“潛在動(dòng)作”來捕捉連續(xù)視頻幀之間的動(dòng)態(tài)關(guān)系。這樣,就可以把那些沒有動(dòng)作標(biāo)簽的網(wǎng)絡(luò)視頻,以及不同類型機(jī)器人的數(shù)據(jù),一起用于訓(xùn)練。
簡(jiǎn)單來說,這種方法能從各種不同來源的視頻中學(xué)習(xí)真實(shí)世界的物理規(guī)律,并把這些知識(shí)轉(zhuǎn)化為通用的機(jī)器人操作能力。
智元機(jī)器人在2024年末開源了AgiBot World數(shù)據(jù)集,這是一個(gè)大規(guī)模、高質(zhì)量的現(xiàn)實(shí)世界機(jī)器人數(shù)據(jù)集,涵蓋了五個(gè)應(yīng)用領(lǐng)域的 217項(xiàng)任務(wù),超過 100 萬條軌跡,被稱為具身智能的“ImageNet時(shí)刻”,GO-1的訓(xùn)練也利用了這些數(shù)據(jù)集數(shù)據(jù)集。
![]()
此外,數(shù)據(jù)方面,GO-1大模型的構(gòu)建和訓(xùn)練整合了四種數(shù)據(jù)類型:通過互聯(lián)網(wǎng)大規(guī)模純文本和圖文數(shù)據(jù)使機(jī)器人理解特定情境下指令的含義;借助人類和其他機(jī)器人操作視頻學(xué)習(xí)任務(wù)的關(guān)鍵環(huán)節(jié);利用仿真數(shù)據(jù)模擬不同物體、環(huán)境條件下的操作流程以打通整個(gè)任務(wù)過程;最后,通過真機(jī)示教數(shù)據(jù),實(shí)現(xiàn)精準(zhǔn)的操作執(zhí)行。這種多元數(shù)據(jù)融合使GO-1能夠從理解任務(wù)含義到精確完成實(shí)際操作的的能力。
#02
GO-1“野心”:智元不想只做一個(gè)“造機(jī)器人的公司”
一位Robotics行業(yè)從業(yè)者告訴硅星人,GO-1的亮點(diǎn)是引入了一個(gè)Latent空間,從而能夠利用互聯(lián)網(wǎng)的大量數(shù)據(jù),但是技術(shù)路線基本是業(yè)內(nèi)探索過的。“前段時(shí)間的Figure的Helix,也是用Latent Code作為語言和動(dòng)作的橋梁,智元是把這個(gè)Latent code給明確化了,也確實(shí)是沿著之前的技術(shù)路線在走。”
Figure AI的具身大模型Helix 由System 2(S2)和 System 1(S1)組成。S2 是一個(gè)預(yù)訓(xùn)練的視覺-語言模型(VLM),負(fù)責(zé)場(chǎng)景理解和語言理解;S1 是一個(gè)快速反應(yīng)策略,負(fù)責(zé)將 S2 的輸出轉(zhuǎn)化為機(jī)器人動(dòng)作。S2 會(huì)生成“l(fā)atent semantic representations”(潛語義表示),S1則將其轉(zhuǎn)化為“precise continuous robot actions”(精確的連續(xù)機(jī)器人動(dòng)作)。
科技博主不是鄭小康也認(rèn)為,智元新推出的GenieOperator-1(GO-1)與Physical Intelligence去年10月發(fā)布的π0模型存在一些“異曲同工”之處。比如,兩者均為VLM+動(dòng)作專家模型,能通過視覺語言輸入執(zhí)行復(fù)雜任務(wù)。訓(xùn)練上都結(jié)合了互聯(lián)網(wǎng)數(shù)據(jù)與專業(yè)數(shù)據(jù)集——智元使用AgiBot World,PI則采用Open X Embodiment及自有數(shù)據(jù)。技術(shù)路線各有特色:GO-1配備隱式規(guī)劃器提升視頻學(xué)習(xí)能力;π0應(yīng)用流匹配Diffusion變體實(shí)現(xiàn)50Hz連續(xù)動(dòng)作輸出,動(dòng)作更為流暢。
![]()
具身大模型GO-1和數(shù)據(jù)集AgiBot World都是AgiBot World Colosseo的一部分。AgiBot World Colosseo由上海AI Lab與智元機(jī)器人聯(lián)合推出。主要貢獻(xiàn)在于構(gòu)建了大規(guī)模、高質(zhì)量的機(jī)器人學(xué)習(xí)數(shù)據(jù)集,以及開發(fā)了利用潛在動(dòng)作表示的機(jī)器人基礎(chǔ)策略,使其能夠在異構(gòu)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。技術(shù)報(bào)告中也明確提到,團(tuán)隊(duì)試圖為機(jī)器人領(lǐng)域提供類似于NLP和CV領(lǐng)域那樣的數(shù)據(jù)基礎(chǔ)。
其次是推動(dòng)通用機(jī)器人能力的研究。強(qiáng)調(diào)了從簡(jiǎn)單的實(shí)驗(yàn)室任務(wù)向復(fù)雜、長(zhǎng)期規(guī)劃的真實(shí)世界任務(wù)轉(zhuǎn)變的重要性。通過覆蓋家庭、零售、工業(yè)、餐廳和辦公室等多種真實(shí)場(chǎng)景,希望訓(xùn)練出能夠應(yīng)對(duì)開放環(huán)境復(fù)雜性的通用型機(jī)器人策略。
此外AgiBot World Colosseo通過提供標(biāo)準(zhǔn)化的數(shù)據(jù)收集管道和人在回路的驗(yàn)證機(jī)制,建立了一個(gè)可靠的平臺(tái)來評(píng)估不同算法的性能,使研究更具可比性和可重復(fù)性。
最后,根據(jù)AgiBot World Colosseo的實(shí)驗(yàn),模型性能與數(shù)據(jù)規(guī)模之間存在冪律關(guān)系,這驗(yàn)證了“數(shù)據(jù)規(guī)模化”策略在機(jī)器人領(lǐng)域的有效性,為未來更大規(guī)模的數(shù)據(jù)收集提供了理論支持。
![]()
根據(jù)技術(shù)報(bào)告,GO-1模型在復(fù)雜任務(wù)中的成功率超過60%,比現(xiàn)有技術(shù)高出32%。另外值得關(guān)注的是,團(tuán)隊(duì)承諾將整個(gè)生態(tài)系統(tǒng)開源。目前,數(shù)據(jù)集、工具鏈和預(yù)訓(xùn)練模型均已開源。
GO-1的發(fā)布也透露出智元這家公司的野心。
“對(duì)機(jī)器人公司,你如果不做大模型,那是屬于沒有未來的機(jī)器人,沒有智能化,沒有作業(yè)能力只是一個(gè)硬件。他能做的事情非常有限,所以我們投入非常大的。”智元具身業(yè)務(wù)部總裁姚卯青在模型發(fā)布后點(diǎn)評(píng)到。
作為被大家因硬件創(chuàng)造能力而最初熟悉起來的公司,智元顯然不想變成又一個(gè)“傳統(tǒng)機(jī)器人公司”,不想只做機(jī)器人的本體和硬件產(chǎn)品。今天具身智能的火熱背后,是AI軟件層面的突破,算法模型和硬件的結(jié)合是一切想象力所在。這也是智元想讓外界注意到的能力。
GO-1這個(gè)名稱讓人聯(lián)想到AlphaGo這一AI史上的里程碑,這個(gè)充滿野心的模型發(fā)布后,要讓這個(gè)通用的模型真正變成機(jī)器人智能迭代的關(guān)鍵還有很多工作要做,但對(duì)智元來說,最重要的是它已經(jīng)邁出了這關(guān)鍵一步。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.