一凡 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
什么在限制空間智能落地?
從自動(dòng)駕駛到具身智能,行業(yè)對(duì)此的共識(shí)是:數(shù)據(jù)
因?yàn)閿?shù)據(jù)不夠,模型泛化能力就弱,只能靠硬件來湊。
這在機(jī)器人身上體現(xiàn)得尤為明顯。機(jī)器人要感知空間,常用的硬件是RGB-D相機(jī),它既能看懂RGB圖像,又能感知深度,從而獲取到三維立體信息,讓機(jī)器人理解物理世界。
但問題是,機(jī)器人的這雙眼并不靠譜,遇到鏡子、電梯、玻璃門等透明物體或者反光表面,RGB-D相機(jī)就容易失效,導(dǎo)致機(jī)器人感知異常。
這些場(chǎng)景繞不開,躲不掉,都是機(jī)器人走進(jìn)千家萬戶,一定會(huì)碰到的問題,必須要解決。但因?yàn)槿鄙贁?shù)據(jù)底座,行業(yè)過去的解決方式一般是靠堆硬件,補(bǔ)短板,強(qiáng)化感知能力。
這種局面即將迎來改變。因?yàn)榫驮趧倓偅呱碇悄艿幕ㄍ婕页鍪郑瑢?duì)癥下藥,推出了一個(gè)開源數(shù)據(jù)基座。基于這個(gè)基座訓(xùn)練的模型,都已經(jīng)實(shí)現(xiàn)SOTA了。
空間智能卡在哪兒了?
空間智能給了機(jī)器人一雙眼睛和小腦,機(jī)器人靠它才能實(shí)現(xiàn)感知、規(guī)劃、導(dǎo)航和精細(xì)操作。
比如說機(jī)器人需要拿起面前的杯子,它不光要看懂這是杯子,還需要知道杯子離自己有多遠(yuǎn)、邊界在哪兒。
問題是,實(shí)現(xiàn)空間智能并不容易,需要依靠大規(guī)模、高質(zhì)量的數(shù)據(jù)。互聯(lián)網(wǎng)上已有的海量RGB圖像,規(guī)模確實(shí)大但不符合要求,因?yàn)樗荒堋拔埂苯oAI二維信息,AI很難從中生長(zhǎng)出三維空間的理解能力。
所以行業(yè)這些年一直在給AI補(bǔ)空間理解這門課,路線也不少,有RGB-D相機(jī)、激光雷達(dá)和3D重建等方法。
其中RGB-D相機(jī)路線一直都很受歡迎,因?yàn)?strong>它就像給AI開了“第三只眼”,不光能測(cè)長(zhǎng)和寬,還能測(cè)量距離,而且不需要復(fù)雜后處理,可以實(shí)時(shí)感知環(huán)境。
但RGB-D路線也有不足,主要有兩個(gè)問題。首先第一個(gè)問題是,采集任務(wù)本身比較困難,不是說簡(jiǎn)單地舉個(gè)相機(jī),找個(gè)機(jī)位,“咔嚓”一拍就完事兒。不僅需要檢查左右圖像一致性,還要對(duì)RGB圖像和深度信息進(jìn)行時(shí)空同步,以及處理不同硬件之間的差異。
這還不算完,獲取到RGB-D數(shù)據(jù)后,第二個(gè)問題接著就來了,研究者會(huì)發(fā)現(xiàn)其實(shí)RGB-D相機(jī)有時(shí)候很不靠譜,碰到玻璃、鏡面、金屬反光材質(zhì)和白墻這種低紋理表面就容易失效。
還是以機(jī)器人拿杯子為例,咱們?nèi)粘I羁吹降谋右话愣奸L(zhǎng)這樣:
![]()
而在RGB-D相機(jī)的深度傳感器下,杯子be like醬嬸兒:
![]()
在機(jī)器人的視角里,兩個(gè)杯子直接連成了一塊,根本難以分辨,也自然無法準(zhǔn)確拿取。RGB-D相機(jī)的不穩(wěn)定,進(jìn)一步導(dǎo)致了高質(zhì)量RGB-D數(shù)據(jù)的缺失。
螞蟻靈波開源空間智能數(shù)據(jù)基建
為了緩解行業(yè)的數(shù)據(jù)痛點(diǎn),螞蟻靈波最近開源了LingBot-Depth-Dataset數(shù)據(jù)集,其總體規(guī)模達(dá)到2.71TB,包含300萬對(duì)標(biāo)注RGB-D數(shù)據(jù),每一對(duì)樣本都包含一張RGB圖像、傳感器原始深度圖和真值深度圖
其中大部分都是真實(shí)數(shù)據(jù),大約有200萬對(duì),140萬對(duì)是由多臺(tái)RGB-D相機(jī)采集自真實(shí)室內(nèi)場(chǎng)景的數(shù)據(jù)RobbyReal(如下圖所示),以及58萬對(duì)由機(jī)器人在VLA任務(wù)中采集的數(shù)據(jù)RobbyVla
![]()
這些真實(shí)數(shù)據(jù)的來源非常廣泛,包括住宅、教室、博物館、商店、醫(yī)院、健身房和電梯等各種生活場(chǎng)景,數(shù)據(jù)來源豐富,作為訓(xùn)練底座時(shí)就能增強(qiáng)模型的泛化性。
此外還有約100萬對(duì)由雙相機(jī)視角渲染生成的合成數(shù)據(jù)RobbySim
![]()
其余部分都是RobbySimVal,含有3.8萬條數(shù)據(jù),作為仿真數(shù)據(jù)的驗(yàn)證集。這種虛實(shí)融合采集數(shù)據(jù)的方式,既能覆蓋一些邊緣場(chǎng)景,也能降低數(shù)據(jù)采集成本。
![]()
規(guī)模大、場(chǎng)景豐富,只是數(shù)據(jù)集可以被行業(yè)廣泛使用的必要條件,但還不是全部。
LingBot-Depth-Dataset還有一個(gè)值得關(guān)注的地方在于數(shù)據(jù)分布的多樣性,它在構(gòu)建時(shí)使用Orbbec 335、335L,RealSense D405、D415、D435、D455這6款主流深度相機(jī)進(jìn)行采集,不同相機(jī)在成像特性、噪聲模式、深度精度上各有差異,使得數(shù)據(jù)集天然覆蓋了多種傳感器分布,為下游研究和模型訓(xùn)練提供了更豐富的數(shù)據(jù)基礎(chǔ)。
這意味著這座數(shù)據(jù)金礦,可以被更多研發(fā)團(tuán)隊(duì)挖掘,成為空間智能的數(shù)據(jù)基建。
打造具身智能的“大腦平臺(tái)”
螞蟻靈波開源的這套數(shù)據(jù)基建,緩解了開源社區(qū)缺乏真實(shí)場(chǎng)景拍攝數(shù)據(jù)的問題,不僅量大管飽,而且戰(zhàn)績(jī)可查
今年年初,螞蟻靈波發(fā)布了LingBot-Depth模型,LingBot-Depth主要基于LingBot-Depth-Dataset數(shù)據(jù)集訓(xùn)練,在多項(xiàng)權(quán)威深度補(bǔ)全基準(zhǔn)測(cè)試如iBims、NYUv2和DIODE上實(shí)現(xiàn)了SOTA
![]()
而當(dāng)LingBot-Depth部署到真實(shí)環(huán)境后,可以驅(qū)動(dòng)機(jī)器人穩(wěn)健抓取透明和反光物體,這在以往可以說是天方夜譚的事情。
![]()
隨后,螞蟻靈波又緊接著開源了LingBot-VLA,打通視覺、語言和動(dòng)作,驅(qū)動(dòng)機(jī)器人做出決策。
緊隨其后開源的LingBot-World,則為模型提供了仿真訓(xùn)練場(chǎng)。
當(dāng)時(shí)壓軸登場(chǎng)的LingBot-VA,則率先讓世界模型直接驅(qū)動(dòng)機(jī)器人動(dòng)作,實(shí)現(xiàn)了“邊推演,邊執(zhí)行”,引領(lǐng)了具身研究的趨勢(shì)。
![]()
從感知到?jīng)Q策,從模型到數(shù)據(jù),螞蟻靈波正在打造具身智能的“大腦平臺(tái)”。其最新開源成果,也啟發(fā)著行業(yè)思維轉(zhuǎn)向。
物理AI數(shù)據(jù)先行
追根溯源來看,這種通過軟件方法加強(qiáng)感知能力,而不是一味堆傳感器的思想,體現(xiàn)了計(jì)算機(jī)科學(xué)中的軟件硬件等效原理
那軟件和硬件手段應(yīng)該如何取舍?與具身智能同屬物理AI的自動(dòng)駕駛行業(yè),已在該問題上形成了共識(shí),值得參考借鑒:
首先最值得重視的是數(shù)據(jù)和算法架構(gòu)。前者是AI迭代的基石,后者是指將多個(gè)算法整合形成合力,并長(zhǎng)期積累的能力。
其次才是堆更多數(shù)量和價(jià)格更高的傳感器。自動(dòng)駕駛從業(yè)者普遍認(rèn)為,隨著數(shù)據(jù)越來越多,再加上算法架構(gòu)持續(xù)升級(jí),模型的空間感知能力會(huì)越來越強(qiáng),這時(shí)再堆傳感器,雖然有用,但是提升的效果會(huì)越來越弱。
正是有了這樣的共識(shí),行業(yè)才打下了硬件成本,為自動(dòng)駕駛商業(yè)化繁榮奠定了基礎(chǔ)。
自動(dòng)駕駛的實(shí)踐已經(jīng)證明,物理AI落地,優(yōu)先考慮軟件手段,這并不會(huì)削弱空間智能,還可以推動(dòng)商業(yè)化。這同樣也是螞蟻靈波開源一系列模型和數(shù)據(jù)集,給具身智能行業(yè)帶來的啟發(fā):
加強(qiáng)空間智能,數(shù)據(jù)算法優(yōu)先,不必追逐昂貴硬件。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.