網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

2700GB高質(zhì)量數(shù)據(jù)，訓(xùn)出空間智能SOTA，背后秘訣全棧開源

2026-03-31 13:50:31　來源: 量子位

河南舉報(bào)

分享至

一凡發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

什么在限制空間智能落地？

從自動(dòng)駕駛到具身智能，行業(yè)對(duì)此的共識(shí)是：數(shù)據(jù)

因?yàn)閿?shù)據(jù)不夠，模型泛化能力就弱，只能靠硬件來湊。

這在機(jī)器人身上體現(xiàn)得尤為明顯。機(jī)器人要感知空間，常用的硬件是RGB-D相機(jī)，它既能看懂RGB圖像，又能感知深度，從而獲取到三維立體信息，讓機(jī)器人理解物理世界。

但問題是，機(jī)器人的這雙眼并不靠譜，遇到鏡子、電梯、玻璃門等透明物體或者反光表面，RGB-D相機(jī)就容易失效，導(dǎo)致機(jī)器人感知異常。

這些場(chǎng)景繞不開，躲不掉，都是機(jī)器人走進(jìn)千家萬戶，一定會(huì)碰到的問題，必須要解決。但因?yàn)槿鄙贁?shù)據(jù)底座，行業(yè)過去的解決方式一般是靠堆硬件，補(bǔ)短板，強(qiáng)化感知能力。

這種局面即將迎來改變。因?yàn)榫驮趧倓偅呱碇悄艿幕ㄍ婕页鍪郑瑢?duì)癥下藥，推出了一個(gè)開源數(shù)據(jù)基座。基于這個(gè)基座訓(xùn)練的模型，都已經(jīng)實(shí)現(xiàn)SOTA了。

空間智能卡在哪兒了？

空間智能給了機(jī)器人一雙眼睛和小腦，機(jī)器人靠它才能實(shí)現(xiàn)感知、規(guī)劃、導(dǎo)航和精細(xì)操作。

比如說機(jī)器人需要拿起面前的杯子，它不光要看懂這是杯子，還需要知道杯子離自己有多遠(yuǎn)、邊界在哪兒。

問題是，實(shí)現(xiàn)空間智能并不容易，需要依靠大規(guī)模、高質(zhì)量的數(shù)據(jù)。互聯(lián)網(wǎng)上已有的海量RGB圖像，規(guī)模確實(shí)大但不符合要求，因?yàn)樗荒堋拔埂苯oAI二維信息，AI很難從中生長(zhǎng)出三維空間的理解能力。

所以行業(yè)這些年一直在給AI補(bǔ)空間理解這門課，路線也不少，有RGB-D相機(jī)、激光雷達(dá)和3D重建等方法。

其中RGB-D相機(jī)路線一直都很受歡迎，因?yàn)?strong>它就像給AI開了“第三只眼”，不光能測(cè)長(zhǎng)和寬，還能測(cè)量距離，而且不需要復(fù)雜后處理，可以實(shí)時(shí)感知環(huán)境。

但RGB-D路線也有不足，主要有兩個(gè)問題。首先第一個(gè)問題是，采集任務(wù)本身比較困難，不是說簡(jiǎn)單地舉個(gè)相機(jī)，找個(gè)機(jī)位，“咔嚓”一拍就完事兒。不僅需要檢查左右圖像一致性，還要對(duì)RGB圖像和深度信息進(jìn)行時(shí)空同步，以及處理不同硬件之間的差異。

這還不算完，獲取到RGB-D數(shù)據(jù)后，第二個(gè)問題接著就來了，研究者會(huì)發(fā)現(xiàn)其實(shí)RGB-D相機(jī)有時(shí)候很不靠譜，碰到玻璃、鏡面、金屬反光材質(zhì)和白墻這種低紋理表面就容易失效。

還是以機(jī)器人拿杯子為例，咱們?nèi)粘Ｉ羁吹降谋右话愣奸L(zhǎng)這樣：

而在RGB-D相機(jī)的深度傳感器下，杯子be like醬嬸兒：

在機(jī)器人的視角里，兩個(gè)杯子直接連成了一塊，根本難以分辨，也自然無法準(zhǔn)確拿取。RGB-D相機(jī)的不穩(wěn)定，進(jìn)一步導(dǎo)致了高質(zhì)量RGB-D數(shù)據(jù)的缺失。

螞蟻靈波開源空間智能數(shù)據(jù)基建

為了緩解行業(yè)的數(shù)據(jù)痛點(diǎn)，螞蟻靈波最近開源了LingBot-Depth-Dataset數(shù)據(jù)集，其總體規(guī)模達(dá)到2.71TB，包含300萬對(duì)標(biāo)注RGB-D數(shù)據(jù)，每一對(duì)樣本都包含一張RGB圖像、傳感器原始深度圖和真值深度圖

其中大部分都是真實(shí)數(shù)據(jù)，大約有200萬對(duì)，140萬對(duì)是由多臺(tái)RGB-D相機(jī)采集自真實(shí)室內(nèi)場(chǎng)景的數(shù)據(jù)RobbyReal（如下圖所示），以及58萬對(duì)由機(jī)器人在VLA任務(wù)中采集的數(shù)據(jù)RobbyVla

這些真實(shí)數(shù)據(jù)的來源非常廣泛，包括住宅、教室、博物館、商店、醫(yī)院、健身房和電梯等各種生活場(chǎng)景，數(shù)據(jù)來源豐富，作為訓(xùn)練底座時(shí)就能增強(qiáng)模型的泛化性。

此外還有約100萬對(duì)由雙相機(jī)視角渲染生成的合成數(shù)據(jù)RobbySim

其余部分都是RobbySimVal，含有3.8萬條數(shù)據(jù)，作為仿真數(shù)據(jù)的驗(yàn)證集。這種虛實(shí)融合采集數(shù)據(jù)的方式，既能覆蓋一些邊緣場(chǎng)景，也能降低數(shù)據(jù)采集成本。

規(guī)模大、場(chǎng)景豐富，只是數(shù)據(jù)集可以被行業(yè)廣泛使用的必要條件，但還不是全部。

LingBot-Depth-Dataset還有一個(gè)值得關(guān)注的地方在于數(shù)據(jù)分布的多樣性，它在構(gòu)建時(shí)使用Orbbec 335、335L，RealSense D405、D415、D435、D455這6款主流深度相機(jī)進(jìn)行采集，不同相機(jī)在成像特性、噪聲模式、深度精度上各有差異，使得數(shù)據(jù)集天然覆蓋了多種傳感器分布，為下游研究和模型訓(xùn)練提供了更豐富的數(shù)據(jù)基礎(chǔ)。

這意味著這座數(shù)據(jù)金礦，可以被更多研發(fā)團(tuán)隊(duì)挖掘，成為空間智能的數(shù)據(jù)基建。

打造具身智能的“大腦平臺(tái)”

螞蟻靈波開源的這套數(shù)據(jù)基建，緩解了開源社區(qū)缺乏真實(shí)場(chǎng)景拍攝數(shù)據(jù)的問題，不僅量大管飽，而且戰(zhàn)績(jī)可查

今年年初，螞蟻靈波發(fā)布了LingBot-Depth模型，LingBot-Depth主要基于LingBot-Depth-Dataset數(shù)據(jù)集訓(xùn)練，在多項(xiàng)權(quán)威深度補(bǔ)全基準(zhǔn)測(cè)試如iBims、NYUv2和DIODE上實(shí)現(xiàn)了SOTA

而當(dāng)LingBot-Depth部署到真實(shí)環(huán)境后，可以驅(qū)動(dòng)機(jī)器人穩(wěn)健抓取透明和反光物體，這在以往可以說是天方夜譚的事情。

隨后，螞蟻靈波又緊接著開源了LingBot-VLA，打通視覺、語言和動(dòng)作，驅(qū)動(dòng)機(jī)器人做出決策。

緊隨其后開源的LingBot-World，則為模型提供了仿真訓(xùn)練場(chǎng)。

當(dāng)時(shí)壓軸登場(chǎng)的LingBot-VA，則率先讓世界模型直接驅(qū)動(dòng)機(jī)器人動(dòng)作，實(shí)現(xiàn)了“邊推演，邊執(zhí)行”，引領(lǐng)了具身研究的趨勢(shì)。

從感知到?jīng)Q策，從模型到數(shù)據(jù)，螞蟻靈波正在打造具身智能的“大腦平臺(tái)”。其最新開源成果，也啟發(fā)著行業(yè)思維轉(zhuǎn)向。

物理AI數(shù)據(jù)先行

追根溯源來看，這種通過軟件方法加強(qiáng)感知能力，而不是一味堆傳感器的思想，體現(xiàn)了計(jì)算機(jī)科學(xué)中的軟件硬件等效原理

那軟件和硬件手段應(yīng)該如何取舍？與具身智能同屬物理AI的自動(dòng)駕駛行業(yè)，已在該問題上形成了共識(shí)，值得參考借鑒：

首先最值得重視的是數(shù)據(jù)和算法架構(gòu)。前者是AI迭代的基石，后者是指將多個(gè)算法整合形成合力，并長(zhǎng)期積累的能力。

其次才是堆更多數(shù)量和價(jià)格更高的傳感器。自動(dòng)駕駛從業(yè)者普遍認(rèn)為，隨著數(shù)據(jù)越來越多，再加上算法架構(gòu)持續(xù)升級(jí)，模型的空間感知能力會(huì)越來越強(qiáng)，這時(shí)再堆傳感器，雖然有用，但是提升的效果會(huì)越來越弱。

正是有了這樣的共識(shí)，行業(yè)才打下了硬件成本，為自動(dòng)駕駛商業(yè)化繁榮奠定了基礎(chǔ)。

自動(dòng)駕駛的實(shí)踐已經(jīng)證明，物理AI落地，優(yōu)先考慮軟件手段，這并不會(huì)削弱空間智能，還可以推動(dòng)商業(yè)化。這同樣也是螞蟻靈波開源一系列模型和數(shù)據(jù)集，給具身智能行業(yè)帶來的啟發(fā)：

加強(qiáng)空間智能，數(shù)據(jù)算法優(yōu)先，不必追逐昂貴硬件。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.