哈嘍,大家好,今天小墨這篇科技解析,就帶大家聚焦浙大團(tuán)隊(duì)的重磅研究,把人類當(dāng) “特殊機(jī)器人” 采集數(shù)據(jù),底層空間感知技術(shù)究竟如何破解機(jī)器人訓(xùn)練難題?
現(xiàn)在人形機(jī)器人越來(lái)越受關(guān)注,但想讓它們自主干活,先得解決一個(gè)關(guān)鍵問(wèn)題,怎么精準(zhǔn)“看懂”周圍環(huán)境?
浙大研究員彭思達(dá)在“世界模型”分論壇上,分享了通用空間感知技術(shù)的研究成果,不僅破解了這個(gè)難題,還提出了用人類行為數(shù)據(jù)訓(xùn)練機(jī)器人的新思路。
![]()
![]()
機(jī)器人“看懂”世界難在哪
機(jī)器人要自己行動(dòng),得具備三個(gè)基礎(chǔ)“感知能力”,一是知道自己在哪(相機(jī)定位)。
二是清楚和周圍物體的距離(深度估計(jì)),三是能察覺(jué)物體動(dòng)不動(dòng)(物體運(yùn)動(dòng)估計(jì))。
這三項(xiàng)能力就像機(jī)器人的“眼睛和大腦”,是它避開(kāi)障礙、抓起東西、規(guī)劃路線的關(guān)鍵前提。
![]()
目前行業(yè)有兩個(gè)難解決的問(wèn)題,一是復(fù)雜環(huán)境下感知不準(zhǔn),比如白天黑夜交替、熱成像和普通畫(huà)面混用的場(chǎng)景,傳統(tǒng)技術(shù)容易“失靈”,導(dǎo)致機(jī)器人“迷路”。
二是訓(xùn)練數(shù)據(jù)不夠用,仿真數(shù)據(jù)和真實(shí)世界有差距,人工操控采集的數(shù)據(jù)又沒(méi)法大規(guī)模獲取。
彭思達(dá)團(tuán)隊(duì)正是瞄準(zhǔn)這兩個(gè)問(wèn)題,一邊優(yōu)化底層感知技術(shù),一邊找新的訓(xùn)練數(shù)據(jù)獲取方式。
但目前行業(yè)有兩個(gè)繞不開(kāi)的難題,復(fù)雜環(huán)境下“看不清”,比如白天黑夜切換、熱成像和普通畫(huà)面混用的場(chǎng)景,傳統(tǒng)技術(shù)容易出錯(cuò),導(dǎo)致機(jī)器人“迷路”。
![]()
訓(xùn)練數(shù)據(jù)不夠用,仿真數(shù)據(jù)和真實(shí)世界有差距,人工操控采集的數(shù)據(jù)又沒(méi)法大規(guī)模獲取,拖累技術(shù)進(jìn)步。
![]()
給機(jī)器人裝上“高清感知眼”
在相機(jī)定位上,傳統(tǒng)方法在紋理少、視角偏差大的場(chǎng)景下容易失效。
在“知道自己在哪”(相機(jī)定位)方面,傳統(tǒng)方法在紋理少、視角偏的場(chǎng)景下容易失效。
團(tuán)隊(duì)用大模型替代傳統(tǒng)方式,解決了這個(gè)問(wèn)題,后來(lái)推出的MatchAnything技術(shù)更厲害,能實(shí)現(xiàn)紅外和可見(jiàn)光、衛(wèi)星和無(wú)人機(jī)圖像的精準(zhǔn)匹配,就算無(wú)人機(jī)夏天拍的衛(wèi)星圖、冬天去工作也能對(duì)應(yīng)上,大大提升了遙感和自動(dòng)駕駛的可靠性。
![]()
針對(duì)技術(shù)落地的問(wèn)題,團(tuán)隊(duì)還優(yōu)化了流程,讓三維重建更精準(zhǔn)。
在“判斷距離”(深度估計(jì))方面,團(tuán)隊(duì)解決了行業(yè)通病,物體邊緣判斷不準(zhǔn)的“飛點(diǎn)”問(wèn)題。
通過(guò)優(yōu)化模型,能精準(zhǔn)識(shí)別到遠(yuǎn)處葉片的細(xì)節(jié),還借鑒語(yǔ)言提示詞的思路,讓雷達(dá)數(shù)據(jù)輔助判斷絕對(duì)深度,提升機(jī)器人抓取成功率。
后續(xù)技術(shù)還解決了三維重建的裂痕問(wèn)題,讓機(jī)器人能完成抓線纜這樣的精細(xì)活。
在此基礎(chǔ)上他們還借鑒語(yǔ)言提示詞技術(shù),讓雷達(dá)數(shù)據(jù)作為“參考”輸入模型,實(shí)現(xiàn)了絕對(duì)深度輸出,提升了機(jī)器人抓取成功率。
![]()
后續(xù)的InfiniDepth方法,還解決了三維重建的裂痕問(wèn)題,讓機(jī)器人能完成抓取線纜這樣的精細(xì)活。
![]()
把人類當(dāng)“老師”,解決數(shù)據(jù)匱乏
除了技術(shù)優(yōu)化,團(tuán)隊(duì)還有個(gè)大膽想法:人類本身就是“最厲害的機(jī)器人”,有完整的身體和成熟的行為模式。
如果能通過(guò)感知技術(shù),把人類日常行動(dòng)的數(shù)據(jù)記錄下來(lái),就能直接用來(lái)訓(xùn)練機(jī)器人,從根源上解決數(shù)據(jù)不夠的問(wèn)題。
為了精準(zhǔn)記錄人類行為,團(tuán)隊(duì)研發(fā)了三維跟蹤技術(shù)。
![]()
和傳統(tǒng)的二維跟蹤容易丟目標(biāo)不同,它能把圖像還原到三維空間,跟蹤更穩(wěn)定,讓“用人類數(shù)據(jù)練機(jī)器人”的想法能落地。
這些技術(shù)已經(jīng)能用到多個(gè)領(lǐng)域,自動(dòng)駕駛中,幫車輛更好地應(yīng)對(duì)復(fù)雜路況,減少極端天氣事故。
遙感領(lǐng)域,讓無(wú)人機(jī)精準(zhǔn)匹配地形,助力測(cè)繪和災(zāi)害監(jiān)測(cè);工業(yè)場(chǎng)景里,提升機(jī)器人抓取、裝配的精度,推動(dòng)智能制造。
這些成果離不開(kāi)浙大在相關(guān)領(lǐng)域的積累,團(tuán)隊(duì)研發(fā)的開(kāi)源工具還獲得了2024年相關(guān)行業(yè)獎(jiǎng)項(xiàng)。
![]()
底層空間感知技術(shù)是機(jī)器人變智能的關(guān)鍵。
彭思達(dá)團(tuán)隊(duì)的研究,既解決了機(jī)器人“看不清”的問(wèn)題,又找到了新的訓(xùn)練方法,為機(jī)器人商業(yè)化指明了方向。
未來(lái)隨著技術(shù)落地,機(jī)器人會(huì)更精準(zhǔn)靈活地融入生活,浙大等科研機(jī)構(gòu)的深耕也會(huì)助力中國(guó)在這一領(lǐng)域保持優(yōu)勢(shì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.