4月16日,螞蟻靈波科技宣布開源流式三維重建模型 LingBot-Map。該模型僅需一個(gè)普通RGB攝像頭,即可在視頻采集過程中實(shí)時(shí)估計(jì)相機(jī)位姿、重建場景三維結(jié)構(gòu),為機(jī)器人、自動駕駛、AR眼鏡等應(yīng)用提供連續(xù)、穩(wěn)定、實(shí)時(shí)的空間感知與理解能力。
![]()
(圖說:LingBot-Map 在多項(xiàng)國際主流評測中全面領(lǐng)先現(xiàn)有方法,是
在以大尺度、復(fù)雜光照和嚴(yán)苛評估標(biāo)準(zhǔn)著稱的Oxford Spires數(shù)據(jù)集上,LingBot-Map的絕對軌跡誤差(ATE)僅為 6.42 米,軌跡精度較此前最優(yōu)流式方法提升近 2.8 倍,也顯著優(yōu)于離線方法 DA3 的 12.87 米和優(yōu)化方法VIPE 的 10.52 米。
在ETH3D、7-Scenes、Tanks and Temples等多個(gè)權(quán)威基準(zhǔn)上,LingBot-Map在位姿估計(jì)和三維重建質(zhì)量兩個(gè)維度也全面領(lǐng)先現(xiàn)有流式方法。其中,在ETH3D基準(zhǔn)上,其重建F1分?jǐn)?shù)達(dá)到98.98,較第二名提升超過21 個(gè)百分點(diǎn),展現(xiàn)出更強(qiáng)的場景還原能力。
![]()
![]()
除精度外,LingBot-Map 還兼顧實(shí)時(shí)性與長時(shí)穩(wěn)定運(yùn)行能力。技術(shù)報(bào)告顯示,該模型可實(shí)現(xiàn)約 20 FPS 的推理速度,并支持超過 10,000 幀的長視頻序列連續(xù)推理,且精度幾乎保持不變。這意味著在機(jī)器人導(dǎo)航、避障、操作、交互等強(qiáng)調(diào)連續(xù)在線處理的真實(shí)場景中,模型具備在較長時(shí)間范圍內(nèi)穩(wěn)定運(yùn)行的能力。
流式三維重建是機(jī)器人和空間智能系統(tǒng)的重要底層能力。與傳統(tǒng)三維重建方法在獲取完整圖像后再統(tǒng)一處理不同,流式三維重建強(qiáng)調(diào)“邊看邊理解”,系統(tǒng)需要一邊接收新的畫面,一邊持續(xù)完成定位和建圖,還要控制計(jì)算和存儲開銷。如何在幾何精度、時(shí)序一致性和運(yùn)行效率之間取得平衡,一直是流式三維重建的核心難點(diǎn)。
針對上述問題,LingBot-Map采用了面向流式場景的純自回歸式建模方式,基于幾何上下文 Transformer,在不依賴未來幀信息的前提下,逐幀處理當(dāng)前及歷史畫面,持續(xù)輸出相機(jī)位姿和深度信息,實(shí)時(shí)恢復(fù)場景的三維結(jié)構(gòu)。
LingBot-Map 的核心創(chuàng)新在于其幾何上下文注意力(Geometric Context Attention,GCA)機(jī)制,能夠?qū)鐜瑤缀涡畔⑦M(jìn)行更有效的組織與利用,在保留關(guān)鍵歷史信息的同時(shí)減少冗余計(jì)算。據(jù)介紹,該設(shè)計(jì)借鑒了經(jīng)典 SLAM 系統(tǒng)對空間信息分層管理的思路,但將原本依賴手工設(shè)計(jì)和復(fù)雜優(yōu)化的部分交由模型統(tǒng)一學(xué)習(xí)完成,從而更好兼顧長序列場景下的重建質(zhì)量、運(yùn)行效率與系統(tǒng)穩(wěn)定性。
今年 1 月,螞蟻靈波相繼開源了高精度空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA,世界模型 LingBot-World 和自回歸視頻-動作模型 LingBot-VA,圍繞空間感知、具身決策、世界模擬等關(guān)鍵環(huán)節(jié),不斷夯實(shí)具身智能“智能基座”的技術(shù)布局。此次開源的 LingBot-Map,則進(jìn)一步補(bǔ)齊了實(shí)時(shí)空間理解與在線三維建圖的關(guān)鍵能力拼圖。
目前,LingBot-Map 的模型和代碼已在 Hugging Face開源。隨著更多開發(fā)者和研究團(tuán)隊(duì)參與,流式三維重建將推動機(jī)器人更穩(wěn)定、更高效地理解和適應(yīng)真實(shí)物理世界。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.