文章來源:鼓搗AI。
在擁擠商場(chǎng)里,陪伴機(jī)器人如何精準(zhǔn)跟隨主人,即便被人群短暫遮擋、遇到穿同款衣服的干擾者也不跟丟?在復(fù)雜室內(nèi)環(huán)境中,引導(dǎo)機(jī)器人怎樣持續(xù)鎖定目標(biāo),完成長時(shí)程跟蹤任務(wù)?這些場(chǎng)景的核心技術(shù)——具身視覺跟蹤(EVT),長期面臨遮擋、干擾物、長時(shí)記憶漂移三大痛點(diǎn)。
近日,來自北大等機(jī)構(gòu)的團(tuán)隊(duì)提出了TrackVLA++,一款融合顯式空間推理與長時(shí)目標(biāo)記憶的新型VLA(視覺-語言-動(dòng)作)模型,在仿真與真實(shí)場(chǎng)景中均實(shí)現(xiàn)SOTA性能,為具身機(jī)器人的精準(zhǔn)跟蹤提供了新的解決方案。
論文鏈接:
https://arxiv.org/pdf/2510.07134
項(xiàng)目主頁:
https://pku-epic.github.io/TrackVLA-plus-plus-Web/
![]()
具身視覺跟蹤的核心痛點(diǎn)
具身視覺跟蹤(EVT)是機(jī)器人在動(dòng)態(tài)物理環(huán)境中,基于視覺觀測(cè)和語言指令,持續(xù)追蹤指定移動(dòng)目標(biāo)的關(guān)鍵能力,廣泛支撐陪伴機(jī)器人、引導(dǎo)機(jī)器人、服務(wù)助手等實(shí)際應(yīng)用。
盡管近年來VLA模型(如TrackVLA、LOVON)推動(dòng)了語言引導(dǎo)跟蹤的發(fā)展,但現(xiàn)有方法仍存在兩大致命缺陷:
缺乏顯式空間推理 :依賴視覺特征直接匹配,無法精準(zhǔn)推斷目標(biāo)相對(duì)位置,遇到相似干擾物易誤判;
長時(shí)記憶機(jī)制薄弱 :目標(biāo)被長時(shí)間遮擋或脫離視野后,記憶易漂移或被干擾物污染,難以重新識(shí)別目標(biāo)。
這些問題導(dǎo)致現(xiàn)有模型在復(fù)雜場(chǎng)景中性能大幅下降,成為EVT技術(shù)落地的主要瓶頸。
核心創(chuàng)新:推理與記憶的雙重突破
TrackVLA++基于導(dǎo)航基礎(chǔ)模型NavFoM構(gòu)建,核心升級(jí)在于兩個(gè)專屬模塊:Polar-CoT(極坐標(biāo)思維鏈) 和TIM(目標(biāo)識(shí)別記憶)。
![]()
模型Pipeline流程圖,展示TrackVLA++的完整流程:從視頻流和語言指令輸入、Polar-CoT推理、TIM記憶更新、動(dòng)作軌跡輸出。
Polar-CoT:輕量高效的空間推理機(jī)制
傳統(tǒng)思維鏈(CoT)推理會(huì)生成冗長文本或復(fù)雜邊界框,計(jì)算開銷大且不適用于多相機(jī)場(chǎng)景。TrackVLA++提出的Polar-CoT做出兩大優(yōu)化:
極坐標(biāo)離散化 :將機(jī)器人0.6-5.0m環(huán)形視場(chǎng),離散為60個(gè)角度(θ)×30個(gè)距離(d)的扇區(qū),每個(gè)扇區(qū)編碼為唯一token,形成緊湊的空間表征;
高效推理輸出 :僅預(yù)測(cè)一個(gè)推理token,要么是
<θ,d>(目標(biāo)在視場(chǎng)內(nèi)的相對(duì)位置),要么是(目標(biāo)遮擋或超出視野),既保證效率又消除多相機(jī)歧義。
這種設(shè)計(jì)讓模型具備“空間思考能力”,不再依賴純視覺匹配,而是像人一樣通過“角度+距離”定位目標(biāo),推理效率較傳統(tǒng)CoT提升顯著。
TIM:置信門控的長時(shí)目標(biāo)記憶
為解決長時(shí)跟蹤中的記憶漂移問題,TIM模塊采用置信度感知門控策略,實(shí)現(xiàn)穩(wěn)健記憶更新:
記憶更新規(guī)則:僅當(dāng)Polar-CoT以高置信度(通過歸一化熵計(jì)算)檢測(cè)到目標(biāo)時(shí),才用新視覺特征更新記憶;
遮擋保護(hù)機(jī)制:目標(biāo)被遮擋時(shí),
token強(qiáng)制置信度歸零,凍結(jié)記憶更新,保留最后一次可靠的目標(biāo)表征;輕量化設(shè)計(jì):僅用4個(gè)token編碼記憶狀態(tài),無需額外算力,且增加token數(shù)量無法帶來性能提升,兼顧高效與穩(wěn)健。
通過“推理引導(dǎo)記憶”的模式,TIM有效抵御干擾物污染,在長時(shí)間遮擋后仍能快速重新識(shí)別目標(biāo)。
實(shí)驗(yàn)驗(yàn)證
團(tuán)隊(duì)在EVT-Bench、Gym-UnrealCV兩大基準(zhǔn),以及三大真實(shí)場(chǎng)景中對(duì)TrackVLA++進(jìn)行了全面驗(yàn)證,結(jié)果亮點(diǎn)十足。
配圖3:論文Fig.4 仿真實(shí)驗(yàn)可視化圖) 插入位置:3.1仿真基準(zhǔn)部分開頭 配圖說明:展示TrackVLA++在EVT-Bench不同子任務(wù)(STT/DT/AT)和UnrealCV場(chǎng)景中的跟蹤效果,紅色區(qū)域標(biāo)記Polar-CoT預(yù)測(cè)的目標(biāo)位置,直觀體現(xiàn)模型在遮擋、干擾下的精準(zhǔn)定位能力。
仿真基準(zhǔn)
在EVT-Bench(復(fù)雜室內(nèi)場(chǎng)景,含大量干擾物)中,TrackVLA++表現(xiàn)突出:
干擾跟蹤(DT)任務(wù):多視圖成功率(SR)達(dá)74.0%,較前作NavFoM提升12%,單視圖提升5.1%;
單目標(biāo)跟蹤(STT):多視圖SR達(dá)90.9%,碰撞率(CR)僅1.50%,平衡跟蹤精度與安全性;
零樣本泛化:在Gym-UnrealCV的未知環(huán)境中,干擾物任務(wù) episode長度(EL)達(dá)484,成功率(SR)0.92,超越TrackVLA等現(xiàn)有模型。
在視覺識(shí)別能力上,TrackVLA++在SYNTH-PEDES零樣本人物識(shí)別任務(wù)中準(zhǔn)確率達(dá)87.5%,較SoM+GPT-4o提升5.1%,且推理速度達(dá)4.8 FPS,是GPT-based方法的48倍,兼顧精度與實(shí)時(shí)性。
![]()
仿真實(shí)驗(yàn)可視化結(jié)果。TrackVLA++ 在遮擋和干擾條件下表現(xiàn)優(yōu)異。左上角小圖展示了 Polar-CoT 的預(yù)測(cè)結(jié)果,紅色區(qū)域表示預(yù)測(cè)的目標(biāo)位置;為簡潔起見,EVT-Bench 上的可視化結(jié)果僅截取了前方扇區(qū)。放大查看可獲得更佳視覺效果。
真實(shí)世界
![]()
團(tuán)隊(duì)在Unitree GO2四足機(jī)器人上部署TrackVLA++(配備4個(gè)多視圖相機(jī)),在三大核心場(chǎng)景中驗(yàn)證:
障礙遮擋:目標(biāo)被大型障礙物臨時(shí)遮擋,成功率較TrackVLA提升14%;
蜿蜒路徑:目標(biāo)沿復(fù)雜軌跡移動(dòng),跟蹤保真度提升7%;
相似干擾物:存在視覺相似的人類干擾者,識(shí)別穩(wěn)健性提升17%。
![]()
真實(shí)世界實(shí)驗(yàn)結(jié)果圖:左側(cè)展示三大真實(shí)場(chǎng)景(障礙遮擋、蜿蜒路徑、相似干擾物)的跟蹤過程,右側(cè)柱狀圖對(duì)比TrackVLA++與TrackVLA的成功率。
消融實(shí)驗(yàn)
通過 ablation 實(shí)驗(yàn)(EVT-Bench DT多視圖場(chǎng)景),明確兩大模塊的貢獻(xiàn):
僅移除Polar-CoT:成功率下降6.0%,證明空間推理對(duì)定位精度的關(guān)鍵作用;
僅移除TIM:成功率下降2.8%,驗(yàn)證長時(shí)記憶對(duì)遮擋場(chǎng)景的支撐價(jià)值;
TIM token數(shù)量從4增至16:性能無明顯提升,印證輕量化設(shè)計(jì)的合理性。
TrackVLA++的核心優(yōu)勢(shì)的在于精準(zhǔn)+高效+泛化 三者兼?zhèn)洌?/p>
精準(zhǔn)性:Polar-CoT的空間推理+TIM的置信門控記憶,解決遮擋、干擾、記憶漂移三大痛點(diǎn);
高效性:推理token緊湊設(shè)計(jì)+輕量化記憶,推理速度達(dá)4.8 FPS,滿足實(shí)時(shí)跟蹤需求;
泛化性:零樣本性能優(yōu)異,無需針對(duì)新場(chǎng)景重新訓(xùn)練,適配真實(shí)世界的動(dòng)態(tài)變化。
這些特性使其在多個(gè)領(lǐng)域具備落地潛力:
服務(wù)機(jī)器人:商場(chǎng)、機(jī)場(chǎng)的引導(dǎo)與陪伴,精準(zhǔn)跟隨目標(biāo)并規(guī)避干擾;
工業(yè)場(chǎng)景:車間內(nèi)跟蹤特定設(shè)備或工作人員,完成巡檢、輔助任務(wù);
安防監(jiān)控:動(dòng)態(tài)鎖定可疑目標(biāo),即便短暫遮擋也能持續(xù)追蹤。
TrackVLA++通過Polar-CoT極坐標(biāo)推理和TIM置信門控記憶兩大創(chuàng)新,首次將顯式空間推理與長時(shí)目標(biāo)記憶融入VLA模型,徹底解決了具身視覺跟蹤的核心痛點(diǎn)。實(shí)驗(yàn)證明,該模型在仿真基準(zhǔn)中刷新SOTA,在真實(shí)場(chǎng)景中展現(xiàn)出強(qiáng)穩(wěn)健性,為具身機(jī)器人的精準(zhǔn)跟蹤提供了全新技術(shù)路徑。
未來,團(tuán)隊(duì)可進(jìn)一步探索多目標(biāo)跟蹤、動(dòng)態(tài)環(huán)境自適應(yīng)等方向,推動(dòng)EVT技術(shù)在更復(fù)雜場(chǎng)景中落地。對(duì)于機(jī)器人研發(fā)者而言,TrackVLA++的模塊化設(shè)計(jì)也具備極高的參考價(jià)值,為后續(xù)模型優(yōu)化提供了清晰思路。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.