網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

TrackVLA++：具身視覺跟蹤的推理與記憶雙升級(jí)

2025-11-07 21:48:43　來源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

文章來源：鼓搗AI。

在擁擠商場(chǎng)里，陪伴機(jī)器人如何精準(zhǔn)跟隨主人，即便被人群短暫遮擋、遇到穿同款衣服的干擾者也不跟丟？在復(fù)雜室內(nèi)環(huán)境中，引導(dǎo)機(jī)器人怎樣持續(xù)鎖定目標(biāo)，完成長時(shí)程跟蹤任務(wù)？這些場(chǎng)景的核心技術(shù)——具身視覺跟蹤（EVT），長期面臨遮擋、干擾物、長時(shí)記憶漂移三大痛點(diǎn)。

近日，來自北大等機(jī)構(gòu)的團(tuán)隊(duì)提出了TrackVLA++，一款融合顯式空間推理與長時(shí)目標(biāo)記憶的新型VLA（視覺-語言-動(dòng)作）模型，在仿真與真實(shí)場(chǎng)景中均實(shí)現(xiàn)SOTA性能，為具身機(jī)器人的精準(zhǔn)跟蹤提供了新的解決方案。

論文鏈接：

https://arxiv.org/pdf/2510.07134

項(xiàng)目主頁：

https://pku-epic.github.io/TrackVLA-plus-plus-Web/

具身視覺跟蹤的核心痛點(diǎn)

具身視覺跟蹤（EVT）是機(jī)器人在動(dòng)態(tài)物理環(huán)境中，基于視覺觀測(cè)和語言指令，持續(xù)追蹤指定移動(dòng)目標(biāo)的關(guān)鍵能力，廣泛支撐陪伴機(jī)器人、引導(dǎo)機(jī)器人、服務(wù)助手等實(shí)際應(yīng)用。

盡管近年來VLA模型（如TrackVLA、LOVON）推動(dòng)了語言引導(dǎo)跟蹤的發(fā)展，但現(xiàn)有方法仍存在兩大致命缺陷：

缺乏顯式空間推理 ：依賴視覺特征直接匹配，無法精準(zhǔn)推斷目標(biāo)相對(duì)位置，遇到相似干擾物易誤判；
長時(shí)記憶機(jī)制薄弱 ：目標(biāo)被長時(shí)間遮擋或脫離視野后，記憶易漂移或被干擾物污染，難以重新識(shí)別目標(biāo)。

這些問題導(dǎo)致現(xiàn)有模型在復(fù)雜場(chǎng)景中性能大幅下降，成為EVT技術(shù)落地的主要瓶頸。

核心創(chuàng)新：推理與記憶的雙重突破

TrackVLA++基于導(dǎo)航基礎(chǔ)模型NavFoM構(gòu)建，核心升級(jí)在于兩個(gè)專屬模塊：Polar-CoT（極坐標(biāo)思維鏈） 和TIM（目標(biāo)識(shí)別記憶）。

模型Pipeline流程圖，展示TrackVLA++的完整流程：從視頻流和語言指令輸入、Polar-CoT推理、TIM記憶更新、動(dòng)作軌跡輸出。

Polar-CoT：輕量高效的空間推理機(jī)制

傳統(tǒng)思維鏈（CoT）推理會(huì)生成冗長文本或復(fù)雜邊界框，計(jì)算開銷大且不適用于多相機(jī)場(chǎng)景。TrackVLA++提出的Polar-CoT做出兩大優(yōu)化：

極坐標(biāo)離散化 ：將機(jī)器人0.6-5.0m環(huán)形視場(chǎng)，離散為60個(gè)角度（θ）×30個(gè)距離（d）的扇區(qū)，每個(gè)扇區(qū)編碼為唯一token，形成緊湊的空間表征；
高效推理輸出 ：僅預(yù)測(cè)一個(gè)推理token，要么是 <θ,d> （目標(biāo)在視場(chǎng)內(nèi)的相對(duì)位置），要么是（目標(biāo)遮擋或超出視野），既保證效率又消除多相機(jī)歧義。

這種設(shè)計(jì)讓模型具備“空間思考能力”，不再依賴純視覺匹配，而是像人一樣通過“角度+距離”定位目標(biāo)，推理效率較傳統(tǒng)CoT提升顯著。

TIM：置信門控的長時(shí)目標(biāo)記憶

為解決長時(shí)跟蹤中的記憶漂移問題，TIM模塊采用置信度感知門控策略，實(shí)現(xiàn)穩(wěn)健記憶更新：

記憶更新規(guī)則：僅當(dāng)Polar-CoT以高置信度（通過歸一化熵計(jì)算）檢測(cè)到目標(biāo)時(shí)，才用新視覺特征更新記憶；
遮擋保護(hù)機(jī)制：目標(biāo)被遮擋時(shí)， token強(qiáng)制置信度歸零，凍結(jié)記憶更新，保留最后一次可靠的目標(biāo)表征；
輕量化設(shè)計(jì)：僅用4個(gè)token編碼記憶狀態(tài)，無需額外算力，且增加token數(shù)量無法帶來性能提升，兼顧高效與穩(wěn)健。

通過“推理引導(dǎo)記憶”的模式，TIM有效抵御干擾物污染，在長時(shí)間遮擋后仍能快速重新識(shí)別目標(biāo)。

實(shí)驗(yàn)驗(yàn)證

團(tuán)隊(duì)在EVT-Bench、Gym-UnrealCV兩大基準(zhǔn)，以及三大真實(shí)場(chǎng)景中對(duì)TrackVLA++進(jìn)行了全面驗(yàn)證，結(jié)果亮點(diǎn)十足。

配圖3：論文Fig.4 仿真實(shí)驗(yàn)可視化圖）插入位置：3.1仿真基準(zhǔn)部分開頭配圖說明：展示TrackVLA++在EVT-Bench不同子任務(wù)（STT/DT/AT）和UnrealCV場(chǎng)景中的跟蹤效果，紅色區(qū)域標(biāo)記Polar-CoT預(yù)測(cè)的目標(biāo)位置，直觀體現(xiàn)模型在遮擋、干擾下的精準(zhǔn)定位能力。

仿真基準(zhǔn)

在EVT-Bench（復(fù)雜室內(nèi)場(chǎng)景，含大量干擾物）中，TrackVLA++表現(xiàn)突出：

干擾跟蹤（DT）任務(wù)：多視圖成功率（SR）達(dá)74.0%，較前作NavFoM提升12%，單視圖提升5.1%；
單目標(biāo)跟蹤（STT）：多視圖SR達(dá)90.9%，碰撞率（CR）僅1.50%，平衡跟蹤精度與安全性；
零樣本泛化：在Gym-UnrealCV的未知環(huán)境中，干擾物任務(wù) episode長度（EL）達(dá)484，成功率（SR）0.92，超越TrackVLA等現(xiàn)有模型。

在視覺識(shí)別能力上，TrackVLA++在SYNTH-PEDES零樣本人物識(shí)別任務(wù)中準(zhǔn)確率達(dá)87.5%，較SoM+GPT-4o提升5.1%，且推理速度達(dá)4.8 FPS，是GPT-based方法的48倍，兼顧精度與實(shí)時(shí)性。

仿真實(shí)驗(yàn)可視化結(jié)果。TrackVLA++ 在遮擋和干擾條件下表現(xiàn)優(yōu)異。左上角小圖展示了 Polar-CoT 的預(yù)測(cè)結(jié)果，紅色區(qū)域表示預(yù)測(cè)的目標(biāo)位置；為簡潔起見，EVT-Bench 上的可視化結(jié)果僅截取了前方扇區(qū)。放大查看可獲得更佳視覺效果。

真實(shí)世界

團(tuán)隊(duì)在Unitree GO2四足機(jī)器人上部署TrackVLA++（配備4個(gè)多視圖相機(jī)），在三大核心場(chǎng)景中驗(yàn)證：

障礙遮擋：目標(biāo)被大型障礙物臨時(shí)遮擋，成功率較TrackVLA提升14%；
蜿蜒路徑：目標(biāo)沿復(fù)雜軌跡移動(dòng)，跟蹤保真度提升7%；
相似干擾物：存在視覺相似的人類干擾者，識(shí)別穩(wěn)健性提升17%。

真實(shí)世界實(shí)驗(yàn)結(jié)果圖：左側(cè)展示三大真實(shí)場(chǎng)景（障礙遮擋、蜿蜒路徑、相似干擾物）的跟蹤過程，右側(cè)柱狀圖對(duì)比TrackVLA++與TrackVLA的成功率。

消融實(shí)驗(yàn)

通過 ablation 實(shí)驗(yàn)（EVT-Bench DT多視圖場(chǎng)景），明確兩大模塊的貢獻(xiàn)：

僅移除Polar-CoT：成功率下降6.0%，證明空間推理對(duì)定位精度的關(guān)鍵作用；
僅移除TIM：成功率下降2.8%，驗(yàn)證長時(shí)記憶對(duì)遮擋場(chǎng)景的支撐價(jià)值；
TIM token數(shù)量從4增至16：性能無明顯提升，印證輕量化設(shè)計(jì)的合理性。

技術(shù)亮點(diǎn)與應(yīng)用前景

TrackVLA++的核心優(yōu)勢(shì)的在于精準(zhǔn)+高效+泛化三者兼?zhèn)洌?/p>

精準(zhǔn)性：Polar-CoT的空間推理+TIM的置信門控記憶，解決遮擋、干擾、記憶漂移三大痛點(diǎn)；
高效性：推理token緊湊設(shè)計(jì)+輕量化記憶，推理速度達(dá)4.8 FPS，滿足實(shí)時(shí)跟蹤需求；
泛化性：零樣本性能優(yōu)異，無需針對(duì)新場(chǎng)景重新訓(xùn)練，適配真實(shí)世界的動(dòng)態(tài)變化。

這些特性使其在多個(gè)領(lǐng)域具備落地潛力：

服務(wù)機(jī)器人：商場(chǎng)、機(jī)場(chǎng)的引導(dǎo)與陪伴，精準(zhǔn)跟隨目標(biāo)并規(guī)避干擾；
工業(yè)場(chǎng)景：車間內(nèi)跟蹤特定設(shè)備或工作人員，完成巡檢、輔助任務(wù)；
安防監(jiān)控：動(dòng)態(tài)鎖定可疑目標(biāo)，即便短暫遮擋也能持續(xù)追蹤。

總結(jié)與展望

TrackVLA++通過Polar-CoT極坐標(biāo)推理和TIM置信門控記憶兩大創(chuàng)新，首次將顯式空間推理與長時(shí)目標(biāo)記憶融入VLA模型，徹底解決了具身視覺跟蹤的核心痛點(diǎn)。實(shí)驗(yàn)證明，該模型在仿真基準(zhǔn)中刷新SOTA，在真實(shí)場(chǎng)景中展現(xiàn)出強(qiáng)穩(wěn)健性，為具身機(jī)器人的精準(zhǔn)跟蹤提供了全新技術(shù)路徑。

未來，團(tuán)隊(duì)可進(jìn)一步探索多目標(biāo)跟蹤、動(dòng)態(tài)環(huán)境自適應(yīng)等方向，推動(dòng)EVT技術(shù)在更復(fù)雜場(chǎng)景中落地。對(duì)于機(jī)器人研發(fā)者而言，TrackVLA++的模塊化設(shè)計(jì)也具備極高的參考價(jià)值，為后續(xù)模型優(yōu)化提供了清晰思路。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.