<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      TrackVLA++:具身視覺跟蹤的推理與記憶雙升級(jí)

      0
      分享至

      文章來源:鼓搗AI。

      在擁擠商場(chǎng)里,陪伴機(jī)器人如何精準(zhǔn)跟隨主人,即便被人群短暫遮擋、遇到穿同款衣服的干擾者也不跟丟?在復(fù)雜室內(nèi)環(huán)境中,引導(dǎo)機(jī)器人怎樣持續(xù)鎖定目標(biāo),完成長時(shí)程跟蹤任務(wù)?這些場(chǎng)景的核心技術(shù)——具身視覺跟蹤(EVT),長期面臨遮擋、干擾物、長時(shí)記憶漂移三大痛點(diǎn)。

      近日,來自北大等機(jī)構(gòu)的團(tuán)隊(duì)提出了TrackVLA++,一款融合顯式空間推理長時(shí)目標(biāo)記憶的新型VLA(視覺-語言-動(dòng)作)模型,在仿真與真實(shí)場(chǎng)景中均實(shí)現(xiàn)SOTA性能,為具身機(jī)器人的精準(zhǔn)跟蹤提供了新的解決方案。

      論文鏈接:

      https://arxiv.org/pdf/2510.07134

      項(xiàng)目主頁:

      https://pku-epic.github.io/TrackVLA-plus-plus-Web/


      具身視覺跟蹤的核心痛點(diǎn)

      具身視覺跟蹤(EVT)是機(jī)器人在動(dòng)態(tài)物理環(huán)境中,基于視覺觀測(cè)和語言指令,持續(xù)追蹤指定移動(dòng)目標(biāo)的關(guān)鍵能力,廣泛支撐陪伴機(jī)器人、引導(dǎo)機(jī)器人、服務(wù)助手等實(shí)際應(yīng)用。

      盡管近年來VLA模型(如TrackVLA、LOVON)推動(dòng)了語言引導(dǎo)跟蹤的發(fā)展,但現(xiàn)有方法仍存在兩大致命缺陷:

      1. 缺乏顯式空間推理 :依賴視覺特征直接匹配,無法精準(zhǔn)推斷目標(biāo)相對(duì)位置,遇到相似干擾物易誤判;

      2. 長時(shí)記憶機(jī)制薄弱 :目標(biāo)被長時(shí)間遮擋或脫離視野后,記憶易漂移或被干擾物污染,難以重新識(shí)別目標(biāo)。

      這些問題導(dǎo)致現(xiàn)有模型在復(fù)雜場(chǎng)景中性能大幅下降,成為EVT技術(shù)落地的主要瓶頸。

      核心創(chuàng)新:推理與記憶的雙重突破

      TrackVLA++基于導(dǎo)航基礎(chǔ)模型NavFoM構(gòu)建,核心升級(jí)在于兩個(gè)專屬模塊:Polar-CoT(極坐標(biāo)思維鏈)TIM(目標(biāo)識(shí)別記憶)



      模型Pipeline流程圖,展示TrackVLA++的完整流程:從視頻流和語言指令輸入、Polar-CoT推理、TIM記憶更新、動(dòng)作軌跡輸出。

      Polar-CoT:輕量高效的空間推理機(jī)制

      傳統(tǒng)思維鏈(CoT)推理會(huì)生成冗長文本或復(fù)雜邊界框,計(jì)算開銷大且不適用于多相機(jī)場(chǎng)景。TrackVLA++提出的Polar-CoT做出兩大優(yōu)化:

      • 極坐標(biāo)離散化 :將機(jī)器人0.6-5.0m環(huán)形視場(chǎng),離散為60個(gè)角度(θ)×30個(gè)距離(d)的扇區(qū),每個(gè)扇區(qū)編碼為唯一token,形成緊湊的空間表征;

      • 高效推理輸出 :僅預(yù)測(cè)一個(gè)推理token,要么是 <θ,d> (目標(biāo)在視場(chǎng)內(nèi)的相對(duì)位置),要么是 (目標(biāo)遮擋或超出視野),既保證效率又消除多相機(jī)歧義。

      這種設(shè)計(jì)讓模型具備“空間思考能力”,不再依賴純視覺匹配,而是像人一樣通過“角度+距離”定位目標(biāo),推理效率較傳統(tǒng)CoT提升顯著。

      TIM:置信門控的長時(shí)目標(biāo)記憶

      為解決長時(shí)跟蹤中的記憶漂移問題,TIM模塊采用置信度感知門控策略,實(shí)現(xiàn)穩(wěn)健記憶更新:

      • 記憶更新規(guī)則:僅當(dāng)Polar-CoT以高置信度(通過歸一化熵計(jì)算)檢測(cè)到目標(biāo)時(shí),才用新視覺特征更新記憶;

      • 遮擋保護(hù)機(jī)制:目標(biāo)被遮擋時(shí), token強(qiáng)制置信度歸零,凍結(jié)記憶更新,保留最后一次可靠的目標(biāo)表征;

      • 輕量化設(shè)計(jì):僅用4個(gè)token編碼記憶狀態(tài),無需額外算力,且增加token數(shù)量無法帶來性能提升,兼顧高效與穩(wěn)健。

      通過“推理引導(dǎo)記憶”的模式,TIM有效抵御干擾物污染,在長時(shí)間遮擋后仍能快速重新識(shí)別目標(biāo)。

      實(shí)驗(yàn)驗(yàn)證

      團(tuán)隊(duì)在EVT-Bench、Gym-UnrealCV兩大基準(zhǔn),以及三大真實(shí)場(chǎng)景中對(duì)TrackVLA++進(jìn)行了全面驗(yàn)證,結(jié)果亮點(diǎn)十足。

      配圖3:論文Fig.4 仿真實(shí)驗(yàn)可視化圖) 插入位置:3.1仿真基準(zhǔn)部分開頭 配圖說明:展示TrackVLA++在EVT-Bench不同子任務(wù)(STT/DT/AT)和UnrealCV場(chǎng)景中的跟蹤效果,紅色區(qū)域標(biāo)記Polar-CoT預(yù)測(cè)的目標(biāo)位置,直觀體現(xiàn)模型在遮擋、干擾下的精準(zhǔn)定位能力。

      仿真基準(zhǔn)

      在EVT-Bench(復(fù)雜室內(nèi)場(chǎng)景,含大量干擾物)中,TrackVLA++表現(xiàn)突出:

      • 干擾跟蹤(DT)任務(wù):多視圖成功率(SR)達(dá)74.0%,較前作NavFoM提升12%,單視圖提升5.1%;

      • 單目標(biāo)跟蹤(STT):多視圖SR達(dá)90.9%,碰撞率(CR)僅1.50%,平衡跟蹤精度與安全性;

      • 零樣本泛化:在Gym-UnrealCV的未知環(huán)境中,干擾物任務(wù) episode長度(EL)達(dá)484,成功率(SR)0.92,超越TrackVLA等現(xiàn)有模型。

      在視覺識(shí)別能力上,TrackVLA++在SYNTH-PEDES零樣本人物識(shí)別任務(wù)中準(zhǔn)確率達(dá)87.5%,較SoM+GPT-4o提升5.1%,且推理速度達(dá)4.8 FPS,是GPT-based方法的48倍,兼顧精度與實(shí)時(shí)性。



      仿真實(shí)驗(yàn)可視化結(jié)果。TrackVLA++ 在遮擋和干擾條件下表現(xiàn)優(yōu)異。左上角小圖展示了 Polar-CoT 的預(yù)測(cè)結(jié)果,紅色區(qū)域表示預(yù)測(cè)的目標(biāo)位置;為簡潔起見,EVT-Bench 上的可視化結(jié)果僅截取了前方扇區(qū)。放大查看可獲得更佳視覺效果。

      真實(shí)世界


      團(tuán)隊(duì)在Unitree GO2四足機(jī)器人上部署TrackVLA++(配備4個(gè)多視圖相機(jī)),在三大核心場(chǎng)景中驗(yàn)證:

      1. 障礙遮擋:目標(biāo)被大型障礙物臨時(shí)遮擋,成功率較TrackVLA提升14%;

      2. 蜿蜒路徑:目標(biāo)沿復(fù)雜軌跡移動(dòng),跟蹤保真度提升7%;

      3. 相似干擾物:存在視覺相似的人類干擾者,識(shí)別穩(wěn)健性提升17%。



      真實(shí)世界實(shí)驗(yàn)結(jié)果圖:左側(cè)展示三大真實(shí)場(chǎng)景(障礙遮擋、蜿蜒路徑、相似干擾物)的跟蹤過程,右側(cè)柱狀圖對(duì)比TrackVLA++與TrackVLA的成功率。

      消融實(shí)驗(yàn)

      通過 ablation 實(shí)驗(yàn)(EVT-Bench DT多視圖場(chǎng)景),明確兩大模塊的貢獻(xiàn):

      • 僅移除Polar-CoT:成功率下降6.0%,證明空間推理對(duì)定位精度的關(guān)鍵作用;

      • 僅移除TIM:成功率下降2.8%,驗(yàn)證長時(shí)記憶對(duì)遮擋場(chǎng)景的支撐價(jià)值;

      • TIM token數(shù)量從4增至16:性能無明顯提升,印證輕量化設(shè)計(jì)的合理性。

      技術(shù)亮點(diǎn)與應(yīng)用前景

      TrackVLA++的核心優(yōu)勢(shì)的在于精準(zhǔn)+高效+泛化 三者兼?zhèn)洌?/p>

      • 精準(zhǔn)性:Polar-CoT的空間推理+TIM的置信門控記憶,解決遮擋、干擾、記憶漂移三大痛點(diǎn);

      • 高效性:推理token緊湊設(shè)計(jì)+輕量化記憶,推理速度達(dá)4.8 FPS,滿足實(shí)時(shí)跟蹤需求;

      • 泛化性:零樣本性能優(yōu)異,無需針對(duì)新場(chǎng)景重新訓(xùn)練,適配真實(shí)世界的動(dòng)態(tài)變化。

      這些特性使其在多個(gè)領(lǐng)域具備落地潛力:

      • 服務(wù)機(jī)器人:商場(chǎng)、機(jī)場(chǎng)的引導(dǎo)與陪伴,精準(zhǔn)跟隨目標(biāo)并規(guī)避干擾;

      • 工業(yè)場(chǎng)景:車間內(nèi)跟蹤特定設(shè)備或工作人員,完成巡檢、輔助任務(wù);

      • 安防監(jiān)控:動(dòng)態(tài)鎖定可疑目標(biāo),即便短暫遮擋也能持續(xù)追蹤。

      總結(jié)與展望

      TrackVLA++通過Polar-CoT極坐標(biāo)推理TIM置信門控記憶兩大創(chuàng)新,首次將顯式空間推理與長時(shí)目標(biāo)記憶融入VLA模型,徹底解決了具身視覺跟蹤的核心痛點(diǎn)。實(shí)驗(yàn)證明,該模型在仿真基準(zhǔn)中刷新SOTA,在真實(shí)場(chǎng)景中展現(xiàn)出強(qiáng)穩(wěn)健性,為具身機(jī)器人的精準(zhǔn)跟蹤提供了全新技術(shù)路徑。

      未來,團(tuán)隊(duì)可進(jìn)一步探索多目標(biāo)跟蹤、動(dòng)態(tài)環(huán)境自適應(yīng)等方向,推動(dòng)EVT技術(shù)在更復(fù)雜場(chǎng)景中落地。對(duì)于機(jī)器人研發(fā)者而言,TrackVLA++的模塊化設(shè)計(jì)也具備極高的參考價(jià)值,為后續(xù)模型優(yōu)化提供了清晰思路。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      貿(mào)易流向已完全按政治站隊(duì)

      貿(mào)易流向已完全按政治站隊(duì)

      邊際財(cái)經(jīng)實(shí)驗(yàn)室
      2025-12-20 13:16:50
      融入德國!樊振東開凱迪拉克豪車上班,戴白手套按工作人員指引泊車

      融入德國!樊振東開凱迪拉克豪車上班,戴白手套按工作人員指引泊車

      818體育
      2025-12-20 16:57:47
      全球反詐會(huì)議在曼谷舉行,58國到場(chǎng)、柬埔寨缺席

      全球反詐會(huì)議在曼谷舉行,58國到場(chǎng)、柬埔寨缺席

      犀利辣椒
      2025-12-21 06:43:58
      羅永浩吐槽網(wǎng)速,上海電信回應(yīng)

      羅永浩吐槽網(wǎng)速,上海電信回應(yīng)

      新京報(bào)政事兒
      2025-12-19 22:39:05
      “9塊錢能要你命嗎?”女兒買面包母親對(duì)著屏幕發(fā)瘋,太窒息了

      “9塊錢能要你命嗎?”女兒買面包母親對(duì)著屏幕發(fā)瘋,太窒息了

      妍妍教育日記
      2025-12-20 08:25:04
      史曉燕不再沉默,狠狠替何晴出了口惡氣,難怪許亞軍會(huì)缺席葬禮

      史曉燕不再沉默,狠狠替何晴出了口惡氣,難怪許亞軍會(huì)缺席葬禮

      以茶帶書
      2025-12-20 13:35:58
      曝馬刺對(duì)送走索漢持開放態(tài)度 目標(biāo)換回一名即戰(zhàn)力輪換球員

      曝馬刺對(duì)送走索漢持開放態(tài)度 目標(biāo)換回一名即戰(zhàn)力輪換球員

      北青網(wǎng)-北京青年報(bào)
      2025-12-21 08:44:02
      翁帆新消息傳來,太令人驚喜了

      翁帆新消息傳來,太令人驚喜了

      深度報(bào)
      2025-12-18 22:35:44
      梁王復(fù)仇黑塔,圣壇淚灑采訪區(qū),混雙會(huì)師,附總決賽21日賽程

      梁王復(fù)仇黑塔,圣壇淚灑采訪區(qū),混雙會(huì)師,附總決賽21日賽程

      佑銘羽球
      2025-12-21 03:03:17
      600萬中鋒!0籃板,4投0中,廣東球迷:好在朱芳雨沒簽他

      600萬中鋒!0籃板,4投0中,廣東球迷:好在朱芳雨沒簽他

      體育哲人
      2025-12-21 08:31:04
      又貴又雜,印度空軍裝備太亂,戰(zhàn)時(shí)根本沒辦法維護(hù)

      又貴又雜,印度空軍裝備太亂,戰(zhàn)時(shí)根本沒辦法維護(hù)

      三叔的裝備空間
      2025-12-21 09:59:16
      豪門悲喜夜:9人熱刺1-2利物浦 阿森納1-0 姆總平C羅紀(jì)錄皇馬2-0

      豪門悲喜夜:9人熱刺1-2利物浦 阿森納1-0 姆總平C羅紀(jì)錄皇馬2-0

      狍子歪解體壇
      2025-12-21 06:11:30
      班花參加同學(xué)會(huì),超高顏值驚艷全場(chǎng),男同學(xué)太激動(dòng)沒抱穩(wěn)雙雙倒地

      班花參加同學(xué)會(huì),超高顏值驚艷全場(chǎng),男同學(xué)太激動(dòng)沒抱穩(wěn)雙雙倒地

      梅子的小情緒
      2025-12-20 15:36:42
      南方黑芝麻糊成分含量最多的竟然不是黑芝麻?配料表引爭議,最新回應(yīng)

      南方黑芝麻糊成分含量最多的竟然不是黑芝麻?配料表引爭議,最新回應(yīng)

      極目新聞
      2025-12-20 14:28:37
      關(guān)于性欲的真相(適用于所有人)

      關(guān)于性欲的真相(適用于所有人)

      心理咨詢師陳實(shí)
      2025-12-03 22:10:03
      國家統(tǒng)計(jì)局原局長邱曉華:很多人按揭買的房子,房子的價(jià)格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

      國家統(tǒng)計(jì)局原局長邱曉華:很多人按揭買的房子,房子的價(jià)格已經(jīng)比首付還要低!它給人帶來的心理沖擊是很大的

      和訊網(wǎng)
      2025-12-18 17:46:52
      超級(jí)射手!西甲第1!一夜間追平C羅紀(jì)錄,2億巨星轟59球

      超級(jí)射手!西甲第1!一夜間追平C羅紀(jì)錄,2億巨星轟59球

      烏龍球OwnGoal
      2025-12-21 10:17:12
      CBA最新消息!山東男籃更換外援,奧利弗確定離開遼寧

      CBA最新消息!山東男籃更換外援,奧利弗確定離開遼寧

      體壇瞎白話
      2025-12-21 08:38:06
      字越少,事越大!

      字越少,事越大!

      互聯(lián)網(wǎng)思維
      2025-12-19 23:32:33
      海南封關(guān),缺電的越南坐不住了!越總理:明年越南要建8個(gè)自貿(mào)區(qū)

      海南封關(guān),缺電的越南坐不住了!越總理:明年越南要建8個(gè)自貿(mào)區(qū)

      阿離家居
      2025-12-21 09:28:52
      2025-12-21 10:43:00
      算法與數(shù)學(xué)之美 incentive-icons
      算法與數(shù)學(xué)之美
      分享知識(shí),交流思想
      5271文章數(shù) 64595關(guān)注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      體育要聞

      我開了20年大巴,現(xiàn)在是一名西甲主帥

      娛樂要聞

      鹿晗關(guān)曉彤戀愛期間毫不避諱?

      財(cái)經(jīng)要聞

      百年老店陷貼牌爭議 同仁堂必須作出取舍

      汽車要聞

      -30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      本地
      教育
      手機(jī)
      房產(chǎn)
      公開課

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

      教育要聞

      從“招生困難”到“火爆教育圈”,范家小學(xué)做對(duì)了什么?

      手機(jī)要聞

      白色靈動(dòng)島:消息稱努比亞手機(jī)也將“上島”,可自行選擇開關(guān)

      房產(chǎn)要聞

      廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 精品福利一区二区三区免费视频| 国产熟妇??码视频| 日本丶国产丶欧美色综合| 国产色亚洲| 亚洲国产欧美在线人成AAAA | 国产一区二区三区不卡在线看| 色综合久久综合欧美综合网| 欧美一二三区| 国产亚洲欧洲AⅤ综合一区| 国精品99久9在线 | 免费| 99自拍视频| 亚洲成人黄色| 日本亚洲欧洲无免费码在线| 色综合色综合久久综合频道88| 久久亚洲A?V| 国产精品夜夜爽7777777| 国产精品一区在线蜜臀| 亚洲精品字幕| 亚洲精品乱码久久久久红杏| 无码偷拍| 少妇无码视频| 伊人无码精品久久一区二区| 中国熟妇牲交视频| 精品不卡一区| 人妻va精品va欧美va| 99人妻| 中文字幕 欧美日韩| 少妇被多人c夜夜爽爽| 性欧美疯狂xxxxbbbb| 自拍偷拍亚洲| 女人AV天堂| 全免费A级毛片免费看无码| 性按摩xxxx在线观看| 肉大榛一进一出免费视频| 施秉县| 欧美另类3| 国语精品国内自产视频| 亚洲国产精品久久青草无码| 亚洲三区在线观看内射后入 | 亚洲熟妇无码一区二区三区导航| 日韩人妻无码精品无码中文字幕|