<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      具身導航從模仿到超越!CompassNav:從路徑模仿到?jīng)Q策理解的導航

      0
      分享至

      文章來源:視覺語言導航。

      • 作者:LinFeng Li , Jian Zhao , Yuan Xie , Xin Tan , Xuelong Li

      • 單位: 華東師范大學, 中國電信人工智能研究所

      • 論文標題:CompassNav: Steering From Path Imitation To Decision Understanding In Navigation

      • 論文鏈接:https://arxiv.org/pdf/2510.10154

      • 項目主頁:https://linengcs.github.io/CompassNav/

      • 代碼鏈接:https://github.com/linengcs/CompassNav

      主要貢獻
      • 提出新的導航范式 :從傳統(tǒng)的路徑模仿轉(zhuǎn)變?yōu)闆Q策理解,旨在培養(yǎng)能夠真正理解導航?jīng)Q策的智能體,而不僅僅是模仿專家路徑。

      • 構(gòu)建Compass-Data-22k數(shù)據(jù)集 :包含22k軌跡,其中的RFT子集通過為每一步的所有可行動作標注A*測地線距離,為決策空間提供了全景視圖。

      • 設計差距感知混合獎勵函數(shù) :根據(jù)決策確定性動態(tài)調(diào)整反饋,既能為最優(yōu)動作提供明確信號,又能鼓勵探索,與RFT子集的密集標注緊密結(jié)合,培養(yǎng)智能體的決策能力。

      • 實現(xiàn)CompassNav框架 :采用SFT-then-RFT的訓練方案,使7B參數(shù)的智能體在目標導航基準測試中達到新的最高水平,超越了更大的專有模型,并在真實物理環(huán)境中實現(xiàn)了穩(wěn)健的目標導航。

      研究背景
      • 目標導航的重要性 :目標導航是智能體在復雜、未見過的環(huán)境中自主操作的關鍵能力之一,要求智能體能夠自由探索并進行空間推理以實現(xiàn)目標,而無需明確的、逐步的指導。

      • 現(xiàn)有方法的局限性 :目前主流的訓練視覺語言大模型(LVLM)進行導航的方法依賴于模仿專家軌跡,這種方法將復雜的導航任務簡化為單一正確路徑的序列復制,限制了智能體的探索能力和泛化能力。

      Compass-Data數(shù)據(jù)集構(gòu)建 Compass-Data-RFT

      創(chuàng)建一個能夠提供密集、細粒度監(jiān)督信號的數(shù)據(jù)集,以支持智能體學習決策理解,而不僅僅是模仿單一專家路徑。

      • 使用 Action Proposer Module(APM) ,在每個時間步生成可行的候選動作,這些動作以極坐標元組(r,θ)表示,并在智能體的視野中以箭頭形式渲染。

      • 利用 Oracle A* Planner ,為每個候選動作計算到目標的測地線距離。智能體主要沿著最優(yōu)路徑前進,但在存在多個幾乎最優(yōu)的動作(決策點模糊)時,會探索并記錄這些替代路徑。

      • 記錄每一步中所有候選動作的測地線距離,生成多樣化的目標中心軌跡,每一步都標注了全景式的監(jiān)督信號,捕捉了到達目標的多條有效路徑。

      • 數(shù)據(jù)結(jié)構(gòu) :將生成的密集標注數(shù)據(jù)結(jié)構(gòu)化為RFT(Reinforcement Fine-Tuning)數(shù)據(jù)。每個RFT數(shù)據(jù)樣本包含標準輸入(指令提示和智能體當前視覺觀察)以及用于獎勵建模的專門目標對象。目標對象包含最優(yōu)動作的ID以及該步驟所有候選動作的完整A*距離向量,為差距感知混合獎勵函數(shù)和GRPO(Group-wise Reward Policy Optimization)框架提供了必要的細粒度、分級偏好信號。

      Compass-Data-SFT

      解決從基礎LVLM(Large Vision-Language Model)直接開始RFT(Reinforcement Fine-Tuning)時面臨的“冷啟動”問題,通過知識蒸餾策略為智能體提供一個基礎的“推理-行動”能力。

      • 采用強大的教師模型Qwen-QvQ,在habitat-sim中執(zhí)行ObjectNav任務,記錄其成功劇集中的完整推理過程和動作選擇。

      • 僅從教師模型的成功劇集中提取數(shù)據(jù),形成SFT(Supervised Fine-Tuning)數(shù)據(jù)集,以反映有效的探索策略。

      • 數(shù)據(jù)結(jié)構(gòu) :每個SFT訓練實例與RFT數(shù)據(jù)具有相同的輸入結(jié)構(gòu),但目標輸出是一個包含教師完整推理過程和決策的單個字符串,格式為 ...reasoning... k ,明確訓練模型在采取行動之前外化其推理過程,建立基礎的“推理-行動”行為。

      CompassNav框架 監(jiān)督式微調(diào)策略初始化

      通過模仿學習培養(yǎng)智能體的基礎“推理-行動”能力,為后續(xù)的RFT階段提供一個良好的初始策略。

      • 使用Compass-Data-SFT-11k數(shù)據(jù)集,訓練模型在每個時間步生成兩部分響應:推理過程和最終動作選擇,格式為 ... k 。

      • 采用 掩碼多選解碼技術 ,通過在解碼器的輸出logits上應用掩碼softmax,限制詞匯表僅包含有效候選動作的索引,確保生成的所有輸出都是可執(zhí)行的,這對于后續(xù)RFT階段的穩(wěn)定性至關重要。

      • 使用標準的交叉熵損失函數(shù)對整個教師生成的序列(包括推理標記和最終動作標記)進行訓練,以學習模仿教師模型的推理和決策過程。

      差距感知混合獎勵調(diào)整策略對齊

      在SFT初始化的策略基礎上,利用環(huán)境目標對齊策略,通過差距感知混合獎勵函數(shù)實現(xiàn)真正的決策理解。

      • 使用GRPO(Group-wise Reward Policy Optimization)框架,對給定的輸入提示,使用策略πθ生成一組G個不同的輸出序列,并為每個生成的序列根據(jù)選擇的動作質(zhì)量分配獎勵,獎勵由差距感知混合獎勵函數(shù)計算。

      • 差距感知混合獎勵函數(shù)

        • 基礎分數(shù) :通過softmax函數(shù)根據(jù)到目標的距離對所有可用選項進行連續(xù)評估,距離越短的動作得分越高,反映其相對質(zhì)量。

        • 動態(tài)獎金 :通過測量最佳和次佳選項之間的歸一化差距來評估當前情況的確定性,差距越大,確定性越高,獎金也越高,但僅對最優(yōu)行動觸發(fā)。

        • 最終獎勵將基礎分數(shù)與動態(tài)獎金相結(jié)合,通過調(diào)整獎勵信號的強度,既能在高確定性情況下提供明確的信號,又能在低確定性情況下鼓勵探索。

      • 目標函數(shù) :GRPO目標函數(shù)最大化生成組的預期獎勵,在計算優(yōu)勢后,通過最小化損失函數(shù)來優(yōu)化策略,同時使用KL散度項對策略更新進行正則化,以保持策略與SFT階段的參考策略之間的相似性,從而鼓勵策略生成導致高獎勵動作的序列。

      實驗 實驗設置
      • 數(shù)據(jù)集和任務

        • 在habitat-sim中使用HM3Dv2訓練集生成訓練數(shù)據(jù)。

        • 在HM3Dv1-val、HM3Dv2-val和MP3D-val三個未見驗證集上評估智能體的泛化能力,這些驗證集包含完全未見過的場景和目標實例,確保對智能體在新環(huán)境中的導航能力進行嚴格評估。

        • 主要任務是Object-Goal(Chaplot et al., 2020)和Instance-Image-Goal Navigation(Krantz et al., 2022)。

      • 評估指標

        • 成功率(SR):衡量成功劇集的比例。

        • 路徑長度加權(quán)成功率(SPL):根據(jù)實際路徑與最優(yōu)路徑長度的比值對每次成功進行加權(quán)。

      • 實現(xiàn)細節(jié)

        • CompassNav基于開源的Qwen2.5-VL-7B模型構(gòu)建。

        • 使用兩階段SFT-then-RFT訓練方案。

        • 具體訓練框架、超參數(shù)和硬件配置等詳細信息見附錄E。

      主要結(jié)果
      • 與模塊化導航方法的比較

        • 上表展示了CompassNav與多種先進模塊化系統(tǒng)(如Habitat-Web、ESC、L3MVN、InstructNav、PSL、VoroNav、Pixel-Nav、VLFM、GAMap、SG-Nav和UniGoal等)的對比結(jié)果。

        • CompassNav在HM3D和MP3D驗證集上的成功率(SR)和成功率加權(quán)路徑長度(SPL)指標均優(yōu)于或接近這些模塊化方法,盡管CompassNav采用的是更簡單的端到端方法,而模塊化方法通常依賴于復雜的多階段流程和顯式記憶(如語義地圖、歷史圖像等)。

        • 例如,在HM3Dv2-val驗證集上,CompassNav的SR為56.6%,SPL為27.6%,而UniGoal的SR為54.5%,SPL為25.1%。

      • 與端到端LVLM的比較

        • 上表展示了CompassNav與各種開源和專有模型的對比結(jié)果。

        • CompassNav顯著優(yōu)于其他大型LVLM,如Qwen2-VL-7B、Qwen2.5-VL-3B、LLama3.2-11B等,甚至超過了以強大通用推理能力著稱的GPT-4o和Gemini-2.5-Flash等模型。

        • 例如,在ObjectNav任務上,CompassNav的SR為61.6%,SPL為27.8%,而GPT-4o的SR為52.4%,SPL為23.5%。

        • 特別地,CompassNav在HM3D-OVON基準測試中超越了Nav-R1,盡管Nav-R1使用了更多的訓練數(shù)據(jù),并且從3D專用模型開始訓練,而CompassNav僅使用了十分之一的訓練數(shù)據(jù),并從通用LVLM開始訓練,這進一步證明了CompassNav框架的有效性。

      消融研究
      • SFT的有效性

        • 上表展示了從基礎模型直接開始RFT只能獲得有限的性能提升(SR為23.5%,SPL為6.95%),而經(jīng)過SFT初始化后再進行RFT可以顯著提高性能(SR為35.6%,SPL為14.8%),驗證了兩階段方法的協(xié)同作用。

        • 此外,僅在SFT階段教授模型輸出導航任務的動作空間實際上會降低性能(SR為17.9%,SPL為5.78%),這表明CompassNav框架中完整的SFT過程對于培養(yǎng)智能體的推理能力至關重要。

      • 獎勵函數(shù)的分析



        • 上圖和上表展示了差距感知混合獎勵函數(shù)的優(yōu)越性。

        • 與二進制獎勵和線性歸一化最小-最大獎勵等常見基線相比,差距感知混合獎勵函數(shù)在不同導航場景下表現(xiàn)出更好的性能,能夠為智能體提供更有意義的學習信號,促進其泛化能力。

        • 例如,在高確定性情況下,差距感知混合獎勵函數(shù)能夠為最優(yōu)動作和次優(yōu)動作之間創(chuàng)建較大的獎勵差距(如1.00與0.12),而在低確定性情況下,它能夠為接近的動作分配類似的非極端分數(shù),鼓勵探索而不是任意懲罰可行的選擇。

        • 此外,訓練動態(tài)曲線表明,盡管二進制和最小-最大獎勵模型在訓練過程中能夠獲得較高的分數(shù),但這僅僅是因為它們在模仿單一最佳動作方面表現(xiàn)出色,而差距感知混合獎勵函數(shù)雖然在絕對分數(shù)上較低,但它教會了模型評估所有選項,從而培養(yǎng)了更通用的推理能力。

      結(jié)論與未來工作
      • 結(jié)論

        • CompassNav框架通過從路徑模仿轉(zhuǎn)向決策理解,成功地將一個7B參數(shù)的LVLM轉(zhuǎn)變?yōu)榫哂行伦罡咚綄Ш侥芰Φ膶<抑悄荏w。

        • 該框架不僅在模擬環(huán)境中超越了更大的專有模型,還在真實世界的部署中表現(xiàn)出了穩(wěn)健的性能,為未來低成本、智能的具身智能體研究鋪平了道路。

      • 未來工作

        • 進一步優(yōu)化數(shù)據(jù)生成管道以提高效率和數(shù)據(jù)質(zhì)量;探索更復雜的獎勵函數(shù)設計,以更好地捕捉導航任務中的各種因素。

        • 研究如何將外部記憶模塊與框架更有效地集成,以增強智能體的長期規(guī)劃和記憶能力等。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      自律,C羅現(xiàn)在的身材與十年前幾乎沒什么區(qū)別

      自律,C羅現(xiàn)在的身材與十年前幾乎沒什么區(qū)別

      懂球帝
      2025-12-20 12:37:05
      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網(wǎng),醫(yī)生:無基礎者慎入

      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網(wǎng),醫(yī)生:無基礎者慎入

      悠悠說世界
      2025-12-21 08:34:39
      彈劾賴清德當天,5名大法官下場力挺,藍白震怒,大V:斗爭太慘烈

      彈劾賴清德當天,5名大法官下場力挺,藍白震怒,大V:斗爭太慘烈

      王姐懶人家常菜
      2025-12-20 16:38:37
      深度揭秘?|?“規(guī)劃女王”高楊,把自己“規(guī)劃”到了監(jiān)獄——一個“技術官僚”的腐敗折疊

      深度揭秘?|?“規(guī)劃女王”高楊,把自己“規(guī)劃”到了監(jiān)獄——一個“技術官僚”的腐敗折疊

      一分為三看人生
      2025-12-20 00:10:11
      白崇禧之子,一生無妻無兒,相伴38年高中同學死后,他公開性取向

      白崇禧之子,一生無妻無兒,相伴38年高中同學死后,他公開性取向

      墨說古今
      2025-12-16 23:10:42
      Anbernic安伯尼克RG477V掌機發(fā)布,可模擬Wii U、PS2游戲

      Anbernic安伯尼克RG477V掌機發(fā)布,可模擬Wii U、PS2游戲

      IT之家
      2025-12-21 09:44:48
      上海財大校長劉元春直言:不是老百姓不花錢,是錢沒到他們手上!

      上海財大校長劉元春直言:不是老百姓不花錢,是錢沒到他們手上!

      小濤叨叨
      2025-12-20 12:05:37
      石破茂的預言開始應驗,中方還沒有發(fā)力,日本企業(yè)就已經(jīng)撐不住了

      石破茂的預言開始應驗,中方還沒有發(fā)力,日本企業(yè)就已經(jīng)撐不住了

      來科點譜
      2025-12-21 08:57:41
      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      八斗小先生
      2025-07-17 15:12:37
      楊鳴:這賽季聯(lián)賽可能是歷史上最激烈的,末節(jié)很容易出現(xiàn)逆轉(zhuǎn)

      楊鳴:這賽季聯(lián)賽可能是歷史上最激烈的,末節(jié)很容易出現(xiàn)逆轉(zhuǎn)

      懂球帝
      2025-12-20 21:45:12
      到底是什么肉?消費者:必勝客實物牛排與菜單差距大,口感奇怪;暗訪發(fā)現(xiàn)…

      到底是什么肉?消費者:必勝客實物牛排與菜單差距大,口感奇怪;暗訪發(fā)現(xiàn)…

      上觀新聞
      2025-12-19 14:17:05
      我開了8年車,勸普通家庭別碰30萬級汽車,這些隱性成本真扛不住

      我開了8年車,勸普通家庭別碰30萬級汽車,這些隱性成本真扛不住

      李子櫥
      2025-12-20 16:48:52
      浙江金華一校花好漂亮 172cm 仙姿玉色貌美如花 絕世佳人不過如此

      浙江金華一?;ê闷?172cm 仙姿玉色貌美如花 絕世佳人不過如此

      戶外小阿隋
      2025-12-20 11:01:02
      就在今天!12月21日凌晨,傳來全紅嬋、張家齊新消息

      就在今天!12月21日凌晨,傳來全紅嬋、張家齊新消息

      皮皮觀天下
      2025-12-21 05:04:19
      普京喊話呂特:“為何執(zhí)意要跟我們打仗?”

      普京喊話呂特:“為何執(zhí)意要跟我們打仗?”

      參考消息
      2025-12-20 21:25:31
      萬萬沒想到,釋永信全家被扒,原來他才是那個“冰山一角”!

      萬萬沒想到,釋永信全家被扒,原來他才是那個“冰山一角”!

      智慧生活筆記
      2025-12-21 08:58:19
      女留學生染指上千外國男子,拍成視頻走紅網(wǎng)絡,父母與她斷絕關系

      女留學生染指上千外國男子,拍成視頻走紅網(wǎng)絡,父母與她斷絕關系

      阿胡
      2024-06-16 11:06:11
      若人類全部滅絕,數(shù)億年后,地球上有可能再次進化出人類嗎?

      若人類全部滅絕,數(shù)億年后,地球上有可能再次進化出人類嗎?

      心中的麥田
      2025-12-19 20:24:22
      黃埔名將胡璉:晚年絕口不提粟裕,死前讓子孫拿紙筆畫下一幅地圖

      黃埔名將胡璉:晚年絕口不提粟裕,死前讓子孫拿紙筆畫下一幅地圖

      宅家伍菇?jīng)?/span>
      2025-12-21 09:30:03
      官方辟謠深圳西站正式開工拆遷

      官方辟謠深圳西站正式開工拆遷

      黃河新聞網(wǎng)呂梁頻道
      2025-12-20 11:04:11
      2025-12-21 10:44:49
      算法與數(shù)學之美 incentive-icons
      算法與數(shù)學之美
      分享知識,交流思想
      5271文章數(shù) 64595關注度
      往期回顧 全部

      科技要聞

      生態(tài)適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      體育要聞

      我開了20年大巴,現(xiàn)在是一名西甲主帥

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經(jīng)要聞

      百年老店陷貼牌爭議 同仁堂必須作出取舍

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態(tài)度原創(chuàng)

      家居
      游戲
      旅游
      公開課
      軍事航空

      家居要聞

      高端私宅 理想隱居圣地

      CF世界觀解析(番外篇):救世主的后續(xù)劇情

      旅游要聞

      【外眼看云南】緬甸網(wǎng)紅沉浸式體驗傈僳族闊時節(jié),在怒江邂逅“詩與遠方”

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基:前線局勢愈發(fā)艱難

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲激情av| 无码人妻中文| 亚洲av影院一区二区三区| 国产欧美日韩亚洲一区二区三区| 国色天香中文字幕在线视频| 日逼逼视频| 精品秘?无码人妻| 夜鲁鲁鲁夜夜综合视频欧美| 香蕉久久av一区二区三区| 国产亚洲精品自在久久vr| 91制片厂天美传媒网站进入| 亚洲最大成人AV| 人妻激情偷乱一区二区三区| av一区二区三区| 成人免费A级毛片无码网站入口| 麻豆A∨在线| 伊伊色妹子在线视频| 中文字幕无码不卡免费视频| 亚洲AV无码久久精品日韩| 婷婷色六月| 亚洲天堂人妻| 国产小屁孩cao大人| 激情综合网激情综合| 国产一级AAAAA片免费| 特黄少妇60分钟在线观看播放| 加勒比无码一区二区三区| 欧美人禽zozo动人物杂交| 肉大榛一出一进免费观看在线| 国产精品毛片大码女人| 18禁真人抽搐一进一出在线| 国产家庭乱伦| 莱阳市| 国产69精品久久久久777| 亚欧美无遮挡hd高清在线视频| 亚洲AV日韩AV激情亚洲| 99精品视频在线观看| 熟女熟妇伦av网站| 性无码专区无码| 色婷婷成人| 久久人精品| 国产69精品久久久久久人妻精品|