文章來源:視覺語言導(dǎo)航。![]()
作者: Xin Ding , Jianyu Wei , Yifan Yang , Shiqi Jiang , Qianxi Zhang , Hao Wu , Fucheng Jia , Liang Mi , Yuxuan Yan , Weijun Wang , Yunxin Liu , Zhibo Chen , Ting Cao
單位: 中國科學(xué)技術(shù)大學(xué), 微軟研究院, 南京大學(xué), 中南大學(xué), 浙江大學(xué), 清華大學(xué)人工智能產(chǎn)業(yè)研究院
論文標(biāo)題:AdaNav: Adaptive Reasoning with Uncertainty for Vision-Language Navigation
論文鏈接:https://arxiv.org/pdf/2509.24387v1
代碼鏈接:https://github.com/xinding-sys/AdaNav
提出基于不確定性的自適應(yīng)推理框架了 AdaNav ,通過引入不確定性自適應(yīng)推理塊(UAR Block)和啟發(fā)式到強(qiáng)化學(xué)習(xí)(Heuristic-to-RL)的訓(xùn)練機(jī)制,使智能體能夠在導(dǎo)航過程中根據(jù)需要?jiǎng)討B(tài)地觸發(fā)推理,解決了固定步長推理導(dǎo)致的性能次優(yōu)和計(jì)算開銷問題。
在僅使用 6K訓(xùn)練樣本 的情況下,AdaNav在多個(gè)基準(zhǔn)測試中取得了顯著的性能提升,超過了使用百萬級(jí)數(shù)據(jù)訓(xùn)練的閉源模型。例如,在R2R val-unseen上成功率提高了20%,在RxR-CE上提高了11.7%,在真實(shí)世界場景中提高了11.4%。
該框架使 推理更加困難感知和模式自適應(yīng) ,隨著訓(xùn)練的進(jìn)行,推理步驟更加集中在困難的軌跡上,且推理模式的選擇也更加合理,同時(shí)減少了平均推理步數(shù),提高了效率。
視覺語言導(dǎo)航(VLN)要求智能體能夠理解自然語言指令,并將其與連續(xù)的視覺觀察相結(jié)合,以執(zhí)行長期的導(dǎo)航軌跡。現(xiàn)有的基于視覺語言模型(VLM)的方法存在兩個(gè)主要挑戰(zhàn):一致的時(shí)間對(duì)齊和穩(wěn)健的感知-動(dòng)作映射。
為了應(yīng)對(duì)這些挑戰(zhàn),以往的研究引入了顯式推理,但固定步長的推理不僅計(jì)算開銷大,還會(huì)導(dǎo)致過度思考,降低導(dǎo)航質(zhì)量。理想的VLN智能體應(yīng)該能夠自適應(yīng)地推理,即根據(jù)需要決定何時(shí)以及如何推理,但實(shí)現(xiàn)這種自適應(yīng)性并緩解大語言模型(LLM)的過度自信問題通常需要大量的特定任務(wù)數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),而這些數(shù)據(jù)收集成本高昂。
環(huán)境與動(dòng)作空間 :考慮一個(gè)標(biāo)準(zhǔn)的VLN設(shè)置,智能體被放置在一個(gè)3D環(huán)境 中,具有狀態(tài)空間 和動(dòng)作空間 ,其中 和 分別表示角度和距離。
任務(wù)目標(biāo) :給定自然語言指令 和連續(xù)的視覺觀察 ,智能體需要執(zhí)行一個(gè)軌跡 ,以達(dá)到由指令 隱式指定的目標(biāo)狀態(tài) ,目標(biāo)是最大化任務(wù)成功率:
其中, 是指示函數(shù),表示最終狀態(tài)是否為目標(biāo)狀態(tài)。
推理模式與內(nèi)容 :為了提高VLN在長期和復(fù)雜環(huán)境中的性能,允許智能體在每一步 進(jìn)行顯式推理,推理模式變量 ,其中 表示不進(jìn)行推理, 是預(yù)定義的推理模式集合(如描述、總結(jié)、錯(cuò)誤糾正)。推理內(nèi)容為 。
聯(lián)合策略 :智能體的策略由兩部分組成:
導(dǎo)航策略 :根據(jù)導(dǎo)航相關(guān)的歷史信息 、指令 和之前的推理內(nèi)容 決定動(dòng)作 。
推理策略 :決定何時(shí)進(jìn)行推理(通過 或 )以及使用哪種推理模式(通過 )。
整體策略 :聯(lián)合策略為:
其中, 表示完整的導(dǎo)航和推理歷史信息。
優(yōu)化目標(biāo) :通過聯(lián)合優(yōu)化導(dǎo)航和推理策略,目標(biāo)是最大化任務(wù)性能,同時(shí)保持計(jì)算效率:
其中, 同時(shí)考慮導(dǎo)航成功(如進(jìn)度或成功指標(biāo))和推理調(diào)用引起的延遲懲罰。
自適應(yīng)推理需要智能體能夠選擇性地決定何時(shí)推理有益以及調(diào)用哪種模式。然而,現(xiàn)有的大語言模型(LLM)對(duì)任務(wù)難度不敏感,容易過度自信。
在LLM研究中,通過監(jiān)督微調(diào)引入高質(zhì)量的推理痕跡可以緩解這一問題。但對(duì)于具身智能體,收集這樣的高質(zhì)量交互痕跡成本過高。
因此,AdaNav提出了一種替代方法,利用可解釋的不確定性信號(hào)動(dòng)態(tài)觸發(fā)推理,無需依賴大規(guī)模推理監(jiān)督。
動(dòng)作熵作為不確定性度量 :受語言推理中高熵token對(duì)單步文本生成影響較大的啟發(fā),定義動(dòng)作熵 作為不確定性度量:
其中, 是生成的token數(shù)量, 是詞匯表大小, 是時(shí)間步 時(shí)詞匯表中第 個(gè)token的概率。
動(dòng)作熵的有效性驗(yàn)證 :通過診斷研究發(fā)現(xiàn),失敗的軌跡具有高且持續(xù)的動(dòng)作熵,而成功的軌跡保持較低的動(dòng)作熵。單獨(dú)的即時(shí)動(dòng)作熵不足以預(yù)測失敗,但結(jié)合歷史動(dòng)作熵趨勢和當(dāng)前動(dòng)作熵狀態(tài)可以提供更可靠的信號(hào) 。
UAR Block設(shè)計(jì) :UAR Block結(jié)合歷史動(dòng)作熵 和當(dāng)前觀察 ,形成推理相關(guān)信息 ,并將其轉(zhuǎn)化為緊湊的控制向量:
直接參數(shù)化推理模式的logits。從這個(gè)向量中,模式選擇策略為:
基于不確定性的先驗(yàn) :在冷啟動(dòng)階段,由于RL策略尚未學(xué)會(huì)有意義的模式選擇,因此使用基于不確定性的先驗(yàn)初始化訓(xùn)練。直觀上,較高的熵表示較高的不確定性,需要更強(qiáng)的推理。計(jì)算標(biāo)量熵分?jǐn)?shù)為過去熵的均值 ,并將其映射到包含“無推理”選項(xiàng)的推理模式上的軟先驗(yàn)分布:
其中, 是模式特定的熵閾值, 控制先驗(yàn)的平滑度。
啟發(fā)式到RL的過渡 :為了逐漸從啟發(fā)式先驗(yàn)轉(zhuǎn)移到學(xué)習(xí)到的RL策略,將先驗(yàn)分布與模型預(yù)測融合為:
其中, 從1逐漸衰減到0,允許RL策略 逐漸接管啟發(fā)式先驗(yàn) 。因此,模式選擇策略可以表示為:
獎(jiǎng)勵(lì)設(shè)計(jì) :首先定義推理成本為基于相對(duì)推理長度的歸一化懲罰:
其中, 是當(dāng)前步的推理長度, 是成功樣本組中最短的生成長度, 是一個(gè)常數(shù)懲罰窗口。
導(dǎo)航目標(biāo)獎(jiǎng)勵(lì) :采用基于距離減少的常見外在獎(jiǎng)勵(lì),即時(shí)獎(jiǎng)勵(lì)定義為 ,其中 表示從當(dāng)前狀態(tài) 到目標(biāo)位置 的測地線距離。
整體任務(wù)獎(jiǎng)勵(lì) :將外在獎(jiǎng)勵(lì)和推理成本結(jié)合起來,整體任務(wù)獎(jiǎng)勵(lì)定義為折扣累積回報(bào):
其中, 是折扣因子,控制未來獎(jiǎng)勵(lì)的權(quán)重。這種獎(jiǎng)勵(lì)設(shè)計(jì)鼓勵(lì)智能體高效地向目標(biāo)導(dǎo)航,同時(shí)避免不必要的推理開銷。
基礎(chǔ)模型 :選擇兩個(gè)開源的VLN模型NAVID和NAVILA作為基礎(chǔ)模型,AdaNav被集成到這些模型中。
訓(xùn)練數(shù)據(jù) :從R2R和RxR的訓(xùn)練集中隨機(jī)采樣3000個(gè)episode進(jìn)行訓(xùn)練。
硬件配置 :使用4塊NVIDIA RTX A100 GPU進(jìn)行訓(xùn)練。
基準(zhǔn)測試 :在R2R和RxR的val-unseen分割上評(píng)估導(dǎo)航性能,并在ScanQA驗(yàn)證集上評(píng)估空間場景理解能力。
VLN-CE基準(zhǔn)測試 :與使用百萬級(jí)數(shù)據(jù)訓(xùn)練的閉源模型相比,AdaNav在僅使用6K訓(xùn)練樣本的情況下,成功率顯著提升。具體來說,在R2R val-unseen上成功率提高了20%,在RxR-CE val-unseen上提高了14.6%。
跨數(shù)據(jù)集評(píng)估 :在僅使用R2R數(shù)據(jù)訓(xùn)練的情況下,AdaNav在RxR val-unseen上的零樣本評(píng)估中表現(xiàn)優(yōu)異,超過了所有閉源基線模型,展示了強(qiáng)大的泛化能力。
空間場景理解 :在ScanQA驗(yàn)證集上,AdaNav不僅保持了基礎(chǔ)模型的通用場景理解能力,還略有提升,表明其在推理訓(xùn)練后增強(qiáng)了魯棒性和泛化能力。
真實(shí)世界評(píng)估 :在真實(shí)世界環(huán)境中,使用25個(gè)樣本或復(fù)雜指令進(jìn)行實(shí)驗(yàn),AdaNav在會(huì)議室、家庭和辦公室三種環(huán)境中的成功率顯著提高,平均成功率提升了約11.4%。
訓(xùn)練數(shù)據(jù)規(guī)模 :分別使用2K、4K和6K訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,觀察UAR Block的行為變化。
推理調(diào)用分析 :統(tǒng)計(jì)推理調(diào)用的頻率、分布以及不同推理模式(描述、總結(jié)、錯(cuò)誤糾正)的使用情況。
任務(wù)難度分類 :根據(jù)基礎(chǔ)模型的成功與否將任務(wù)分為“容易”和“困難”兩類,分析UAR Block在不同難度任務(wù)中的推理觸發(fā)行為。
推理頻率 :隨著訓(xùn)練數(shù)據(jù)的增加,模型傾向于減少推理調(diào)用的頻率,將推理集中在關(guān)鍵時(shí)刻,從而平衡效率和效果。
推理模式選擇 :在后期步驟中,模型更傾向于使用總結(jié)和錯(cuò)誤糾正模式,顯示出基于任務(wù)上下文的自適應(yīng)模式選擇能力。
任務(wù)難度響應(yīng) :在基礎(chǔ)模型失敗的任務(wù)(即“困難”任務(wù))中,推理調(diào)用的頻率顯著增加,表明UAR Block能夠自適應(yīng)地將推理能力分配給更具挑戰(zhàn)性的場景。
去除UAR Block :推理以固定步長(例如每5步)或隨機(jī)方式觸發(fā),不使用自適應(yīng)控制。
去除啟發(fā)式先驗(yàn) :僅依賴強(qiáng)化學(xué)習(xí)從頭開始訓(xùn)練,不使用基于不確定性的啟發(fā)式先驗(yàn)。
去除強(qiáng)化學(xué)習(xí)微調(diào) :僅使用啟發(fā)式信號(hào)指導(dǎo)推理觸發(fā),不進(jìn)行進(jìn)一步的策略優(yōu)化。
去除UAR Block :性能顯著下降,表明自適應(yīng)推理控制對(duì)于提升導(dǎo)航性能至關(guān)重要。
去除啟發(fā)式先驗(yàn) :訓(xùn)練初期性能較差,說明啟發(fā)式先驗(yàn)為訓(xùn)練提供了有效的初始引導(dǎo)。
去除強(qiáng)化學(xué)習(xí)微調(diào) :性能不如完整AdaNav,表明強(qiáng)化學(xué)習(xí)微調(diào)能夠進(jìn)一步優(yōu)化推理策略,提升性能。
關(guān)鍵超參數(shù) :主要分析模式特定的熵閾值 和平滑因子 。
實(shí)驗(yàn)設(shè)置 :分別測試不同的 (如80%、85%、90%)和 值,觀察對(duì)性能的影響。
熵閾值 :較低的 值(如80%)在訓(xùn)練初期提供了更寬松的推理觸發(fā)條件,有助于模型更快地學(xué)習(xí)推理模式。隨著 的增加,模型需要更高的不確定性才會(huì)觸發(fā)推理,從而提高了推理的效率。
閾值增量 :適當(dāng)?shù)? 值能夠平衡不同推理模式之間的觸發(fā)條件,使模型能夠根據(jù)任務(wù)難度靈活選擇推理模式。
平滑因子 :較大的 值使先驗(yàn)分布更加平滑,有助于模型在不同推理模式之間平滑過渡,但過大的 可能導(dǎo)致模型對(duì)不確定性信號(hào)不夠敏感。
結(jié)論 :
AdaNav通過結(jié)合可解釋的啟發(fā)式先驗(yàn)和最優(yōu)的強(qiáng)化學(xué)習(xí),提供了一種可擴(kuò)展的、自適應(yīng)的推理方法,無需依賴昂貴的標(biāo)記推理數(shù)據(jù),即可在具身任務(wù)中實(shí)現(xiàn)高效的、困難感知的和模式自適應(yīng)的推理。
該方法在多個(gè)基準(zhǔn)測試和真實(shí)世界部署中都表現(xiàn)出色,為具身智能體的推理能力提升提供了一個(gè)有前景的方向。
未來工作 :
可以進(jìn)一步探索如何在更復(fù)雜的環(huán)境和任務(wù)中應(yīng)用和優(yōu)化AdaNav,例如在多智能體交互場景中實(shí)現(xiàn)自適應(yīng)推理,或者將該框架擴(kuò)展到其他需要推理的具身任務(wù)中。
此外,還可以研究如何進(jìn)一步提高推理的效率和準(zhǔn)確性,以及如何更好地利用有限的數(shù)據(jù)來訓(xùn)練更強(qiáng)大的推理模型。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.