<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      千尋智能高陽團隊提出 Point-VLA:視覺定位實現語言指令精準執行

      0
      分享至



      設想這樣一個場景:你打電話讓同事去辦公室某個地方拿東西,僅憑語言描述位置是多么困難。在辦公室里,從一堆已經喝過的礦泉水瓶中,讓對面同學遞過來你之前喝過的那個,只用語言幾乎無法準確描述——「左邊第二個」?「有點舊的那個」?這時候,人們更傾向于用手指一下,或者拿出圖片來指代。

      這揭示了一個根本問題:人類在面對面交流時,會自然地通過手勢、指點來完成對物體或位置的定位(grounding),而不是依賴復雜的文本描述。即使對于人類這樣強大的多模態大腦,純語言指令也存在歧義,難以準確傳達空間信息。在雜亂場景、相似物體眾多的環境中,語言描述往往力不從心。

      同理,當我們只用語言給視覺-語言-動作(Vision-Language-Action,VLA)模型下達指令時,就如同讓人在電話里描述復雜場景,面臨兩個根本性困境:

      第一,語言在某些場景下根本無法精確表達。比如在無參考點的桌面上精確放置物體——「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」,這種絕對坐標式的描述既不自然又難以準確傳達。再比如雜亂場景中的特定目標,或者形狀不規則的物體,語言的表達能力觸及了邊界。

      第二,即使可以用復雜詳細的語言描述,VLA 模型也難以泛化理解。研究發現,雖然先進的視覺-語言模型(VLM)能以 60-70% 的準確率定位復雜描述的目標,但 text-only VLA 在執行時的成功率卻只有 25% 左右。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍。

      千尋智能高陽團隊的研究人員注意到這兩個根本性瓶頸,在最新論文《Point What You Mean: Visually Grounded Instruction Policy》中提出了 Point-VLA 方法。該方法通過在圖像上疊加邊界框(bounding box)提供明確的視覺定位線索,讓機器人能像人一樣「看著圖、指著點」來理解指令,在真實機器人操作任務中實現了高達 92.5% 的成功率,相比純文本 VLA 的 32.4% 提升了近 3 倍。

      • 論文標題:Point What You Mean: Visually Grounded Instruction Policy
      • 論文鏈接:https://arxiv.org/pdf/2512.18933
      • 項目主頁:https://yuhang-harry.github.io/Point-VLA



      圖 1:Point-VLA 通過在圖像上疊加邊界框,解決了雜亂場景抓取、OOD 物體操作、無參考點精確放置等語言指令難以勝任的任務

      語言的邊界:VLA 模型面臨的根本挑戰

      視覺-語言-動作(VLA)模型近年來在具身智能領域取得了顯著進展,能夠將自然語言指令直接轉化為機器人動作。然而,研究團隊發現,VLA 模型仍然受制于語言本身的固有局限性。

      兩大核心問題:

      1. 語言無法表達的場景(Inexpressible References)

      在真實世界中,有些場景語言根本無法精確描述,無論你怎么努力:

      • 無參考點的精確位置:「把杯子放在桌面上距離左邊緣 15 cm、前方 10 cm 的位置」——這種絕對坐標式的描述,語言表達起來既不自然又容易出錯。
      • 不規則 / 無定形物體:一個形狀復雜、紋理獨特的陶土塊,用語言描述「紅藍條紋、頂部方形底部圓形」仍然模糊不清。
      • 雜亂場景中的特定目標:在八個相同瓶子的桌面上,即使你說「右側第二排中間偏左的那個」,聽者依然難以確定。

      這些場景的共同特點是:語言的表達能力觸及了邊界。而人類在這種情況下會自然地用手指一下,或者拿出圖片指給對方看。

      2. 復雜描述的泛化困境(Limited Generalization)

      即使在某些場景下,我們可以通過非常詳細、復雜的語言描述來補全信息,但這又帶來了新的問題:VLA 模型難以泛化理解這些復雜的空間描述。

      研究團隊的實驗揭示了一個令人驚訝的現象:

      • 先進的 VLM(如 GPT-4V)在面對詳細的文本描述時,能夠以 60-70% 的準確率定位目標。
      • 但 text-only VLA 在相同場景下的操作成功率卻只有 25% 左右。

      這說明,即使 VLM「看懂」了復雜的語言描述,VLA 模型在將其轉化為精確動作時仍然力不從心。復雜的空間關系描述超出了 VLA 模型的泛化能力范圍,導致在雜亂場景、OOD 物體、精確放置等任務中表現急劇下降。這兩個問題共同構成了 VLA 模型在真實世界部署的根本瓶頸。



      圖 2:VLM 能以 60-70% 準確率定位復雜文本描述的目標(左兩例),但 text-only VLA 執行成功率僅 25%,揭示了語言-動作對齊的鴻溝。右側展示了語言根本無法描述的場景(無參考點平面),Point-VLA 通過視覺定位解決了這兩類問題

      Point-VLA:像人一樣「指著說」

      為了突破語言的固有局限,千尋智能高陽團隊提出了 Point-VLA 方法,其核心思想簡單而有效:既然語言無法精確表達,那就像人類一樣,用「指」的方式來明確目標。

      視覺定位指令(Visually Grounded Instruction)

      Point-VLA 的關鍵創新在于引入了視覺定位指令。具體而言,系統在機器人觀察到的第一幀圖像上疊加一個邊界框(bounding box),明確標注出目標物體或位置。這個邊界框就像人類用手指指向目標一樣,提供了明確的像素級空間線索。

      例如,對于「拿起瓶子」這個指令:

      • 純文本模式:「Pick up the bottle to the right of the leftmost bottles, in the middle of the desk」(信息完整但過于復雜,VLA 難以準確執行)
      • Point-VLA 模式:「Pick up」+ 圖像上的紅色邊界框(信息完整且簡單直接)

      這種方式將高層意圖(pick up, place)保留在語言中,而將精確的空間信息(哪個物體、什么位置)編碼在視覺線索中,完美結合了語言的抽象性和視覺的精確性。



      圖 3:Point-VLA 推理流程——用戶通過 GUI 在俯視圖上繪制邊界框,或通過手勢由 MLLM 自動生成邊界框,結合簡短文本指令,機器人即可精確執行操作

      統一的策略架構

      Point-VLA 采用統一的策略架構,能夠同時處理純文本指令和視覺定位指令。在訓練時,模型以 1:1 的比例接收兩種模態的數據:

      • 純文本指令:保持模型對常規語言指令的理解能力。
      • 視覺定位指令:學習利用像素級視覺線索進行精確操作。

      這種聯合訓練策略使得 Point-VLA 既能處理簡單的語言指令(如「向前移動」),也能在需要時接受視覺定位來完成復雜任務,實現了靈活的「即插即用」能力。

      視頻展示 Point-VLA 在真實機器人上的操作效果,包括雜亂場景抓取、精確放置等任務

      可擴展的自動數據標注 Pipeline

      視覺定位指令需要為每個演示標注邊界框,這可能帶來數據標注成本的挑戰。千尋智能團隊開發了一套自動數據標注 Pipeline,利用多模態大語言模型(MLLM)自動生成視覺定位監督信號。

      Pipeline 的工作流程很直接:給定一段演示視頻和文本指令,MLLM 分析視頻內容,自動識別關鍵幀并在第一幀上標注目標物體的邊界框。為了提升模型的泛化能力,研究團隊還設計了兩種數據增強策略——隨機平移和局部 CutMix。隨機平移鼓勵模型關注目標的相對位置而非絕對坐標,局部 CutMix 則防止模型過擬合特定物體的視覺特征。

      這套 Pipeline 使得研究團隊能夠從現有的演示數據中高效生成大量視覺定位監督信號,無需額外的人工標注成本,支持無縫的數據集成和擴展。



      圖 4:Point-VLA 訓練流程——MLLM 自動從演示視頻中生成邊界框標注,結合隨機平移和 CutMix 增強,與純文本數據聯合訓練統一策略

      實驗驗證:從 32.4% 到 92.5% 的跨越

      千尋智能團隊在真實機器人平臺上進行了全面的實驗驗證,涵蓋 6 個具有挑戰性的操作任務,包括不規則物體抓取、OOD 物體抓取、雜亂場景抓取、蛋槽精確放置、平面精確放置和蛋槽精確插入。實驗結果令人振奮:Point-VLA 在所有任務上的平均成功率達到 92.5%,相比純文本 VLA 的 32.4% 提升了近 3 倍

      在最具挑戰性的雜亂場景抓取任務中,Point-VLA 的成功率從 43.3% 提升到 94.3%,在精確放置任務中從 23.3% 提升到 90.0%。這些結果充分證明了視覺定位在消除歧義和實現精確操作方面的強大能力。



      圖 5:6 個評估任務的真實機器人實驗場景,涵蓋目標物體指代(不規則物體、OOD 物體)和目標位置指代(雜亂抓取、蛋槽、平面放置)等挑戰



      表 1:六個真實機器人操作任務的成功率(%)對比,其中text-vla和interleave-vla均經過與Point-vla同樣數據量,精細文本方位詞標注訓練至收斂,保證對比公平性,數據集信息見論文fig5

      語言邊界場景的突破

      研究團隊特別設計了兩類「語言邊界」場景來驗證 Point-VLA 的能力:

      • 場景 1:語言根本無法表達的任務

      在無參考點的平面桌面上精確放置物體:「把杯子放在距離左邊緣 15 cm、前方 10 cm 的位置」。這種絕對坐標式的描述,語言表達既不自然又難以準確傳達。純文本 VLA 在這類任務上的成功率僅 30%。

      而 Point-VLA 通過在圖像上直接標注目標位置的邊界框,繞過了語言表達的邊界,成功率達到95%

      • 場景 2:復雜描述難以泛化

      在包含 8 個相同瓶子的雜亂桌面上,需要用「拿起右側、最左邊那排瓶子中間的那個」這樣復雜的描述。雖然 VLM 能以 60-70% 準確率定位,但 text-only VLA 在執行時成功率僅 43.3%——模型難以泛化理解如此復雜的空間關系描述。

      Point-VLA 通過視覺定位提供明確的像素級線索,使模型無需理解復雜的語言描述就能準確執行,成功率提升到94.3%

      此外,研究團隊還在多個機器人平臺和 VLA 模型骨架上進行了驗證,包括 π0.5 和 π0 兩個不同的基礎模型,以及雙臂機器人和全身人形機器人。結果顯示 Point-VLA 在不同模型和硬件配置下均能保持高成功率,證明了其作為通用接口的可擴展性。

      在與純文本指令的兼容性測試中,Point-VLA 即使在純文本模式下(不使用視覺定位),也能匹配甚至超越純文本 VLA baseline。研究團隊在三種空間指代任務上進行了對比:相對位置指代、矩陣布局指代和基于參考的指代。結果顯示,Point-VLA 在純文本模式下的表現與 baseline 相當或更好,而在使用視覺定位時則在復雜空間指代任務上取得最高成功率。這說明視覺定位訓練提升了模型對空間關系的理解能力,即使在不使用視覺定位時也能受益。

      在數據擴展性實驗中,隨著訓練數據量的增加,Point-VLA 的性能持續提升,而純文本 VLA 很快達到飽和。在 OOD 物體抓取任務中,當訓練數據從 3 個場景增加到 12 個場景時,Point-VLA 的準確率從約 0.8 提升到 0.95,而純文本 VLA 在約 0.27 處就停止增長,表明視覺定位提供的明確監督信號使模型能夠更有效地從數據中學習。



      圖 6:(上)Point-VLA 在三種指令模式下的成功率對比——即使在純文本模式下,Point-VLA 也能匹配或超越 baseline,使用視覺定位時在復雜空間指代上取得最高成功率。(下)隨訓練數據增加,Point-VLA 性能持續提升,而純文本 VLA 很快飽和

      技術意義與未來展望

      Point-VLA 的提出具有重要的理論和實踐意義。首先,它揭示并解決了 VLA 領域的一個根本性問題:語言本身的表達能力限制了模型的性能上限。通過引入視覺定位,Point-VLA 繞過了這一瓶頸,為 VLA 模型開辟了新的發展路徑。

      其次,自動數據標注 Pipeline 使得視覺定位監督信號的獲取成本大幅降低,支持從現有演示數據中無縫生成訓練數據,為大規模 VLA 模型的訓練提供了可行的技術路線。

      92.5% 的成功率使得 VLA 模型首次在復雜真實場景中達到了實用化的門檻。Point-VLA 展示的精確操作能力,為機器人在工業、服務等領域的實際應用提供了技術基礎。更重要的是,Point-VLA 驗證了「指著說」這種人類自然交互方式在人機交互中的有效性,啟發了未來具身智能系統在多模態交互方面的探索。

      關于千尋智能 Spirit AI

      千尋智能致力于推動具身智能和機器人技術的發展,通過創新的 AI 算法使機器人能夠更好地理解和執行人類指令。高陽團隊專注于視覺-語言-動作模型的研究,在多模態學習、機器人操作等領域取得了一系列突破性成果。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日媒:44%的訪日中國游客資產額超680萬元

      日媒:44%的訪日中國游客資產額超680萬元

      隨波蕩漾的漂流瓶
      2026-04-11 17:16:26
      董路發文回擊黃健翔,稱對陣英格蘭二隊還被摁在禁區,他們到頭了

      董路發文回擊黃健翔,稱對陣英格蘭二隊還被摁在禁區,他們到頭了

      體壇風之子
      2026-04-11 07:00:09
      終于官宣 電動車禁令取消深層原因全面曝光 4億車主終于不用再躲了

      終于官宣 電動車禁令取消深層原因全面曝光 4億車主終于不用再躲了

      娛樂的硬糖吖
      2026-04-12 07:15:21
      三星家族結清12萬億遺產稅!兄妹3人與母砸鍋賣鐵硬扛

      三星家族結清12萬億遺產稅!兄妹3人與母砸鍋賣鐵硬扛

      時尚的弄潮
      2026-04-08 02:41:46
      嫁大自己18歲的凌峰,八十年代號稱青島美女賀順順,如今過得咋樣

      嫁大自己18歲的凌峰,八十年代號稱青島美女賀順順,如今過得咋樣

      攬星河的筆記
      2026-04-10 18:42:07
      公安部新規落地!70歲駕照免年審真相,這件事不做駕照直接注銷

      公安部新規落地!70歲駕照免年審真相,這件事不做駕照直接注銷

      復轉這些年
      2026-04-10 12:01:32
      約P?多人運動?夜夜不重樣?“娛圈鐵腎”的瓜

      約P?多人運動?夜夜不重樣?“娛圈鐵腎”的瓜

      萌姐
      2026-04-11 18:44:38
      前英超惡漢巴頓獄中近況:暴瘦當球隊隊長,還向獄友推銷自傳

      前英超惡漢巴頓獄中近況:暴瘦當球隊隊長,還向獄友推銷自傳

      仰臥撐FTUer
      2026-04-12 02:46:18
      70歲畢彥君:北京養老,沒豪車沒保姆,工資卡上交,生活低調愜意

      70歲畢彥君:北京養老,沒豪車沒保姆,工資卡上交,生活低調愜意

      白面書誏
      2026-04-11 16:57:15
      太心酸了!42歲著名女歌手江蘇走穴,賓客只顧吃席沒人搭理

      太心酸了!42歲著名女歌手江蘇走穴,賓客只顧吃席沒人搭理

      小徐講八卦
      2026-02-12 12:13:20
      【微特稿】美國強烈反對后 英國暫緩“還島”

      【微特稿】美國強烈反對后 英國暫緩“還島”

      新華社
      2026-04-11 18:20:04
      名為“超級語文課”,實則在制造低級思維

      名為“超級語文課”,實則在制造低級思維

      水寒說語文
      2026-04-10 11:41:14
      黃景瑜不忍了!公開回應和王玉雯真實關系,戀愛傳聞終于真相大白

      黃景瑜不忍了!公開回應和王玉雯真實關系,戀愛傳聞終于真相大白

      阿策聊實事
      2026-04-12 07:15:06
      4月12日廣東天氣實況:強對流來襲,風雨交加,并非持續酷熱

      4月12日廣東天氣實況:強對流來襲,風雨交加,并非持續酷熱

      天上閃電
      2026-04-12 05:59:44
      這四種病都不是病?而是年齡到了!過度治療反而傷身,坦然接受

      這四種病都不是病?而是年齡到了!過度治療反而傷身,坦然接受

      醫學科普匯
      2026-04-10 20:15:11
      鄭麗文如愿以償,閉門會談1小時,大陸講出一句話,給出4點建議

      鄭麗文如愿以償,閉門會談1小時,大陸講出一句話,給出4點建議

      白日追夢人
      2026-04-12 07:26:45
      一場97-116的慘敗讓快船絕望!拿MVP換數據刷子,2換1交易完敗了

      一場97-116的慘敗讓快船絕望!拿MVP換數據刷子,2換1交易完敗了

      毒舌NBA
      2026-04-11 12:48:15
      史詩級大漲!你手里的人民幣,正在以肉眼可見的速度變“貴”!

      史詩級大漲!你手里的人民幣,正在以肉眼可見的速度變“貴”!

      藍色海邊
      2026-04-11 19:15:29
      2026第三場戰爭:匈牙利大選

      2026第三場戰爭:匈牙利大選

      書生論劍
      2026-04-11 01:57:12
      提升自己最快的方式,不是埋頭苦讀,而是跟比你優秀的人在一起

      提升自己最快的方式,不是埋頭苦讀,而是跟比你優秀的人在一起

      清風拂心
      2026-04-02 10:15:03
      2026-04-12 08:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12729文章數 142623關注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發文反思

      頭條要聞

      伊朗總統與法國總統通電話 稱美伊談判成敗取決于美方

      頭條要聞

      伊朗總統與法國總統通電話 稱美伊談判成敗取決于美方

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      鄭鈞回應兒子走路:會監督他挺直腰板

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      家居
      游戲
      本地
      房產
      公開課

      家居要聞

      復古風格 自然簡約

      排面拉滿!《影之刃零》入選國家級藝術雜志

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      房產要聞

      土地供應突然暴跌!2026海口樓市,格局大變!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版