<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      VLA這條技術線能走通嗎?

      0
      分享至

      當GPT-4V、Claude這類視覺語言模型在互聯網圖文數據的海洋里乘風破浪時,機器人領域的研究者們正試圖把這套玩法搬到機械臂和移動機器人身上。視覺語言動作模型(VLA)應運而生,它被寄予厚望,被看作是打通人機交互、實現通用機器人的關鍵路徑。



      但喧囂之下,行業當中也出現了一些質疑與思考,機器人領域的真實數據,真的能做到像 VLM 訓練那樣的超大規模量級嗎?如果做不到,又該如何僅憑有限數據,去論證 VLA 這條技術路線本身就走不通?

      靠超大規模參數對機器人數據進行暴力擬合,訓出來的模型真的能在真機上實現有效泛化嗎?VLA 和成熟的 VLM 之間,真正的技術鴻溝到底在哪?

      現在的 VLA 還都停留在做一些即插即用的簡單任務,這樣的推理速度,真的能支撐現實中高動態、高實時性的復雜任務嗎?

      01.

      數據量是天然的鴻溝!百萬級軌跡依舊難以實現高效泛化能力

      提到VLM的訓練,動輒數十億的圖文對是標配。這些數據唾手可得,從互聯網的海量網頁到YouTube的視頻庫,只要有足夠的算力,就能源源不斷地抓取投喂。反觀機器人領域,即便是號稱史上最大規模的Open X-Embodiment數據集,也只有170萬條軌跡,涵蓋22款不同機器人。



      這個數字聽起來不算小,但放到深度學習的尺度里,連VLM數據量的零頭都夠不上。更關鍵的是,機器人數據的采集成本高得離譜。有業內資深人士表示,依靠機器人專家示教一小時,往往只能產出幾十條有效數據,人力和時間成本加起來高達數千元。而且這些數據大多集中在pick-and-place這類重復性任務上,任務多樣性遠不如互聯網上五花八門的圖文內容。

      有人寄希望于仿真平臺破局。PhysX、MuJoCo、Isaac Sim這些工具確實能批量生成機器人運動數據,但Sim2Real的鴻溝始終橫亙在前。仿真環境里的物理參數、物體摩擦力、材質反射率都是理想化設定,和真實世界的復雜情況相去甚遠。就算用上Domain Randomization、Domain Adaptation這些技術來縮小差距,最終效果也充滿不確定性,能不能在真機上穩定復現,全看運氣。



      深度學習的Scaling Law是繞不開的鐵律,數據量、模型參數、計算資源三者缺一不可。用遠達不到要求的少量數據去訓練VLA,最后模型性能不佳,到底是數據不夠的鍋,還是VLA架構本身不適用?這個問題,沒人能給出確切答案。

      有行業人士提出兩個觀察指標,一是泛化性測試,如果在少量多樣化任務中,VLA的泛化能力明顯弱于模仿學習加微調的傳統方法,那或許能說明架構存在缺陷。二是看邊際收益,要是數據量從1k漲到10k時,模型性能提升明顯,但從10k擴增到100k后,提升變得微乎其微,那大概率是架構容量不足,或者是數據質量跟不上了。不過這些都只是間接證據,要徹底證明VLA走不通,需要大規模實驗的負面結果支撐。但在追求正向成果的科研圈,誰又會主動發布負面結果呢?這本質上更像是一個負面的悖論。

      02.

      暴力堆參行不通?機器人需要的是物理因果 不是統計關聯

      既然數據量不夠,那能不能像NLP領域那樣,靠超大規模參數暴力擬合機器人數據?畢竟GPT系列已經證明,參數和數據量到位后,模型會涌現出意想不到的能力,從GPT-3的少樣本學習到GPT-4的復雜推理,都是Scaling Law的功勞。

      但機器人領域和NLP領域有著本質區別。語言是離散符號系統,即便組合方式再多,也有內在規律可循。物理世界卻是連續、高維且非線性的,一個普通的杯子,材質、重量、形狀的變化就能衍生出無數種情況,靠模型死記硬背根本不現實。



      更關鍵的是,機器人模型的精度要求遠比語言模型高。語言模型產生幻覺,輸出幾句錯誤內容,用戶大概率能理解。可機器人要是出現“幻覺”,抓取位置偏差2厘米,就是成功和失敗的天壤之別。語言模型可以靠統計關聯蒙混過關,機器人卻必須理解真實的物理因果關系,否則稍微受到外力干擾,就會當場“翻車”。

      這意味著,單純靠堆參數和數據的scale思路,在機器人領域可能行不通。VLA需要引入更強的歸納偏置,才能真正適配物理世界的任務需求。

      03.

      VLA與VLM的核心鴻溝 不止是輸出那么簡單

      很多人以為,VLA只是VLM的延伸,無非是把輸出從文本token換成了機器人動作。但實際上,兩者的差距遠比想象中要大。

      首先是輸出空間的差異。VLM輸出的是離散的token序列,有明確的概率分布可以遵循。VLA輸出的是連續的動作信號,比如關節角度、末端位姿,連續分布的建模難度本身就遠超離散分布。

      其次是反饋機制的不同。VLM訓練時,文本反饋清晰明確,對錯一目了然。VLA的訓練卻只有稀疏的成功或失敗信號,大部分時候需要靠強化學習反復試錯,才能調整動作策略。這種低效的反饋方式,極大增加了訓練難度。

      還有一個容易被忽視的點,就是時序依賴的重要性。VLA需要處理動力學層面的時序關聯,t時刻的動作會直接影響t+1時刻的機器人狀態,誤差會隨著時間不斷累積。這對模型的時序建模能力提出了極高要求,也是VLM不需要面對的挑戰。

      正因如此,把VLM的那套架構直接照搬過來做VLA,顯然是行不通的。研究者們也在探索各種解決方案,比如用VQ-VAE把連續動作離散化,或者在模型中引入接觸動力學、穩定性約束等物理先驗。但目前來看,這些嘗試都還處于初步階段,離真正解決問題還有很長的路要走。

      04.

      推理速度的致命傷:高動態任務面前,VLA根本跟不上

      除了訓練層面的難題,VLA的推理速度更是卡在了實際應用的門檻上。

      目前典型的VLA模型,參數量大多在70億到800億之間,參考RT-2基于PaLM-E的架構就能看出端倪。在A100這種頂級算力平臺上,單次推理的延遲也需要50到200毫秒。



      但機器人的控制頻率要求,遠比這個數字要苛刻。低動態的工業機械臂,比如UR系列、Franka Emika,操作任務的控制頻率在10到20Hz,也就是50到100毫秒一次,VLA的推理速度勉強能跟上。可到了中動態任務,比如PR2、Fetch這類移動操作機器人,控制頻率提升到50到100Hz,需要10到20毫秒完成一次推理,VLA就顯得力不從心了。

      至于高動態任務,像波士頓動力的Atlas機器人、MIT的Cheetah獵豹機器人,控制頻率高達100到1000Hz,要求1到10毫秒內完成決策。這個速度下,VLA想要完成視覺-語言-動作的全流程推理,無異于天方夜譚。



      有人說可以通過技術手段優化推理速度。模型剪枝、量化確實能提速,但代價是精度下降;換用小模型,泛化能力又會大打折扣;異步推理的方案,在需要實時反饋的高動態任務面前,更是毫無用處。

      高動態任務需要的是反應式控制,機器人要根據環境的快速變化實時調整動作。而VLA本質上是個“黑盒”模型,想要讓它在毫秒級時間內完成復雜決策,難度堪比讓帕金森患者去參加奧運會。

      05.

      分層架構:是無奈的折中,還是最終的出路?

      為了解決推理延遲的問題,不少研究團隊把目光投向了分層架構。這個思路很直接:把VLA放在高層做決策規劃,底層用傳統控制器負責精細控制。



      具體來說,高層VLA只需要理解“把紅色方塊放到藍色碗里”這類自然語言指令,輸出粗粒度的軌跡航路點就行,推理速度可以放寬到100毫秒級別。底層則用PID、MPC這些成熟的傳統控制算法,以毫秒級的速度跟蹤航路點,完成精準動作。

      不得不說,這個方案確實能緩解實時性的問題,但隨之而來的質疑也很尖銳:這樣的架構,還算得上end-to-end的VLA嗎?這和VLA最初的設計初衷背道而馳。如果最終還是要依賴傳統控制器,那VLA的價值到底在哪里?難道只是一個花里胡哨的任務規劃器?和傳統的任務規劃加運動規劃方案,又有什么本質區別?

      翻看當下的VLA論文,這種感覺會更加強烈。很多研究都存在嚴重的選擇性篩選問題,只展示成功的實驗案例,對失敗率絕口不提。而且實驗場景大多限定在固定的實驗室環境里,用幾個固定物體反復測試,得出的成功率看似亮眼,卻經不起真實場景的考驗。

      真要把這樣的機器人放到陌生的廚房做飯,或者送到工廠車間搬運零件,能穩定完成任務的寥寥無幾。

      06.

      VLA到底過渡方案 還是未來方向?

      站在當下看VLA,更像是具身智能發展路上的一個過渡方案。就像深度學習早期,研究者們試過DBN、RBM、Autoencoder等各種架構,最后才沉淀出CNN、Transformer這樣的經典模型。

      VLA現在的火爆,很大程度上是沾了Transformer在其他領域的光。看到Transformer在NLP、CV領域大放異彩,研究者們自然想把它搬到機器人領域試試水。再加上大廠有足夠的資源堆數據、堆算力,能做出令人眼前一亮的demo,進一步帶動了學術界的跟風熱潮。畢竟在科研圈,跟著熱點走更容易發論文,這也是無可厚非的現實。

      但從長遠來看,機器人領域終究要回歸自身特性。VLA或許能在特定場景下發揮作用,但想要實現真正的通用機器人,大概率需要研究者們跳出Transformer的固有框架,設計出更貼合機器人動力學、物理規律的專用架構。

      當然,我們也不能完全否定VLA的潛力。畢竟GPT-4的出現,已經讓我們見識到了Scaling Law的巨大威力。誰也不敢保證,當VLA的參數和數據量達到某個臨界點時,不會涌現出意想不到的能力。

      只是在這個過程中,盲目迷信Scaling Law,忽視機器人領域的特殊性,無疑是危險的。因此VLA到底靠譜不靠譜,現在下結論還為時過早。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全球只有5位領導人被永久保留遺體,他們都是誰

      全球只有5位領導人被永久保留遺體,他們都是誰

      扶蘇聊歷史
      2026-01-29 16:13:42
      傻白糖被插足鬧自殺

      傻白糖被插足鬧自殺

      毒舌扒姨太
      2026-02-23 22:34:32
      現貨黃金上漲近2%

      現貨黃金上漲近2%

      每日經濟新聞
      2026-02-24 00:03:05
      深圳路邊停車擬出新規!不再強制立即繳費!但長期欠費將受罰!

      深圳路邊停車擬出新規!不再強制立即繳費!但長期欠費將受罰!

      深圳本地寶
      2026-02-23 18:14:03
      中國50后還有多少人?多少人能活到80歲?權威數據告訴你

      中國50后還有多少人?多少人能活到80歲?權威數據告訴你

      芭比衣櫥
      2026-02-19 21:00:42
      今日!CCTV5直播國乒王楚欽等出戰+斯諾克趙心童亮相,網絡轉NBA

      今日!CCTV5直播國乒王楚欽等出戰+斯諾克趙心童亮相,網絡轉NBA

      晚池
      2026-02-24 00:13:42
      炸鍋!利物浦皇馬驚天互換?1 億先生轉會真相被扒

      炸鍋!利物浦皇馬驚天互換?1 億先生轉會真相被扒

      瀾歸序
      2026-02-24 07:07:44
      馬英九言論引關注:統一最后時刻,大陸準備戰爭,臺美需深思

      馬英九言論引關注:統一最后時刻,大陸準備戰爭,臺美需深思

      領悟看世界
      2026-02-15 01:21:14
      你最爽的經歷是什么?網友:約過一個比我大好幾歲的姐姐

      你最爽的經歷是什么?網友:約過一個比我大好幾歲的姐姐

      帶你感受人間冷暖
      2026-02-16 01:10:39
      78歲連路都走不穩還開演唱會,全網罵聲一片,她卻揚言回饋粉絲

      78歲連路都走不穩還開演唱會,全網罵聲一片,她卻揚言回饋粉絲

      洲洲影視娛評
      2026-01-28 12:23:18
      在質疑聲中進步 約克雷斯本賽季已進15球 造阿森納8年新紀錄

      在質疑聲中進步 約克雷斯本賽季已進15球 造阿森納8年新紀錄

      智道足球
      2026-02-23 17:49:53
      太陽報:萬-比薩卡女友因車禍致行人重傷被起訴,兩人現身法庭

      太陽報:萬-比薩卡女友因車禍致行人重傷被起訴,兩人現身法庭

      懂球帝
      2026-02-23 14:46:04
      美國運通跌幅擴大至6.3%

      美國運通跌幅擴大至6.3%

      每日經濟新聞
      2026-02-23 23:22:09
      約基奇生涯第9次30+20+10!近50年其他球員總計僅6次

      約基奇生涯第9次30+20+10!近50年其他球員總計僅6次

      北青網-北京青年報
      2026-02-23 19:34:03
      未知:一種關于可能的溫柔留白

      未知:一種關于可能的溫柔留白

      疾跑的小蝸牛
      2026-02-23 22:48:10
      你見過最離譜的網購是什么?網友:倉庫是不會承認自己發錯了的

      你見過最離譜的網購是什么?網友:倉庫是不會承認自己發錯了的

      另子維愛讀史
      2026-02-16 20:35:50
      美國十大領域全球領跑,差距還在拉大,正視實力才是真清醒!

      美國十大領域全球領跑,差距還在拉大,正視實力才是真清醒!

      保德全
      2026-02-03 19:30:03
      2月23日俄烏:烏克蘭無人機再炸莫斯科

      2月23日俄烏:烏克蘭無人機再炸莫斯科

      山河路口
      2026-02-23 19:06:10
      Cell子刊:浙江大學王迪/丁克峰團隊揭示,僅需16小時禁食,增強癌癥免疫治療效果

      Cell子刊:浙江大學王迪/丁克峰團隊揭示,僅需16小時禁食,增強癌癥免疫治療效果

      生物世界
      2026-02-22 12:05:46
      說實話我真的不敢相信她已經61歲了,看起來竟然像四十歲左右

      說實話我真的不敢相信她已經61歲了,看起來竟然像四十歲左右

      今日搞笑分享
      2026-02-22 13:36:55
      2026-02-24 08:51:00
      機器人大講堂 incentive-icons
      機器人大講堂
      立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領域服務平臺
      6297文章數 4577關注度
      往期回顧 全部

      科技要聞

      AI顛覆發展最新犧牲品!IBM跳水重挫超13%

      頭條要聞

      牛彈琴:白宮突然發了張圖 傷害性不大侮辱性極強

      頭條要聞

      牛彈琴:白宮突然發了張圖 傷害性不大侮辱性極強

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      那藝娜賬號被禁止關注,視頻已清空!

      財經要聞

      速覽!假期這些大事影響節后市場

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      教育
      本地
      手機
      親子
      公開課

      教育要聞

      開工大吉不要說 happy start working!用這句話表達更地道!

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      手機要聞

      近20年來首次改名:蘋果iOS 26.4 Beta 2核心啟動器更名mBoot

      親子要聞

      1996年,韋東奕幼兒園照,一張罕見留影,那時就顯得和別人不一樣

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版