<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      打通視頻生成與機器人世界模型!BridgeV2W讓機器人學會預演未來

      0
      分享至




      機器人如何 "腦補" 未來?

      想象一下,你面前擺著一杯咖啡,你伸手去拿,在你的手真正觸碰到杯子之前,你的大腦已經在 "腦補" 了整個過程:手臂將如何移動、杯子會是什么觸感、抬起后桌面的樣子…… 這種對未來場景的想象和預測能力,正是人類操控世界的核心認知基石。

      那么,能否賦予機器人同樣的 “預演能力”,先在 “腦海” 中模擬動作后果,再付諸執(zhí)行?這就是具身世界模型要做的事情:讓機器人在行動前,就能 “看見” 未來。近年來,借助大規(guī)模視頻生成模型(如 Sora、Wan 等)強大的視覺先驗,這一方向取得了令人矚目的進展。

      然而,一個尷尬的問題始終懸而未決:視頻生成模型的世界由像素編織而成,而機器人的語言卻是關節(jié)角度與位姿坐標,它們使用完全不同的 “表征語言” 描述同一個物理世界。

      為了解決上述問題,具身智能公司中科第五紀聯(lián)合中科院自動化所團隊推出BridgeV2W,它通過一個極為優(yōu)雅的設計,具身掩碼(Embodiment Mask),一種由機器人動作渲染出的 “動作剪影”,將坐標空間的動作無縫映射到像素空間,從而真正打通預訓練視頻生成模型與世界模型之間的橋梁,讓機器人學會可靠地 “預演未來”。



      • 論文標題:BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks
      • 論文鏈接:https://arxiv.org/pdf/2602.03793
      • 項目鏈接:https://bridgev2w.github.io/

      困境:三座大山擋住了機器人的 "預演能力"

      盡管前景廣闊,當前的具身世界模型仍面臨三大核心挑戰(zhàn):

      1.動作與畫面 “語言不通”。機器人動作是關節(jié)角、末端位姿等坐標數(shù)值,而視頻生成模型只 “看” 像素。直接拼接動作向量效果有限,往往缺乏空間對齊的 “硬連接”,模型難以理解。

      2.視角一變,世界就 “崩”。同一動作在不同視角下外觀迥異。現(xiàn)有方法在訓練視角上尚可,一旦換視角,預測質量驟降,而真實場景中,相機位置幾乎不可能復現(xiàn)訓練設置。

      3.換一個機器人就得 “從零開始”。單臂、雙臂、移動底盤…… 結構千差萬別。現(xiàn)有方法往往需為每種機器人定制架構,難以構建統(tǒng)一的世界模型。

      核心創(chuàng)新:僅憑 "動作剪影",一舉破解三大難題

      BridgeV2W的核心洞察極其直覺:既然鴻溝源于 “坐標 vs 像素”,那就把動作直接 “畫” 進畫面里!

      它提出具身掩碼:利用機器人的 URDF 模型和相機參數(shù),將動作序列實時渲染為每幀圖像上的二值 “動作剪影”,精準標出機器人在畫面中的位置與姿態(tài)。

      這一設計,一舉破解前述三大難題:

      • 動作 - 像素對齊:掩碼是天然的像素級信號,與視頻模型輸入空間完全匹配,無需模型 “猜” 坐標的含義。
      • 視角自適應:掩碼隨當前相機視角動態(tài)生成,動作與畫面始終對齊,模型因此天然泛化到任意新視角。
      • 跨具身通用:只要提供 URDF,單臂、雙臂機器人都能用同一套框架生成對應掩碼,無需修改模型結構。

      技術上,BridgeV2W 采用 ControlNet 式的旁路注入,將掩碼作為條件信號融入預訓練視頻生成模型,在保留其強大視覺先驗的同時,賦予其理解機器人動作的能力。此外,為防止模型 “偷懶”(只復現(xiàn)靜態(tài)背景),還引入光流驅動的運動損失,引導其聚焦于任務相關的動態(tài)區(qū)域。

      實驗結果:多場景、多機器人、多視角的全面驗證

      研究團隊在多個設置下系統(tǒng)驗證了 BridgeV2W 的能力,涵蓋不同機器人平臺、不同操作場景、未見視角和下游任務應用。

      DROID 數(shù)據集:大規(guī)模單臂操作

      DROID 是目前最大規(guī)模的真實世界機器人操作數(shù)據集之一,數(shù)據采集跨越多個實驗室和環(huán)境。BridgeV2W 在該數(shù)據集上的表現(xiàn)尤為亮眼,在 PSNR、SSIM、LPIPS 等核心指標上超越 SOTA 方法。

      尤其在 “未見視角” 測試中,對比方法常出現(xiàn)畫面崩塌、肢體錯位,而 BridgeV2W 依然生成物理合理、視覺連貫的未來視頻,充分驗證了其視角魯棒性。在 “未見場景”(全新桌面布局、背景)下,泛化能力同樣出色。





      AgiBot-G1 數(shù)據集:雙臂人形機器人

      AgiBot-G1 是一個完全不同的雙臂平臺,自由度與運動模式與 DROID 截然不同。

      關鍵結果:無需修改模型架構,僅替換 URDF 并重新渲染掩碼,BridgeV2W 就能無縫適配,并取得媲美單臂的預測質量,這是邁向通用具身世界模型的重要一步。





      下游任務應用:從 "想象" 到 "行動"

      BridgeV2W 不僅僅是一個 "能生成好看視頻" 的模型,研究團隊進一步在真實世界的下游任務中驗證了其實用價值:

      策略評估: 在世界模型中 “試跑” 不同策略,無需真實機器人反復試錯。實驗顯示,BridgeV2W 的評估結果與真實成功率高度相關,大幅降低策略迭代成本。

      目標圖像操作規(guī)劃: 給定一張目標圖像(如 “把杯子放到盤子上”),BridgeV2W 能在 “想象空間” 中搜索出可行動作序列,實現(xiàn)從視覺目標到物理動作的閉環(huán)規(guī)劃。

      關鍵亮點:海量無標注人類視頻,全都能用!

      你可能會問:具身掩碼不是需要 URDF 和相機參數(shù)嗎?沒有這些幾何信息的數(shù)據怎么辦?

      BridgeV2W 的巧妙之處在于:

      • 推理時需輕量幾何信息(URDF + 相機參數(shù))渲染 “計算掩碼”,用于精準控制;
      • 訓練時卻無需任何標定:只需分割模型(如 SAM)提取的 “分割掩碼”,即可提供有效監(jiān)督。

      團隊將 AgiBot-G1 機器人數(shù)據與無標定的 Ego4D FHO(第一人稱手部操作視頻)混合訓練,僅用 SAM 提取的手部掩碼,就實現(xiàn)了驚人效果:

      • 僅用分割掩碼訓練,模型仍能學到合理的運動規(guī)律;
      • 加入大量 Ego4D 視頻 + 少量機器人標定數(shù)據,性能幾乎媲美全量標定訓練。



      這說明:人類視頻蘊含豐富的動作先驗,只需少量機器人數(shù)據,就能完成 “具身對齊”。

      一句話總結:訓練靠 “野生” 視頻擴規(guī)模,部署靠輕量幾何保精度:BridgeV2W 兼得可擴展性與準確性。

      BridgeV2W 揭示了一條極具前景的技術路線:

      視頻生成模型 + 具身掩碼 = 可擴展的機器人世界模型

      這條路線有三個關鍵優(yōu)勢值得深思:

      1. 數(shù)據飛輪真正啟動:互聯(lián)網視頻規(guī)模遠超機器人數(shù)據數(shù)個數(shù)量級。BridgeV2W 無需幾何先驗即可利用人類視頻,為構建 “機器人數(shù)據飛輪” 邁出關鍵一步。

      2. 技術紅利自動繼承:視頻生成領域正高速迭代(Sora、Wan、CogVideoX……)。BridgeV2W 的架構使其能自然受益于底座模型升級,底座越強,“預演” 越真。

      3. 通用智能的堅實基石:從單臂到雙臂,從已知場景到未知視角,BridgeV2W 展現(xiàn)出的跨平臺、跨場景、跨視角泛化能力,是邁向通用具身智能的重要里程碑。

      總結與展望

      BridgeV2W 通過 “具身掩碼” 這一簡潔而優(yōu)雅的中間表征,成功架起了從大規(guī)模視頻生成模型到實用具身世界模型的橋梁。它不僅解決了動作 - 像素對齊、視角魯棒性、跨具身通用性三大核心挑戰(zhàn),更關鍵的是:訓練無需 URDF 或相機標定,可直接利用海量無標注人類視頻,為世界模型的規(guī)模化訓練開辟了全新路徑。

      目前展現(xiàn)的能力,或許只是冰山一角。

      試想未來:當視頻生成底座從十億參數(shù)邁向千億,當訓練數(shù)據從數(shù)千小時機器人視頻擴展到百萬小時人類操作視頻,當具身掩碼從機械臂延伸至全身人形、乃至多機協(xié)作,機器人的 “預演能力” 將迎來怎樣的飛躍?

      正如 DreamZero 等工作預示的 “機器人 GPT 時刻”,BridgeV2W 從另一個維度證明:

      讓機器人借助視頻生成模型 “預演” 自身行動的后果 —— 這條路,不僅走得通,而且可以走得很遠。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人不會無緣無故患糖尿病!調查發(fā)現(xiàn):得糖尿病,離不開這8點

      人不會無緣無故患糖尿病!調查發(fā)現(xiàn):得糖尿病,離不開這8點

      岐黃傳人孫大夫
      2026-02-25 14:41:16
      李嘉誠港口被巴拿馬強行沒收,提前撤退未果

      李嘉誠港口被巴拿馬強行沒收,提前撤退未果

      老鷹哥
      2026-02-24 16:46:50
      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關!

      蜉蝣說
      2026-01-29 14:46:50
      意外嗎?北京國安報名5外援正式官宣,馬永明疑清洗“前朝舊部”

      意外嗎?北京國安報名5外援正式官宣,馬永明疑清洗“前朝舊部”

      羅掌柜體育
      2026-02-25 10:17:44
      項英之女回憶:項英死后,康生為何下令殺害了項英的妻子?

      項英之女回憶:項英死后,康生為何下令殺害了項英的妻子?

      歷史龍元閣
      2026-02-21 13:40:07
      7場造7球!3500萬歐元買來邊路最強爆點,馬競冬窗撿漏非洲先生

      7場造7球!3500萬歐元買來邊路最強爆點,馬競冬窗撿漏非洲先生

      體壇老球迷
      2026-02-25 16:10:13
      跟著美國變強盜,巴拿馬掀桌子,強行沒收李嘉誠港口,中國怎么辦

      跟著美國變強盜,巴拿馬掀桌子,強行沒收李嘉誠港口,中國怎么辦

      冒泡泡的魚兒
      2026-02-25 15:46:53
      中方投了棄權票

      中方投了棄權票

      第一財經資訊
      2026-02-25 11:22:55
      規(guī)劃大改!南京“迪士尼”拆除后續(xù):近14公頃巨無霸宅地釋放

      規(guī)劃大改!南京“迪士尼”拆除后續(xù):近14公頃巨無霸宅地釋放

      林子說事
      2026-02-25 10:24:36
      鹿哈官宣得女

      鹿哈官宣得女

      草莓解說體育
      2026-02-25 16:24:23
      成都蓉城中衛(wèi)位置完成一筆重量級簽約!曾是國奧隊長,剛入選國足

      成都蓉城中衛(wèi)位置完成一筆重量級簽約!曾是國奧隊長,剛入選國足

      張麗說足球
      2026-02-25 17:16:40
      2026款奧迪A4L即將上市,B9 A4L或將銷售到A5L中期改款

      2026款奧迪A4L即將上市,B9 A4L或將銷售到A5L中期改款

      凡兮說
      2026-02-25 16:30:07
      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權先生
      2026-02-12 15:38:28
      楊紫真的已經瘦到天賦上限了,這也太牛了…

      楊紫真的已經瘦到天賦上限了,這也太牛了…

      手工制作阿殲
      2026-02-22 13:25:34
      盧秀燕神秘消失7天,臺中政壇大地震,鄭麗文徹底沒轍!

      盧秀燕神秘消失7天,臺中政壇大地震,鄭麗文徹底沒轍!

      老樬學科普
      2026-02-25 14:55:18
      北京刑警慘死太原,公安部震怒雷霆出手,背后原因你絕對意想不到

      北京刑警慘死太原,公安部震怒雷霆出手,背后原因你絕對意想不到

      索奇探秘
      2024-03-03 18:27:48
      皇馬辱華球員攤上大事!全球媒體關注:被迫道歉 毫無誠意

      皇馬辱華球員攤上大事!全球媒體關注:被迫道歉 毫無誠意

      葉青足球世界
      2026-02-24 15:23:15
      朱珠去北京干休所給100歲奶奶拜年,重孫女和太奶同框很溫馨

      朱珠去北京干休所給100歲奶奶拜年,重孫女和太奶同框很溫馨

      何偵愛體育
      2026-02-24 08:15:13
      世界最大帝陵:修了107年,鑿空1200米大山,面積是秦始皇陵的3倍

      世界最大帝陵:修了107年,鑿空1200米大山,面積是秦始皇陵的3倍

      老謝談史
      2026-02-24 09:30:04
      全球庫存5.6天!這個賽道,即將大爆發(fā)?!

      全球庫存5.6天!這個賽道,即將大爆發(fā)?!

      米筐投資
      2026-02-25 07:07:39
      2026-02-25 18:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12362文章數(shù) 142569關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      女子被害留下3個女兒無人照顧 辦案警察接力資助15年

      頭條要聞

      女子被害留下3個女兒無人照顧 辦案警察接力資助15年

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

      娛樂要聞

      撒貝寧到沈陽跑親戚 老婆李白模特身材

      財經要聞

      GEO亂象:誰為AI營銷的泡沫買單?

      汽車要聞

      750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

      態(tài)度原創(chuàng)

      健康
      教育
      數(shù)碼
      時尚
      藝術

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      工程問題速解:人數(shù)增加后工期縮短多少?

      數(shù)碼要聞

      蘋果終于妥協(xié)?觸屏版MacBook Pro或將面世 靈動島也搬上大屏

      普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

      藝術要聞

      這位藝術家的馬賽克畫讓人驚嘆不已!

      無障礙瀏覽 進入關懷版