網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Veo何止生成視頻：DeepMind正在用它模擬整個(gè)機(jī)器人世界

2025-12-15 16:36:08　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

隨著通用型（Generalist）機(jī)器人策略的發(fā)展，機(jī)器人能夠通過(guò)自然語(yǔ)言指令在多種環(huán)境中完成各類任務(wù)，但這也帶來(lái)了顯著的挑戰(zhàn)。

一方面，真實(shí)世界評(píng)估成本極高，需要系統(tǒng)性地覆蓋常規(guī)場(chǎng)景、極端情況、分布外（OOD）環(huán)境以及各類安全風(fēng)險(xiǎn)，通常需要進(jìn)行成百上千次真實(shí)硬件實(shí)驗(yàn)，不僅耗時(shí)、昂貴，還可能存在操作風(fēng)險(xiǎn)。

另一方面，安全性評(píng)估尤為棘手，許多潛在的不安全行為（例如誤夾人手、損壞設(shè)備或引發(fā)環(huán)境危險(xiǎn)）本身就不適合在真實(shí)環(huán)境中反復(fù)測(cè)試，使得傳統(tǒng)的硬件評(píng)估方法在安全場(chǎng)景下往往難以實(shí)施。

傳統(tǒng)的物理仿真器雖然有幫助，但在真實(shí)感、多樣性、搭建成本和視覺(jué)一致性方面仍存在明顯瓶頸。

另外，前沿視頻模型為世界仿真提供了一種替代路徑，有望解決前文提到的諸多挑戰(zhàn)。然而，要真正發(fā)揮這一潛力面臨很多困難，主要原因包括：

1）在閉環(huán)、動(dòng)作條件生成中容易產(chǎn)生偽影；

2）對(duì)接觸動(dòng)力學(xué)（如物體接觸、碰撞）的仿真十分困難；

3）現(xiàn)代策略架構(gòu)對(duì)多視角一致性提出了較高要求，而這在視頻生成中并不容易滿足。

論文地址：https://arxiv.org/pdf/2512.10675
項(xiàng)目主頁(yè)：https://veo-robotics.github.io/
論文標(biāo)題：Evaluating Gemini Robotics Policies in a Veo World Simulator

本文，來(lái)自 Google DeepMind Gemini Robotics 團(tuán)隊(duì)研究者提出了一種基于視頻建模的機(jī)器人策略評(píng)估系統(tǒng)，能夠支持機(jī)器人領(lǐng)域中完整范圍的策略評(píng)估需求，包括分布內(nèi)評(píng)估、分布外泛化評(píng)估，以及紅隊(duì)測(cè)試。

具體而言，該系統(tǒng)基于最先進(jìn)的視頻生成模型 Veo，實(shí)現(xiàn)了帶動(dòng)作條件約束、具備多視角一致性的視頻仿真，不僅在視覺(jué)上高度真實(shí)，還能夠?qū)C(jī)器人細(xì)粒度控制做出合理響應(yīng)。同時(shí)，該系統(tǒng)集成了生成式編輯技術(shù)，使得無(wú)需搭建真實(shí)物理場(chǎng)景，就能生成包含新物體、新視覺(jué)背景以及安全關(guān)鍵元素的多樣化、逼真的真實(shí)世界場(chǎng)景變體。

通過(guò) 1600 余次真實(shí)世界實(shí)驗(yàn)，并在八個(gè)通用型策略檢查點(diǎn)和五項(xiàng)任務(wù)上驗(yàn)證了視頻模型預(yù)測(cè)結(jié)果的有效性。實(shí)驗(yàn)結(jié)果表明，該系統(tǒng)在保持底層視頻基礎(chǔ)模型原有能力的同時(shí)，達(dá)到了進(jìn)行嚴(yán)格機(jī)器人評(píng)估所需的高保真度。

盡管視頻建模在機(jī)器人領(lǐng)域仍處于早期階段，但本文清晰地展示了一條利用視頻仿真世界，實(shí)現(xiàn)機(jī)器人策略泛化能力與安全性可擴(kuò)展評(píng)估的可行路徑。

視頻鏈接：https://mp.weixin.qq.com/s/qiRQSruwI2ESfQxHsceUpw

方法介紹

在模型架構(gòu)方面，本文采用 Veo 2 作為基礎(chǔ)模型。

在數(shù)據(jù)方面，模型在一個(gè)包含大量視頻、圖像及其對(duì)應(yīng)標(biāo)注的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這些文本描述由 Gemini 模型自動(dòng)生成，并且所有數(shù)據(jù)都經(jīng)過(guò)了嚴(yán)格的預(yù)處理與整理。

此外，本文在一個(gè)大規(guī)模機(jī)器人數(shù)據(jù)集上對(duì)預(yù)訓(xùn)練的 Veo2 模型進(jìn)行了微調(diào)。該數(shù)據(jù)集包含多種任務(wù)，覆蓋了在大量不同場(chǎng)景中所需的廣泛操作技能。圖 2（上）展示了一個(gè)示例，將渲染后的機(jī)器人位姿疊加在生成的視頻幀之上的效果。

最后，為減輕部分觀測(cè)帶來(lái)的影響，本文將系統(tǒng)中的四個(gè)相機(jī)視角（包括俯視視角、側(cè)視視角，以及左右腕部視角）拼接成一個(gè)整體輸入。然后對(duì) Veo2 進(jìn)行微調(diào)，使其能夠在給定初始幀和未來(lái)機(jī)器人位姿的條件下，生成這種拼接后的多視角未來(lái)幀。圖 2（下）展示了一個(gè)由該模型生成的多視角視頻幀示例。

實(shí)驗(yàn)

本文通過(guò) 1600 余次真實(shí)世界評(píng)估，在八個(gè)通用型策略檢查點(diǎn)和五項(xiàng)任務(wù)上進(jìn)行了實(shí)驗(yàn)。

在基于 Gemini Robotics On-Device（GROD）模型訓(xùn)練了端到端的 VLA 策略。隨后，使用經(jīng)過(guò)微調(diào)的 Veo（Robotics）視頻模型，在分布內(nèi)場(chǎng)景中對(duì)這些策略進(jìn)行評(píng)估。

指令：把右上角的紅色葡萄放入灰色盒子的左上角隔間。

指令：把樂(lè)高積木放進(jìn)樂(lè)高積木袋里。

指令：把棕色的長(zhǎng)條物放進(jìn)午餐包的頂部口袋里。

研究中，作者還使用 Veo（Robotics）模型，對(duì) 8 個(gè)不同版本的 VLA 機(jī)器人策略進(jìn)行性能預(yù)測(cè)，然后把這些預(yù)測(cè)結(jié)果與機(jī)器人在真實(shí)世界中的實(shí)際測(cè)試結(jié)果進(jìn)行對(duì)比，以檢驗(yàn)視頻模型預(yù)測(cè)是否準(zhǔn)確、可靠。如下 demo 展示了 Veo（Robotics）針對(duì)兩種策略的實(shí)際運(yùn)行示例。

下圖比較了視頻模擬預(yù)測(cè)結(jié)果與實(shí)際成功率。可以觀察到，Veo（Robotics）能夠根據(jù)性能對(duì)不同的策略進(jìn)行排名。本文還發(fā)現(xiàn)預(yù)測(cè)成功率與實(shí)際成功率之間存在很強(qiáng)的相關(guān)性。

接下來(lái)作者測(cè)試了模型分布外泛化能力。通過(guò)改造真實(shí)場(chǎng)景來(lái)制造新情況，用視頻模型提前預(yù)測(cè)機(jī)器人在陌生環(huán)境中的表現(xiàn)，并用真實(shí)實(shí)驗(yàn)驗(yàn)證這些預(yù)測(cè)是否靠譜。

最后，本文證明了 Veo（Robotics）世界模型可以用來(lái)做安全紅隊(duì)測(cè)試。也就是說(shuō)，不需要先讓機(jī)器人在真實(shí)世界中冒險(xiǎn)，就可以在視頻模擬的世界里主動(dòng)尋找策略可能出現(xiàn)的不安全行為。

例如合上電腦：

快速抓取紅色積木：

了解更多內(nèi)容，請(qǐng)參考原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.