機(jī)器之心報(bào)道
機(jī)器之心編輯部
隨著通用型(Generalist)機(jī)器人策略的發(fā)展,機(jī)器人能夠通過(guò)自然語(yǔ)言指令在多種環(huán)境中完成各類任務(wù),但這也帶來(lái)了顯著的挑戰(zhàn)。
一方面,真實(shí)世界評(píng)估成本極高,需要系統(tǒng)性地覆蓋常規(guī)場(chǎng)景、極端情況、分布外(OOD)環(huán)境以及各類安全風(fēng)險(xiǎn),通常需要進(jìn)行成百上千次真實(shí)硬件實(shí)驗(yàn),不僅耗時(shí)、昂貴,還可能存在操作風(fēng)險(xiǎn)。
另一方面,安全性評(píng)估尤為棘手,許多潛在的不安全行為(例如誤夾人手、損壞設(shè)備或引發(fā)環(huán)境危險(xiǎn))本身就不適合在真實(shí)環(huán)境中反復(fù)測(cè)試,使得傳統(tǒng)的硬件評(píng)估方法在安全場(chǎng)景下往往難以實(shí)施。
傳統(tǒng)的物理仿真器雖然有幫助,但在真實(shí)感、多樣性、搭建成本和視覺(jué)一致性方面仍存在明顯瓶頸。
另外,前沿視頻模型為世界仿真提供了一種替代路徑,有望解決前文提到的諸多挑戰(zhàn)。然而,要真正發(fā)揮這一潛力面臨很多困難,主要原因包括:
1)在閉環(huán)、動(dòng)作條件生成中容易產(chǎn)生偽影;
2)對(duì)接觸動(dòng)力學(xué)(如物體接觸、碰撞)的仿真十分困難;
3)現(xiàn)代策略架構(gòu)對(duì)多視角一致性提出了較高要求,而這在視頻生成中并不容易滿足。
![]()
- 論文地址:https://arxiv.org/pdf/2512.10675
- 項(xiàng)目主頁(yè):https://veo-robotics.github.io/
- 論文標(biāo)題:Evaluating Gemini Robotics Policies in a Veo World Simulator
本文,來(lái)自 Google DeepMind Gemini Robotics 團(tuán)隊(duì)研究者提出了一種基于視頻建模的機(jī)器人策略評(píng)估系統(tǒng),能夠支持機(jī)器人領(lǐng)域中完整范圍的策略評(píng)估需求,包括分布內(nèi)評(píng)估、分布外泛化評(píng)估,以及紅隊(duì)測(cè)試。

具體而言,該系統(tǒng)基于最先進(jìn)的視頻生成模型 Veo,實(shí)現(xiàn)了帶動(dòng)作條件約束、具備多視角一致性的視頻仿真,不僅在視覺(jué)上高度真實(shí),還能夠?qū)C(jī)器人細(xì)粒度控制做出合理響應(yīng)。同時(shí),該系統(tǒng)集成了生成式編輯技術(shù),使得無(wú)需搭建真實(shí)物理場(chǎng)景,就能生成包含新物體、新視覺(jué)背景以及安全關(guān)鍵元素的多樣化、逼真的真實(shí)世界場(chǎng)景變體。
通過(guò) 1600 余次真實(shí)世界實(shí)驗(yàn),并在八個(gè)通用型策略檢查點(diǎn)和五項(xiàng)任務(wù)上驗(yàn)證了視頻模型預(yù)測(cè)結(jié)果的有效性。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在保持底層視頻基礎(chǔ)模型原有能力的同時(shí),達(dá)到了進(jìn)行嚴(yán)格機(jī)器人評(píng)估所需的高保真度。
盡管視頻建模在機(jī)器人領(lǐng)域仍處于早期階段,但本文清晰地展示了一條利用視頻仿真世界,實(shí)現(xiàn)機(jī)器人策略泛化能力與安全性可擴(kuò)展評(píng)估的可行路徑。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/qiRQSruwI2ESfQxHsceUpw
方法介紹
在模型架構(gòu)方面,本文采用 Veo 2 作為基礎(chǔ)模型。
在數(shù)據(jù)方面,模型在一個(gè)包含大量視頻、圖像及其對(duì)應(yīng)標(biāo)注的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這些文本描述由 Gemini 模型自動(dòng)生成,并且所有數(shù)據(jù)都經(jīng)過(guò)了嚴(yán)格的預(yù)處理與整理。
此外,本文在一個(gè)大規(guī)模機(jī)器人數(shù)據(jù)集上對(duì)預(yù)訓(xùn)練的 Veo2 模型進(jìn)行了微調(diào)。該數(shù)據(jù)集包含多種任務(wù),覆蓋了在大量不同場(chǎng)景中所需的廣泛操作技能。圖 2(上)展示了一個(gè)示例,將渲染后的機(jī)器人位姿疊加在生成的視頻幀之上的效果。
![]()
最后,為減輕部分觀測(cè)帶來(lái)的影響,本文將系統(tǒng)中的四個(gè)相機(jī)視角(包括俯視視角、側(cè)視視角,以及左右腕部視角)拼接成一個(gè)整體輸入。然后對(duì) Veo2 進(jìn)行微調(diào),使其能夠在給定初始幀和未來(lái)機(jī)器人位姿的條件下,生成這種拼接后的多視角未來(lái)幀。圖 2(下)展示了一個(gè)由該模型生成的多視角視頻幀示例。

實(shí)驗(yàn)
本文通過(guò) 1600 余次真實(shí)世界評(píng)估,在八個(gè)通用型策略檢查點(diǎn)和五項(xiàng)任務(wù)上進(jìn)行了實(shí)驗(yàn)。
在基于 Gemini Robotics On-Device(GROD)模型訓(xùn)練了端到端的 VLA 策略。隨后,使用經(jīng)過(guò)微調(diào)的 Veo(Robotics)視頻模型,在分布內(nèi)場(chǎng)景中對(duì)這些策略進(jìn)行評(píng)估。
指令:把右上角的紅色葡萄放入灰色盒子的左上角隔間。

指令:把樂(lè)高積木放進(jìn)樂(lè)高積木袋里。
指令:把棕色的長(zhǎng)條物放進(jìn)午餐包的頂部口袋里。
研究中,作者還使用 Veo(Robotics)模型,對(duì) 8 個(gè)不同版本的 VLA 機(jī)器人策略進(jìn)行性能預(yù)測(cè),然后把這些預(yù)測(cè)結(jié)果與機(jī)器人在真實(shí)世界中的實(shí)際測(cè)試結(jié)果進(jìn)行對(duì)比,以檢驗(yàn)視頻模型預(yù)測(cè)是否準(zhǔn)確、可靠。如下 demo 展示了 Veo(Robotics)針對(duì)兩種策略的實(shí)際運(yùn)行示例。

下圖比較了視頻模擬預(yù)測(cè)結(jié)果與實(shí)際成功率。可以觀察到,Veo(Robotics)能夠根據(jù)性能對(duì)不同的策略進(jìn)行排名。本文還發(fā)現(xiàn)預(yù)測(cè)成功率與實(shí)際成功率之間存在很強(qiáng)的相關(guān)性。
![]()
接下來(lái)作者測(cè)試了模型分布外泛化能力。通過(guò)改造真實(shí)場(chǎng)景來(lái)制造新情況,用視頻模型提前預(yù)測(cè)機(jī)器人在陌生環(huán)境中的表現(xiàn),并用真實(shí)實(shí)驗(yàn)驗(yàn)證這些預(yù)測(cè)是否靠譜。

最后,本文證明了 Veo(Robotics)世界模型可以用來(lái)做安全紅隊(duì)測(cè)試。也就是說(shuō),不需要先讓機(jī)器人在真實(shí)世界中冒險(xiǎn),就可以在視頻模擬的世界里主動(dòng)尋找策略可能出現(xiàn)的不安全行為。
例如合上電腦:

快速抓取紅色積木:

了解更多內(nèi)容,請(qǐng)參考原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.