![]()
機器人前瞻(公眾號:robot_pro)
作者 江宇
編輯 漠影
機器人前瞻1月14日報道,昨日,OpenAI投資的挪威人形機器人公司1X發布了一款全新世界模型“1X World Model(1XWM)”,用于賦予機器人通識行為能力,并提升其對物理世界的理解與推理能力。
1XWM是一種在推理階段可通過文字和初始畫面生成未來視頻、再從中推理出機器人動作的世界模型,訓練時借助了網頁視頻和少量機器人數據。
其主要應用對象為1X正在量產的人形機器人Neo,這是一款“穿著瑜伽服、表情呆萌”的陪伴型機器人,主打家庭使用場景。
1X創始人兼CEO Bernt B?rnich稱:“Neo如今能夠將任意指令轉化為新動作,即便此前從未執行過類似任務。這標志著其通往‘自我學習’能力的起點,未來幾乎可以掌握人類所能想到的任何技能。”
![]()
▲1X創始人兼CEO Bernt B?rnich
不過,官方也澄清稱,當前模型仍需經過視頻與動作的雙重建模過程,尚未實現真正“零樣本即執行”。
一、利用視頻推理世界,1XWM跳出“圖像到動作”的舊思路
不同于多數以圖文輸入直接預測動作的VLA(視覺語言動作)模型路線,1XWM通過“文字指導的視頻生成”推理機器人應執行的動作路徑。
其核心由兩個部分構成:一是基于14B視頻生成模型訓練的主干World Model(WM),用于預測場景的未來狀態;二是Inverse Dynamics Model(IDM),將視頻幀序列轉化為實際可執行的機器人動作軌跡。
![]()
▲圖源:1X World Model技術博客
這一流程可簡單概括為:接收文字指令與起始視頻幀,WM生成未來的視頻片段,IDM提取控制動作,Neo執行任務。得益于NEO與人類動態結構的高度擬合,模型在物理互動(如摩擦、慣性、接觸)等方面能實現更真實的轉譯。
整體架構在設計上強調了將人形結構視作模型泛化的前提。
該模型無需大規模真實機器人數據,僅通過900小時第一視角人類視頻中訓練出的操控直覺,結合70小時Neo特定數據進行微調,即可在視覺-空間-物理層面展現出較強泛化能力。
這一訓練策略顯著提升了模型對“從未見過的物體與動作”的適應力,使得Neo能完成雙手配合、與人交互等未曾直接訓練過的復雜任務。
二、視頻質量可預估任務成功率,模型探索“自我改進飛輪”
為了量化1XWM在真實世界中的能力,1X進行了多輪測試,包括廚房、衣物處理等實際任務。
▲抽紙巾
▲擺放椅子
▲比耶
測試數據顯示,該模型在大部分任務上表現穩定,盡管在如“倒牛奶”和“畫笑臉”等更精細的操作中仍有挑戰。
![]()
▲1XWM在不同家務任務上的成功率
研究團隊還發現:生成視頻的物理真實性與動作成功率呈正相關。若生成的視頻動作存在物理邏輯錯誤(如物體漂浮、深度錯位),實際機器人執行幾乎為0%成功率。
基于這一觀察,團隊測試了“多版本生成、優選最佳”的策略,并發現將單次生成擴展為8次并挑選最優者,可顯著提升任務成功率。
![]()
▲抽紙巾任務中,不同生成次數對執行成功率的影響(“拉紙巾”任務成功率從30%提升至45%)
在提升視頻質量方面,1X團隊使用了“文字說明增強”策略,即用VLM模型擴寫訓練視頻的任務描述文字,以更好對齊視頻生成模型的文字理解能力。
另一個關鍵是加入了第一視角人類操作視頻的訓練階段,這一做法顯著提升了模型在新任務和新環境上的泛化質量。
▲洗碗
1XWM當前每輪推理需約11秒,能生成5秒真實世界可執行的動作視頻,并已與Verda團隊合作優化GPU推理。
下一步,1X計劃加速模型響應速度,并探索長時任務的閉環重規劃機制,逐步邁向機器人“通識行動力”與“自我提升閉環”的目標。
1X團隊稱,1XWM已經具備“由機器人自身經驗驅動探索、評估與策略優化”的機制,只需保持任務覆蓋的非零成功率,就有望持續推進性能提升與任務泛化,進入真正意義上的“自我改進飛輪”。
結語: 生成視頻,推理動作,再到執行
1XWM尚未實現真正意義上的“零樣本即執行”,但它提供了一種新思路:機器人不再直接從數據中學動作,而是先生成一段對未來的“視頻想象”,再從中推理出可執行的動作路徑。
在這種架構下,視頻成為連接任務場景、推理與行動的中間環節。當模型能夠基于當前場景主動生成對未來的預測,并據此推理出下一步動作時,具身智能或許正邁向更高層次的泛化能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.