網易首頁 > 網易號 > 正文申請入駐

上海交通大學團隊推出EgoSim：讓機器人學會從人的視角看世界

2026-04-13 22:13:11　來源: 至頂AI實驗室

北京舉報

分享至

這項由上海交通大學、上海AI實驗室和香港大學聯合開展的研究于2024年發表，論文編號arXiv:2604.01001。研究團隊開發了一個名為EgoSim的全新系統，這個系統最大的特點就是能夠從第一人稱視角生成連續的互動視頻，并且始終保持3D場景的一致性。

想象一下，當你戴上VR眼鏡進入虛擬世界時，你希望看到的不是預設好的固定畫面，而是一個真正能夠響應你動作的活生生的世界。你伸手拿起一個杯子，杯子會真的被你拿起來；你打開一扇門，門會保持開啟狀態；你移動物品，它們會一直待在新位置上。這正是EgoSim想要實現的目標——創造一個真正"記住"你行為后果的虛擬世界。

在這之前，大多數世界模擬器都有一個致命缺陷：它們要么像老式電影一樣只能從旁觀者角度觀看，要么無法記住你剛才做了什么。比如你在虛擬廚房里打開冰箱門，下一秒冰箱門可能又自動關上了，仿佛你從來沒有碰過它一樣。這種現象在技術上叫做"結構漂移"，就像患了健忘癥的虛擬世界，無法保持狀態的連續性。

EgoSim的突破性在于它建立了一套"世界記憶系統"。這個系統就像一個超級管家，時刻記錄著虛擬世界中每一個物體的位置和狀態變化。當你在虛擬場景中移動一把椅子，系統不僅會生成移動的視頻畫面，還會在內部的3D地圖上更新椅子的新位置。下次你再看向那個地方時，椅子確實還在你放置的位置上。

這項研究的另一個重要貢獻是解決了訓練數據的難題。訓練這樣一個智能系統需要大量的配對數據——既要有人們做動作的視頻，又要有對應的3D場景信息。傳統方法通常依賴昂貴的多攝像頭設備或者合成數據，但這些方法要么成本高昂，要么無法反映真實世界的復雜性。研究團隊設計了一套巧妙的數據處理流水線，能夠從普通的單攝像頭視頻中自動提取出所需的各種信息，包括靜態的3D場景、攝像頭運動軌跡和手部動作序列。

具體來說，系統首先會分析視頻的第一幀，識別出手部等動態元素，然后使用圖像修復技術將這些動態元素"擦除"，得到一個干凈的靜態背景。接下來，系統使用深度估計技術重建這個靜態場景的3D結構，就像建筑師根據平面圖構建立體模型一樣。同時，系統還會分析整個視頻序列，提取出攝像頭的運動軌跡和手部動作的關鍵點信息。

在動作表示方面，研究團隊采用了一個非常聰明的統一框架。無論是人的手部動作還是機器人的抓取動作，都被轉換成相同格式的關鍵點序列。這就像設計了一套通用的"動作語言"，讓系統能夠理解不同類型的操作主體。對于人手，系統提取21個關鍵點來描述手指的位置和姿態；對于機器人夾爪，系統將其映射為類似人手拇指和食指的簡化表示。

EgoSim的核心架構包含兩個關鍵模塊。第一個是"幾何-動作感知觀察模擬"模塊，它的作用是根據當前的3D場景狀態和輸入的動作序列，生成對應的第一人稱視角視頻。這個模塊使用了擴散變換器（DiT）架構，能夠同時處理靜態場景渲染、動作條件和遮擋信息，確保生成的視頻在幾何上保持一致性。

第二個關鍵模塊是"交互感知狀態更新"模塊，這是整個系統的"記憶中樞"。當系統生成了新的觀察視頻后，這個模塊會分析視頻內容，識別出哪些物體發生了位置變化，然后更新內部的3D場景表示。這個過程包含三個步驟：首先重建當前觀察序列的3D點云，然后識別和追蹤發生交互的物體，最后將這些物體的最新狀態融合到全局場景中。

為了識別交互物體，系統使用了視覺語言模型來理解場景中的物體類別，再結合分割和追蹤算法來定位這些物體在3D空間中的位置。系統會優先保留物體最后被觀察到的狀態，確保它們在后續的模擬中保持正確的位置和姿態。

在訓練數據構建方面，研究團隊處理了來自EgoDex和EgoVid數據集的共40萬個視頻片段。EgoDex主要包含精細的桌面操作場景，而EgoVid則涵蓋了更多樣化的真實世界交互。為了驗證系統的跨領域能力，研究團隊還整合了5萬個機器人操作視頻，展示了從人類動作到機器人控制的遷移學習能力。

實驗結果表明，EgoSim在多個關鍵指標上顯著超越了現有方法。在視頻質量方面，EgoSim在EgoDex數據集上實現了25.056的PSNR值和0.896的SSIM值，遠高于其他基線方法。更重要的是，在空間一致性方面，EgoSim的深度誤差僅為8.888，相比最好的基線方法降低了約80%。這意味著EgoSim生成的視頻在3D幾何上更加準確和穩定。

連續生成能力是EgoSim的另一個重要優勢。在連續生成測試中，系統能夠生成長達121幀的視頻序列，同時保持良好的視覺質量和空間一致性。雖然相比單次生成會有輕微的質量下降，但這主要是由于累積誤差造成的，整體表現仍然令人滿意。

跨模態應用方面，研究團隊在AgiBot機器人數據集上進行了實驗。結果顯示，使用人類手部動作數據預訓練的模型，在適配機器人任務時表現顯著優于從零開始訓練的模型。這證明了人類交互數據中包含的通用物理動力學知識可以有效遷移到機器人控制中。

為了驗證系統在真實環境中的表現，研究團隊還開發了一套名為EgoCap的低成本數據采集工具。這套工具使用普通智能手機就能采集高質量的訓練數據，大大降低了數據獲取的成本和技術門檻。在超市等真實環境中的測試表明，即使只用30個訓練樣本進行微調，EgoSim也能快速適應新的場景和任務。

消融研究進一步驗證了各個組件的重要性。移除攝像頭軌跡渲染會導致視頻質量顯著下降，因為系統失去了重要的幾何約束。移除遮擋掩碼也會影響生成效果，盡管系統仍能在未知區域生成合理的內容。交互感知狀態更新模塊的各個子組件都對最終性能有重要貢獻，移除任何一個都會導致3D重建質量的明顯下降。

這項研究的意義不僅限于技術層面的突破。從實際應用角度看，EgoSim為虛擬現實、增強現實、游戲開發和機器人訓練等領域提供了全新的可能性。在VR游戲中，玩家可以享受到更加真實和連續的交互體驗；在機器人訓練中，可以使用大量人類演示數據來訓練機器人的操作技能；在增強現實應用中，虛擬物體可以更自然地與真實環境融合。

當然，這項研究也存在一些局限性。目前系統主要依賴單目深度估計和相機位姿估計，在極度遮擋或高度動態的環境中可能會出現重建誤差。此外，系統的計算復雜度相對較高，實時應用還需要進一步的優化。未來的工作方向包括集成更魯棒的多視圖先驗知識、引入基于物理的接觸約束等。

說到底，EgoSim代表了世界模擬器技術的一個重要里程碑。它首次真正實現了從第一人稱視角的連續世界模擬，并具備了持久的狀態記憶能力。這不僅是技術上的進步，更是向真正智能的虛擬世界邁出的關鍵一步。隨著這項技術的不斷完善，我們有理由期待一個更加智能、更加真實的虛擬世界時代的到來。這個世界不再是預設的死板場景，而是能夠真正理解和響應我們行為的活生生的數字空間。

Q&A

Q1：EgoSim和傳統的世界模擬器有什么不同？

A：EgoSim最大的不同在于它能從第一人稱視角生成視頻，并且具備"世界記憶"功能。傳統模擬器要么只能從第三人稱角度觀看，要么無法記住用戶的操作結果。比如你在虛擬世界里移動了一把椅子，傳統系統可能下一秒椅子就回到原位了，而EgoSim會永久記住椅子的新位置，讓虛擬世界保持連續性。

Q2：EgoSim如何解決訓練數據不足的問題？

A：研究團隊設計了一套智能的數據處理流水線，能夠從普通的單攝像頭視頻中自動提取訓練所需的所有信息。系統會分析視頻第一幀來重建3D場景，提取攝像頭運動軌跡，并識別手部動作關鍵點。這樣就避免了使用昂貴的多攝像頭設備，可以利用網上大量現有的視頻數據進行訓練。

Q3：EgoSim能夠應用到機器人控制中嗎？

A：可以。研究顯示EgoSim具有很強的跨模態遷移能力。通過將人手動作和機器人夾爪動作統一為相同的關鍵點表示格式，用人類演示數據訓練的模型可以有效遷移到機器人任務中。實驗表明，這種預訓練方法比從零開始訓練機器人模型效果更好，大大提升了機器人學習復雜操作技能的效率。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.