網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智元發(fā)布Genie Envisioner 2.0，讓機(jī)器人在“模型世界”中學(xué)習(xí)與進(jìn)化 | 前沿在線

2026-04-22 22:43:03　來源: 前沿在線

北京舉報(bào)

分享至

編輯：前沿在線編輯部

2025 年，智元發(fā)布了行業(yè)首個(gè)世界模型開源平臺(tái) Genie?Envisioner。彼時(shí)，我們的目標(biāo)是讓機(jī)器人 “理解世界”—— 通過視覺、語言與動(dòng)作的統(tǒng)一建模，讓機(jī)器感知環(huán)境、讀懂指令、做出反應(yīng)。而今天，一次更深刻的進(jìn)化正在發(fā)生：我們不再滿足于讓機(jī)器人理解世界，而是要讓它在世界中學(xué)習(xí)、成長(zhǎng)、進(jìn)化。哪怕這個(gè)世界，并非真實(shí)存在，而是由模型構(gòu)建。

在智元的技術(shù)路徑里，世界模型一直沿著兩條主線生長(zhǎng)：一條是世界動(dòng)作模型（World Action Model），專注于動(dòng)作表征的深度建模；另一條是世界模擬器（World Simulator），負(fù)責(zé)打造一個(gè)可交互、可推演、可訓(xùn)練的完整環(huán)境。從 “世界動(dòng)作模型” 到 “世界模擬器”，世界模型正在完成一次本質(zhì)升級(jí)：從描述世界，進(jìn)化為成為世界。

當(dāng)這個(gè)由模型構(gòu)建的世界足夠真實(shí)、足夠穩(wěn)定、足夠高效，能像現(xiàn)實(shí)一樣響應(yīng)機(jī)器人的每一個(gè)動(dòng)作，機(jī)器人就可以在模型世界里完成大規(guī)模訓(xùn)練、試錯(cuò)、迭代，大幅降低真實(shí)世界的試錯(cuò)成本。這是從 “世界的表征” 走向 “世界本身” 的關(guān)鍵一步。

沿著這條路徑持續(xù)探索。智元AI發(fā)布周Day4，我們正式帶來世界模型的全新成果：Genie Envisioner World Simulator 2.0（GE?Sim 2.0），一個(gè)真正可訓(xùn)練、可交互、可決策的可操作世界，一個(gè)屬于具身智能的物理進(jìn)化引擎。

項(xiàng)目主頁(yè)：https://ge-sim-v2.github.io/

雙向進(jìn)化：World Action Model 與World Simulator

回到問題的起點(diǎn)。機(jī)器人面對(duì)的世界是連續(xù)變化的，動(dòng)作不僅是輸出，更是影響環(huán)境演化的核心變量。

因此，在傳統(tǒng)世界模型僅建模“狀態(tài)”（state）的基礎(chǔ)上，智元提出并推進(jìn)了世界動(dòng)作模型（WAM）的方向，其關(guān)注的核心問題是：如何讓世界模型理解“動(dòng)作”這一變量。機(jī)器人做了什么動(dòng)作？動(dòng)作如何改變世界？世界又如何反饋給策略？我們將“狀態(tài)—?jiǎng)幼鳌獱顟B(tài)演化”作為統(tǒng)一建模對(duì)象，使世界模型能夠成為策略學(xué)習(xí)與動(dòng)作生成的基礎(chǔ)表示層。

圍繞這一方向，我們始終在展開探索。首先構(gòu)建了EnerVerse，將具身場(chǎng)景拓展為可計(jì)算的 4D 世界模型；而后推出Genie Envisioner Act（GE-Act），實(shí)現(xiàn)從世界的表征能力（world representation）到動(dòng)作軌跡的生成；并通過Act2Goal，讓機(jī)器人實(shí)現(xiàn)目標(biāo)驅(qū)動(dòng)的長(zhǎng)程控制。這些探索，使得世界模型首次具備了承載動(dòng)作策略的能力。

但在真實(shí)應(yīng)用中，我們逐漸發(fā)現(xiàn)，僅僅引入底層的動(dòng)作建模（WAM），依然不足以支撐一個(gè)完整的機(jī)器人系統(tǒng)。策略訓(xùn)練仍然高度依賴真實(shí)環(huán)境，評(píng)估成本高昂且效率有限，高質(zhì)量數(shù)據(jù)的獲取與擴(kuò)展始終是關(guān)鍵瓶頸。

我們意識(shí)到，真正的突破，不止在于強(qiáng)化世界模型的表征能力（representation)，更在于世界模擬器(simulator)的能力。換句話說，世界模型不只是描述世界，而是要成為一個(gè)可以被使用、被交互、被訓(xùn)練的世界本身。如果一個(gè)足夠高質(zhì)量的世界模型被構(gòu)建，那么在這個(gè)生成的世界中行動(dòng)的策略也可以被更有效地訓(xùn)練。

從動(dòng)作模型到模擬器：讓世界可以被“運(yùn)行”

基于此，我們?cè)趶?qiáng)化世界動(dòng)作模型（WAM）建模能力的同時(shí)，同步推動(dòng)世界模型走向可交互的模擬器能力（World Simulator）。

通過EnerVerse-AC，引入 action-conditioned world modeling，使模型能夠基于動(dòng)作進(jìn)行未來推演；
通過Genie Envisioner Sim（GE-Sim 1.0），構(gòu)建可用于策略閉環(huán)評(píng)估的神經(jīng)模擬器；
并通過EWMBench，從場(chǎng)景一致性、動(dòng)作正確性與語義對(duì)齊等多個(gè)維度，對(duì) world model 的模擬能力進(jìn)行系統(tǒng)評(píng)估。

更重要的是，一套全新的數(shù)據(jù)與訓(xùn)練范式也隨之建立。在Fidelity-Aware Data Composition 中，真實(shí)數(shù)據(jù)與生成數(shù)據(jù)被精細(xì)組合，使策略訓(xùn)練既具備真實(shí)性，又擁有更強(qiáng)的泛化能力；而后我們提出Real2Edit2Real 流程，真實(shí)數(shù)據(jù)不再只是被動(dòng)采集，而是成為可被模型擴(kuò)展與編輯的基礎(chǔ)，從而顯著提升數(shù)據(jù)規(guī)模與多樣性。

至此，世界模型完成了一次本質(zhì)躍遷——從表征模型，演進(jìn)為具備環(huán)境級(jí)能力的系統(tǒng)基礎(chǔ)設(shè)施。

Genie Envisioner 2.0：具身智能的物理進(jìn)化引擎

在這一系列演進(jìn)之上，Genie Envisioner World Simulator 2.0 (GE-Sim 2.0)正式發(fā)布。它不再只是一個(gè)生成模型，而是一個(gè)可以被使用的系統(tǒng)——一個(gè)真正意義上的“可操作世界”。

世界，開始由動(dòng)作驅(qū)動(dòng)

GE Sim 2.0 能夠嚴(yán)格響應(yīng)機(jī)器人動(dòng)作信號(hào)，生成高保真的環(huán)境變化，并嚴(yán)格遵循物理與語義邏輯。世界不再是被想象的、無法被干預(yù)的，而是被行動(dòng)不斷推進(jìn)的過程。

時(shí)間，被拉長(zhǎng)為完整任務(wù)

模型支持分鐘級(jí)長(zhǎng)時(shí)序穩(wěn)定推演，從零散視頻片段，走向完整任務(wù)過程的連續(xù)生成。

空間，被統(tǒng)一為具身體驗(yàn)

多視角視覺、跨視角3D一致性與機(jī)器人本體狀態(tài)（proprioception）被統(tǒng)一建模。進(jìn)一步讓機(jī)器人面對(duì)的不再是“畫面”，而是一個(gè)完整、可交互的具身世界。

模型，開始擁有“判斷能力”

內(nèi)置激勵(lì)模型（General Reward Model），使模型首次具備自評(píng)估能力。它可以基于文本對(duì)生成狀態(tài)自動(dòng)評(píng)估與優(yōu)化，無需人工激勵(lì)的訓(xùn)練，可以完成強(qiáng)化學(xué)習(xí)（RL in World Model）。這意味著，訓(xùn)練閉環(huán)第一次真正被內(nèi)嵌進(jìn)模型世界本身。

系統(tǒng)，從離線走向?qū)崟r(shí)

隨著推理效率的提升，GE 2-Sim 已經(jīng)可以接近實(shí)時(shí)運(yùn)行，支持 Eval in WM、RL in WM、以及Teleoperation in WM都可以直接在模型世界中完成。世界模型不再是一個(gè)離線工具，而是一個(gè)可以實(shí)時(shí)交互的系統(tǒng)環(huán)境。

范式躍遷：當(dāng)模型成為世界

當(dāng)這一切能力匯聚，具身智能迎來了一次真正的范式革新——它不再只是 “用模型理解世界”，而是真正走進(jìn) “模型世界”，在其中自主學(xué)習(xí)、自主決策、自主成長(zhǎng)。一方面，世界動(dòng)作模型（WAM）與視覺 - 語言 - 動(dòng)作模型（VLA）深度融合，讓機(jī)器人的策略徹底升級(jí)：從被動(dòng)響應(yīng)環(huán)境的 “反應(yīng)式控制”，變成能預(yù)判未來、規(guī)劃全局的 “生成式?jīng)Q策”；另一方面，世界模擬器（World Simulator）搭建起一個(gè)無限延伸的虛擬訓(xùn)練場(chǎng)，讓機(jī)器人可以在這里大規(guī)模試錯(cuò)、反復(fù)優(yōu)化，不再被真實(shí)數(shù)據(jù)的稀缺性束縛，其能力上限，從此由模擬的真實(shí)度與高效性決定。

當(dāng)這兩條路徑交匯，機(jī)器人不再是機(jī)械復(fù)現(xiàn)人類經(jīng)驗(yàn)的 “執(zhí)行者”，而是能在模型世界中不斷探索、修正、突破的 “學(xué)習(xí)者”—— 它的能力邊界，正被重新定義，而這正是Genie Envisioner 2.0為具身智能鋪就的未來方向。

具身智能的長(zhǎng)遠(yuǎn)未來，在于擁有自主學(xué)習(xí)與持續(xù)進(jìn)化的能力，這份進(jìn)化，既來自對(duì)真實(shí)世界的觀察與沉淀，更來自模型世界里無限的推演、試錯(cuò)與成長(zhǎng)可能。當(dāng)模型成為可交互、可訓(xùn)練、可進(jìn)化的完整世界，現(xiàn)實(shí)就不再是機(jī)器人唯一的訓(xùn)練場(chǎng)。

我們希望這一技術(shù)升級(jí)能成為具身智能發(fā)展史上的重要基礎(chǔ)設(shè)施 —— 推動(dòng)機(jī)器人徹底跳出 “復(fù)現(xiàn)經(jīng)驗(yàn)” 的局限，真正走向自主探索、持續(xù)進(jìn)化的新階段，為具身智能通往 AGI 的長(zhǎng)遠(yuǎn)征程，構(gòu)建關(guān)鍵的能力基石。

前沿動(dòng)態(tài)前沿大會(huì)
前沿人物

點(diǎn)「在看」，給前前加雞腿

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.