![]()
![]()
編輯:前沿在線 編輯部
2025 年,智元發(fā)布了行業(yè)首個(gè)世界模型開源平臺(tái) Genie?Envisioner。彼時(shí),我們的目標(biāo)是讓機(jī)器人 “理解世界”—— 通過視覺、語言與動(dòng)作的統(tǒng)一建模,讓機(jī)器感知環(huán)境、讀懂指令、做出反應(yīng)。而今天,一次更深刻的進(jìn)化正在發(fā)生:我們不再滿足于讓機(jī)器人理解世界,而是要讓它在世界中學(xué)習(xí)、成長(zhǎng)、進(jìn)化。哪怕這個(gè)世界,并非真實(shí)存在,而是由模型構(gòu)建。
在智元的技術(shù)路徑里,世界模型一直沿著兩條主線生長(zhǎng):一條是世界動(dòng)作模型(World Action Model),專注于動(dòng)作表征的深度建模;另一條是世界模擬器(World Simulator),負(fù)責(zé)打造一個(gè)可交互、可推演、可訓(xùn)練的完整環(huán)境。從 “世界動(dòng)作模型” 到 “世界模擬器”,世界模型正在完成一次本質(zhì)升級(jí):從描述世界,進(jìn)化為成為世界。
當(dāng)這個(gè)由模型構(gòu)建的世界足夠真實(shí)、足夠穩(wěn)定、足夠高效,能像現(xiàn)實(shí)一樣響應(yīng)機(jī)器人的每一個(gè)動(dòng)作,機(jī)器人就可以在模型世界里完成大規(guī)模訓(xùn)練、試錯(cuò)、迭代,大幅降低真實(shí)世界的試錯(cuò)成本。這是從 “世界的表征” 走向 “世界本身” 的關(guān)鍵一步。
沿著這條路徑持續(xù)探索。智元AI發(fā)布周Day4,我們正式帶來世界模型的全新成果:Genie Envisioner World Simulator 2.0(GE?Sim 2.0),一個(gè)真正可訓(xùn)練、可交互、可決策的可操作世界,一個(gè)屬于具身智能的物理進(jìn)化引擎。
項(xiàng)目主頁(yè):https://ge-sim-v2.github.io/
![]()
雙向進(jìn)化:World Action Model 與World Simulator
回到問題的起點(diǎn)。機(jī)器人面對(duì)的世界是連續(xù)變化的,動(dòng)作不僅是輸出,更是影響環(huán)境演化的核心變量。
因此,在傳統(tǒng)世界模型僅建模“狀態(tài)”(state)的基礎(chǔ)上,智元提出并推進(jìn)了世界動(dòng)作模型(WAM)的方向,其關(guān)注的核心問題是:如何讓世界模型理解“動(dòng)作”這一變量。機(jī)器人做了什么動(dòng)作?動(dòng)作如何改變世界?世界又如何反饋給策略?我們將“狀態(tài)—?jiǎng)幼鳌獱顟B(tài)演化”作為統(tǒng)一建模對(duì)象,使世界模型能夠成為策略學(xué)習(xí)與動(dòng)作生成的基礎(chǔ)表示層。
圍繞這一方向,我們始終在展開探索。首先構(gòu)建了EnerVerse,將具身場(chǎng)景拓展為可計(jì)算的 4D 世界模型;而后推出Genie Envisioner Act(GE-Act),實(shí)現(xiàn)從世界的表征能力(world representation) 到動(dòng)作軌跡的生成;并通過Act2Goal,讓機(jī)器人實(shí)現(xiàn)目標(biāo)驅(qū)動(dòng)的長(zhǎng)程控制。這些探索,使得世界模型首次具備了承載動(dòng)作策略的能力。
但在真實(shí)應(yīng)用中,我們逐漸發(fā)現(xiàn),僅僅引入底層的動(dòng)作建模(WAM),依然不足以支撐一個(gè)完整的機(jī)器人系統(tǒng)。策略訓(xùn)練仍然高度依賴真實(shí)環(huán)境,評(píng)估成本高昂且效率有限,高質(zhì)量數(shù)據(jù)的獲取與擴(kuò)展始終是關(guān)鍵瓶頸。
我們意識(shí)到,真正的突破,不止在于強(qiáng)化世界模型的表征能力(representation),更在于世界模擬器(simulator)的能力。換句話說,世界模型不只是描述世界,而是要成為一個(gè)可以被使用、被交互、被訓(xùn)練的世界本身。如果一個(gè)足夠高質(zhì)量的世界模型被構(gòu)建,那么在這個(gè)生成的世界中行動(dòng)的策略也可以被更有效地訓(xùn)練。
![]()
![]()
從動(dòng)作模型到模擬器:讓世界可以被“運(yùn)行”
基于此,我們?cè)趶?qiáng)化世界動(dòng)作模型(WAM) 建模能力的同時(shí),同步推動(dòng)世界模型走向可交互的模擬器能力(World Simulator)。
通過EnerVerse-AC,引入 action-conditioned world modeling,使模型能夠基于動(dòng)作進(jìn)行未來推演;
通過Genie Envisioner Sim(GE-Sim 1.0),構(gòu)建可用于策略閉環(huán)評(píng)估的神經(jīng)模擬器;
并通過EWMBench,從場(chǎng)景一致性、動(dòng)作正確性與語義對(duì)齊等多個(gè)維度,對(duì) world model 的模擬能力進(jìn)行系統(tǒng)評(píng)估。
更重要的是,一套全新的數(shù)據(jù)與訓(xùn)練范式也隨之建立。在Fidelity-Aware Data Composition 中,真實(shí)數(shù)據(jù)與生成數(shù)據(jù)被精細(xì)組合,使策略訓(xùn)練既具備真實(shí)性,又擁有更強(qiáng)的泛化能力;而后我們提出Real2Edit2Real 流程,真實(shí)數(shù)據(jù)不再只是被動(dòng)采集,而是成為可被模型擴(kuò)展與編輯的基礎(chǔ),從而顯著提升數(shù)據(jù)規(guī)模與多樣性。
至此,世界模型完成了一次本質(zhì)躍遷——從表征模型,演進(jìn)為具備環(huán)境級(jí)能力的系統(tǒng)基礎(chǔ)設(shè)施。
![]()
![]()
Genie Envisioner 2.0:具身智能的物理進(jìn)化引擎
在這一系列演進(jìn)之上,Genie Envisioner World Simulator 2.0 (GE-Sim 2.0)正式發(fā)布。它不再只是一個(gè)生成模型,而是一個(gè)可以被使用的系統(tǒng)——一個(gè)真正意義上的“可操作世界”。
![]()
世界,開始由動(dòng)作驅(qū)動(dòng)
GE Sim 2.0 能夠嚴(yán)格響應(yīng)機(jī)器人動(dòng)作信號(hào),生成高保真的環(huán)境變化,并嚴(yán)格遵循物理與語義邏輯。世界不再是被想象的、無法被干預(yù)的,而是被行動(dòng)不斷推進(jìn)的過程。
時(shí)間,被拉長(zhǎng)為完整任務(wù)
模型支持分鐘級(jí)長(zhǎng)時(shí)序穩(wěn)定推演,從零散視頻片段,走向完整任務(wù)過程的連續(xù)生成。
空間,被統(tǒng)一為具身體驗(yàn)
多視角視覺、跨視角3D一致性與機(jī)器人本體狀態(tài)(proprioception)被統(tǒng)一建模。進(jìn)一步讓機(jī)器人面對(duì)的不再是“畫面”,而是一個(gè)完整、可交互的具身世界。
模型,開始擁有“判斷能力”
內(nèi)置激勵(lì)模型(General Reward Model),使模型首次具備自評(píng)估能力。它可以基于文本對(duì)生成狀態(tài)自動(dòng)評(píng)估與優(yōu)化,無需人工激勵(lì)的訓(xùn)練,可以完成強(qiáng)化學(xué)習(xí)(RL in World Model)。這意味著,訓(xùn)練閉環(huán)第一次真正被內(nèi)嵌進(jìn)模型世界本身。
系統(tǒng),從離線走向?qū)崟r(shí)
隨著推理效率的提升,GE 2-Sim 已經(jīng)可以接近實(shí)時(shí)運(yùn)行,支持 Eval in WM、RL in WM、以及Teleoperation in WM都可以直接在模型世界中完成。世界模型不再是一個(gè)離線工具,而是一個(gè)可以實(shí)時(shí)交互的系統(tǒng)環(huán)境。
![]()
范式躍遷:當(dāng)模型成為世界
當(dāng)這一切能力匯聚,具身智能迎來了一次真正的范式革新——它不再只是 “用模型理解世界”,而是真正走進(jìn) “模型世界”,在其中自主學(xué)習(xí)、自主決策、自主成長(zhǎng)。一方面,世界動(dòng)作模型(WAM)與視覺 - 語言 - 動(dòng)作模型(VLA)深度融合,讓機(jī)器人的策略徹底升級(jí):從被動(dòng)響應(yīng)環(huán)境的 “反應(yīng)式控制”,變成能預(yù)判未來、規(guī)劃全局的 “生成式?jīng)Q策”;另一方面,世界模擬器(World Simulator)搭建起一個(gè)無限延伸的虛擬訓(xùn)練場(chǎng),讓機(jī)器人可以在這里大規(guī)模試錯(cuò)、反復(fù)優(yōu)化,不再被真實(shí)數(shù)據(jù)的稀缺性束縛,其能力上限,從此由模擬的真實(shí)度與高效性決定。
當(dāng)這兩條路徑交匯,機(jī)器人不再是機(jī)械復(fù)現(xiàn)人類經(jīng)驗(yàn)的 “執(zhí)行者”,而是能在模型世界中不斷探索、修正、突破的 “學(xué)習(xí)者”—— 它的能力邊界,正被重新定義,而這正是Genie Envisioner 2.0為具身智能鋪就的未來方向。
具身智能的長(zhǎng)遠(yuǎn)未來,在于擁有自主學(xué)習(xí)與持續(xù)進(jìn)化的能力,這份進(jìn)化,既來自對(duì)真實(shí)世界的觀察與沉淀,更來自模型世界里無限的推演、試錯(cuò)與成長(zhǎng)可能。當(dāng)模型成為可交互、可訓(xùn)練、可進(jìn)化的完整世界,現(xiàn)實(shí)就不再是機(jī)器人唯一的訓(xùn)練場(chǎng)。
我們希望這一技術(shù)升級(jí)能成為具身智能發(fā)展史上的重要基礎(chǔ)設(shè)施 —— 推動(dòng)機(jī)器人徹底跳出 “復(fù)現(xiàn)經(jīng)驗(yàn)” 的局限,真正走向自主探索、持續(xù)進(jìn)化的新階段,為具身智能通往 AGI 的長(zhǎng)遠(yuǎn)征程,構(gòu)建關(guān)鍵的能力基石。
![]()
前沿動(dòng)態(tài)前沿大會(huì)
前沿人物
點(diǎn)「在看」,給前前加雞腿
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.