網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智能體如何學(xué)會(huì)想象？深度解析世界模型嵌入具身系統(tǒng)三大技術(shù)范式

2025-12-22 14:38:01　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

長(zhǎng)期以來(lái)，具身智能系統(tǒng)主要依賴(lài)「感知 - 行動(dòng)」的反應(yīng)式回路，缺乏對(duì)未來(lái)的預(yù)測(cè)能力。而世界模型的引入，讓智能體擁有了「想象」未來(lái)的能力。

具身智能機(jī)器人通過(guò)世界模型想象抓杯子任務(wù)

那么關(guān)鍵問(wèn)題來(lái)了：世界模型應(yīng)該如何「放進(jìn)」具身系統(tǒng)中？是作為一個(gè)獨(dú)立的模擬器？還是作為策略網(wǎng)絡(luò)的一部分？

近日，依托北京中關(guān)村學(xué)院，來(lái)自中科大、哈工大、南開(kāi)大學(xué)、清華大學(xué)、寧波東方理工大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)發(fā)布了一篇全面綜述，首次從架構(gòu)集成（Architectural Integration）的視角，將現(xiàn)有研究劃分為三大范式。

論文標(biāo)題： Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey
原文鏈接： https://doi.org/10.36227/techrxiv.176531987.77979037/v1

本文將帶你一覽這篇硬核綜述的核心精華。

基于世界模型的具身智能體框架

為什么具身智能需要「世界模型」？

在 LLM 爆發(fā)之前，具身指令跟隨系統(tǒng)通常將語(yǔ)言、感知和動(dòng)作視為分離的組件。雖然端到端（End-to-End）模型不僅簡(jiǎn)化了流程，但純反應(yīng)式（Reactive）的方法面臨兩大瓶頸：

缺乏前瞻性：無(wú)法預(yù)測(cè)未來(lái)狀態(tài)，難以處理長(zhǎng)程規(guī)劃任務(wù)；
泛化性差：難以適應(yīng)未見(jiàn)過(guò)的環(huán)境或任務(wù)配置。

世界模型的核心思想源于認(rèn)知科學(xué)：人類(lèi)不僅是對(duì)刺激做出反應(yīng)，更是在腦海中構(gòu)建了一個(gè)能夠預(yù)測(cè)未來(lái)的「內(nèi)部模型」。引入世界模型，能為具身智能體帶來(lái)樣本效率提升、長(zhǎng)程推理能力、安全性增強(qiáng)以及主動(dòng)規(guī)劃能力。

人類(lèi)認(rèn)知科學(xué) → 具身智能的世界模型

核心分類(lèi)：三種架構(gòu)融合范式

作者認(rèn)為，世界模型（World Model, WM）與策略（Policy or Policy Model, PM）之間的架構(gòu)關(guān)系，其實(shí)可以看作是一條「耦合強(qiáng)度光譜」。簡(jiǎn)單來(lái)說(shuō)，不同方法在多大程度上讓「世界模型」和「策略」互相依賴(lài)、互相影響，是可以從弱到強(qiáng)排成一條線的。作者將這種耦合強(qiáng)度分成兩個(gè)相互獨(dú)立的維度來(lái)理解：

梯度流動(dòng)（G：Gradient Flow）：策略的優(yōu)化目標(biāo)產(chǎn)生的梯度，能不能直接反向傳播到世界模型里，從而更新 WM 的參數(shù)？
信息依賴(lài)（I：Information Dependency）：在推理的一個(gè)前向過(guò)程中，策略輸出動(dòng)作時(shí)，是否顯式依賴(lài)于世界模型預(yù)測(cè)的狀態(tài)？也就是，策略做決策的時(shí)候，是不是「要先看看世界模型怎么預(yù)測(cè)下一步世界會(huì)怎樣」。

基于這兩個(gè)維度，作者將相關(guān)工作分為了三個(gè)類(lèi)別：耦合強(qiáng)度從弱到強(qiáng)為模塊化架構(gòu)（Modular），順序架構(gòu)（Sequential）以及統(tǒng)一架構(gòu)（Unified），如下表。

深度拆解：三種范式的權(quán)衡與博弈

分類(lèi)架構(gòu)圖

范式一：模塊化架構(gòu) (Modular Architecture)

關(guān)鍵詞：獨(dú)立、互操作、弱耦合

模塊化架構(gòu)將世界模型和策略作為兩個(gè)獨(dú)立的單元，二者之間沒(méi)有梯度流動(dòng)，策略輸出動(dòng)作時(shí)也不依賴(lài)于未來(lái)狀態(tài)。世界模型在這個(gè)架構(gòu)中作為世界模擬器，關(guān)注動(dòng)作與狀態(tài)間的因果變化。

在這樣的設(shè)計(jì)中，世界模型更像是一個(gè)「思考環(huán)境的內(nèi)在模擬器」。給定當(dāng)前觀察（或抽象狀態(tài)）以及候選動(dòng)作，世界模型會(huì)根據(jù)學(xué)習(xí)到的因果規(guī)律預(yù)測(cè)下一個(gè)狀態(tài) —— 可以是像素級(jí)的圖像，也可以是結(jié)構(gòu)化的潛空間表示。這讓智能體能夠在內(nèi)部「根據(jù)動(dòng)作預(yù)演未來(lái)」：如果現(xiàn)在采取某個(gè)動(dòng)作，會(huì)發(fā)生什么？這種能力讓策略模型能夠更好地判斷哪些動(dòng)作可行、哪些風(fēng)險(xiǎn)更大以及哪些方案能帶來(lái)長(zhǎng)遠(yuǎn)收益。

范式二：順序架構(gòu) (Sequential Architecture)

關(guān)鍵詞：分層、意圖生成、中等耦合

順序化架構(gòu)先利用世界模型預(yù)測(cè)出未來(lái)狀態(tài)，策略基于該未來(lái)狀態(tài)預(yù)測(cè)未來(lái)動(dòng)作。在該架構(gòu)中，梯度傳遞分為兩個(gè)階段，第一階段由世界模型預(yù)測(cè)未來(lái)狀態(tài)的訓(xùn)練目標(biāo)決定，用于優(yōu)化世界模型參數(shù)；第二階段由策略輸出動(dòng)作的訓(xùn)練目標(biāo)決定，用于統(tǒng)一優(yōu)化世界模型和策略參數(shù)。在該范式中，世界模型作為決策生成器，它的核心任務(wù)，是為智能體生成一個(gè)未來(lái)的目標(biāo)狀態(tài)，并把復(fù)雜的長(zhǎng)時(shí)序任務(wù)拆分成兩個(gè)更容易解決的子問(wèn)題：

1. 生成一個(gè)有價(jià)值的目標(biāo)（Goal Generation）

2. 根據(jù)目標(biāo)執(zhí)行行動(dòng)（Goal-conditioned Execution）

在這種框架中，世界模型負(fù)責(zé)「想象」一個(gè)有意義的終點(diǎn)，例如未來(lái)的視覺(jué)觀察、場(chǎng)景狀態(tài)或抽象規(guī)劃；而真正找到抵達(dá)該目標(biāo)的行動(dòng)序列，則由底層模塊完成，比如逆動(dòng)力學(xué)模型或點(diǎn)目標(biāo)控制器。

換句話說(shuō)，世界模型最重要的貢獻(xiàn)，就是生成一個(gè)「夠好」的目標(biāo)，從而讓后續(xù)的控制問(wèn)題變得更簡(jiǎn)單。

范式三：統(tǒng)一架構(gòu) (Unified End-to-End Architecture)

關(guān)鍵詞：端到端、聯(lián)合優(yōu)化、強(qiáng)耦合

統(tǒng)一架構(gòu)則將世界模型和策略集成到一個(gè)端到端網(wǎng)絡(luò)當(dāng)中。在這一配置下：

1. 世界模型不再單獨(dú)負(fù)責(zé)預(yù)測(cè)未來(lái)、建模環(huán)境；

2. 策略模型也不再單獨(dú)負(fù)責(zé)決策與行動(dòng)生成，兩者被融合為一個(gè)統(tǒng)一的大網(wǎng)絡(luò)，共同參與訓(xùn)練、共同被優(yōu)化。

整個(gè)模型在同一個(gè)損失目標(biāo)下進(jìn)行端到端訓(xùn)練，使網(wǎng)絡(luò)能夠在同一條計(jì)算路徑中：

1. 預(yù)測(cè)未來(lái)狀態(tài)（anticipate future states）

2. 輸出合適的動(dòng)作（produce appropriate actions）

這意味著智能體不再需要顯式地區(qū)分「模擬」與「決策」兩個(gè)步驟，而是在統(tǒng)一的結(jié)構(gòu)中自然涌現(xiàn)出這兩項(xiàng)能力。

未來(lái)展望：通往通用具身智能之路

綜述最后指出了幾個(gè)極具潛力的研究方向：

1. 世界模型的表征空間選擇與耦合：視覺(jué)空間具備語(yǔ)義豐富度，但成本高且穩(wěn)定性弱；狀態(tài)空間更緊湊高效，但表達(dá)能力似乎有限。未來(lái)趨勢(shì)是融合二者，通過(guò)統(tǒng)一潛變量實(shí)現(xiàn)表達(dá)能力與推理效率的平衡，為跨任務(wù)泛化奠基。

2. 世界模型的想象應(yīng)該是結(jié)構(gòu)化意圖的生成與表達(dá)：未來(lái)的世界模型應(yīng)生可解釋的未來(lái)結(jié)構(gòu)（目標(biāo)、軌跡、成因、時(shí)空信息等表征），而非僅預(yù)測(cè)下一步狀態(tài)，并且是其是否具備可約束的、物理一致的想象結(jié)構(gòu)，可指導(dǎo)跨任務(wù)遷移并促進(jìn)策略有效泛化。未來(lái)應(yīng)該加入與語(yǔ)言和符號(hào)推理結(jié)合，若想象可在語(yǔ)言或符號(hào)空間中表達(dá)，則世界模型能夠顯式刻畫(huà)任務(wù)分解、物體關(guān)系與因果依賴(lài)，而這些信息在像素預(yù)測(cè)中沒(méi)有被直觀的表達(dá)和理解。

3. 世界模型表征和想象對(duì)于指導(dǎo)具身智能的脆弱性：想象與執(zhí)行解耦帶來(lái)可理解性提升，但也可能產(chǎn)生超出具身本體能力的目標(biāo)。未來(lái)研究重點(diǎn)是引入可達(dá)性判別、可行性過(guò)濾、物理一致性評(píng)估，以降低失效風(fēng)險(xiǎn)。另外，通過(guò)顯式分離想象與控制，系統(tǒng)暴露中間表征，如目標(biāo)假設(shè)、潛在軌跡、視覺(jué)推演等，使調(diào)試、干預(yù)和人類(lèi)理解更加容易。但若模塊間缺乏對(duì)齊機(jī)制，也可能削弱終端性能，因此解釋性與最優(yōu)性存在固有權(quán)衡。

4. 統(tǒng)一的世界 - 策略模型構(gòu)建范式：大規(guī)模預(yù)訓(xùn)練模型天然具備世界建模與策略生成潛力，未來(lái)需探索如何以最小代價(jià)將其轉(zhuǎn)化為統(tǒng)一決策系統(tǒng)，關(guān)鍵難點(diǎn)在于狀態(tài)空間對(duì)齊、表示粒度選擇、避免視覺(jué)或語(yǔ)言表征偏置，構(gòu)建有效、高效的統(tǒng)一世界 - 策略模型范式。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.