網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

世界模型==VQA？機(jī)器人不用想象畫(huà)面，預(yù)測(cè)語(yǔ)義就夠了

2025-10-28 10:14:22　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：張倩

對(duì)于機(jī)器人來(lái)說(shuō)，世界模型真的有必要想象出精確的未來(lái)畫(huà)面嗎？在一篇新論文中，來(lái)自華盛頓大學(xué)、索尼 AI 的研究者提出了這個(gè)疑問(wèn)。

眾所周知，世界模型是一種讓 AI「想象未來(lái)」的學(xué)習(xí)方法。它可以從大量數(shù)據(jù)中學(xué)習(xí)世界的運(yùn)行規(guī)律，然后根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)未來(lái)可能發(fā)生的事情。這種能力非常關(guān)鍵，因?yàn)槿绻?AI 能對(duì)未來(lái)做出合理預(yù)測(cè)，就能提前規(guī)劃出更聰明、更穩(wěn)健的行動(dòng)策略。

在實(shí)踐中，世界模型的實(shí)現(xiàn)形式多種多樣，從小規(guī)模的基于狀態(tài)的動(dòng)力學(xué)模型，到大型的基于動(dòng)作條件的視頻預(yù)測(cè)模型都有。但無(wú)論形式如何，大多數(shù)模型都會(huì)嘗試「還原未來(lái)的畫(huà)面」。這種方法雖然常常能生成逼真的圖像，但卻不一定適合用來(lái)做決策。原因在于：圖像看起來(lái)再真實(shí)，也可能漏掉一些真正關(guān)鍵的語(yǔ)義細(xì)節(jié) —— 比如兩個(gè)物體是否真的發(fā)生了接觸。

過(guò)去有一些方法嘗試只建模「與任務(wù)相關(guān)」的信息，但這類(lèi)方法往往需要額外的假設(shè)，比如必須知道獎(jiǎng)勵(lì)函數(shù)或任務(wù)中某些已知因素。這讓它們?cè)趯?shí)際使用中變得不太靈活。

如果像素信息并非規(guī)劃所必需，那么做出行動(dòng)決策所真正需要的是什么？

這篇論文提出：能夠預(yù)測(cè)關(guān)于未來(lái)結(jié)果的語(yǔ)義信息就足夠了。世界模型不應(yīng)再專(zhuān)注于預(yù)測(cè)原始的視覺(jué)幀，而應(yīng)捕捉與任務(wù)相關(guān)的對(duì)象及其交互信息，例如：「機(jī)械臂是否更靠近目標(biāo)物體？」「紅色方塊是否傾倒？」「藍(lán)色球是否被拾起？」

論文將這種信息建模為一個(gè)關(guān)于未來(lái)的視覺(jué)問(wèn)答（VQA）問(wèn)題，利用這樣一個(gè)事實(shí)：任何目標(biāo)結(jié)果都可以用一系列「是 / 否」問(wèn)題來(lái)表達(dá)。換言之，世界建模問(wèn)題可以被重新定義為一個(gè)關(guān)于未來(lái)結(jié)果的 VQA 問(wèn)題。

目前已有一類(lèi)模型具備完善的視覺(jué)問(wèn)答工具體系，即視覺(jué)語(yǔ)言模型（VLM）。在世界建模任務(wù)中，VLM 具有兩大優(yōu)勢(shì)：

一是，它們通過(guò)大規(guī)模預(yù)訓(xùn)練獲得了強(qiáng)大的視覺(jué)問(wèn)答能力與廣泛的泛化能力；
二是，它們編碼了關(guān)于任務(wù)與場(chǎng)景語(yǔ)義特征的先驗(yàn)知識(shí)。

這些優(yōu)勢(shì)使得前沿的 VLM 能夠提出與任務(wù)相關(guān)的問(wèn)題，并在給定靜態(tài)觀測(cè)時(shí)給出可靠的答案。然而，它們?nèi)狈?duì)未來(lái)結(jié)果的預(yù)測(cè)能力，這限制了它們?cè)跊Q策任務(wù)中的直接應(yīng)用。

為此，新論文提出了「語(yǔ)義世界模型（Semantic World Model, SWM）」的概念。SVM 是一種具備泛化能力的世界模型，它以動(dòng)作條件的視覺(jué)語(yǔ)言模型形式存在，能夠回答關(guān)于未來(lái)動(dòng)作語(yǔ)義效果的問(wèn)題。

論文標(biāo)題：SEMANTIC WORLD MODELS
論文鏈接：https://arxiv.org/pdf/2510.19818
項(xiàng)目鏈接：https://weirdlabuw.github.io/swm/

與傳統(tǒng)預(yù)測(cè)未來(lái)幀的世界模型不同，SWM 在給定當(dāng)前觀測(cè)（圖像表示）與動(dòng)作序列的情況下，回答關(guān)于未來(lái)的自然語(yǔ)言問(wèn)題。

如圖 1 所示，模型輸入包括：當(dāng)前觀測(cè)、一系列擬執(zhí)行的動(dòng)作，以及一個(gè)關(guān)于未來(lái)的自然語(yǔ)言提問(wèn)。模型通過(guò)理解這些動(dòng)作在環(huán)境中將帶來(lái)的后果，生成相應(yīng)的文本回答。

由于 SWM 本質(zhì)上是一個(gè)與任務(wù)無(wú)關(guān)的世界模型，它可以在對(duì)通用序列數(shù)據(jù)質(zhì)量要求極低的情況下進(jìn)行訓(xùn)練，這些數(shù)據(jù)包括游戲數(shù)據(jù)和非最優(yōu)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)可以很容易地從任何（專(zhuān)家或非專(zhuān)家）數(shù)據(jù)語(yǔ)料庫(kù)中獲取，其格式為當(dāng)前觀測(cè)結(jié)果、行動(dòng)、（關(guān)于未來(lái)的）問(wèn)題以及預(yù)期答案。

通過(guò) SWM 來(lái)推理未來(lái)結(jié)果，AI 就能夠在動(dòng)作空間中進(jìn)行靈活的、開(kāi)放世界的多任務(wù)規(guī)劃。

當(dāng)任務(wù)以自然語(yǔ)言描述時(shí)，系統(tǒng)可以有兩種方式理解目標(biāo)：要么利用預(yù)訓(xùn)練好的 VLM 自動(dòng)解析任務(wù)意圖，要么由人類(lèi)將任務(wù)拆解成一組文本化的「問(wèn)題 — 期望答案」對(duì)。在得到這組問(wèn)答之后，SWM 就可以用來(lái)規(guī)劃動(dòng)作，使得未來(lái)得到這些期望答案的可能性最大化。

給定自然語(yǔ)言形式的任務(wù)說(shuō)明，人們既可以利用預(yù)訓(xùn)練的 VLM，也可以手動(dòng)將任務(wù)說(shuō)明分解為一組問(wèn)題以及文本形式的預(yù)期答案。有了這個(gè)問(wèn)答集，SWM 就可以被用來(lái)規(guī)劃動(dòng)作，從而極有可能在未來(lái)得出這些問(wèn)題的預(yù)期答案。

盡管有大量技術(shù)可用于這種規(guī)劃，但本研究表明，它與零階基于采樣的方法以及一階梯度規(guī)劃方法都兼容，這些方法會(huì)針對(duì)預(yù)期似然目標(biāo)進(jìn)行優(yōu)化。研究表明，這些規(guī)劃方法在計(jì)算上是可行的，相比常規(guī)的動(dòng)作選擇方法，能在測(cè)試時(shí)帶來(lái)顯著改進(jìn)。此外，它還展示了此類(lèi)規(guī)劃方法對(duì)多步驟長(zhǎng)程問(wèn)題的可擴(kuò)展性。

在實(shí)驗(yàn)方面，SWM 在兩個(gè)常用的多任務(wù)仿真環(huán)境 ——Language Table（LangTable）與 OGBench—— 上進(jìn)行了評(píng)估。結(jié)果表明：SWM 能夠準(zhǔn)確回答關(guān)于未來(lái)結(jié)果的問(wèn)題，并能泛化到新場(chǎng)景中。SWM 可以與基于采樣的標(biāo)準(zhǔn)規(guī)劃技術(shù)以及基于梯度的改進(jìn)技術(shù)相結(jié)合，通過(guò)測(cè)試時(shí)優(yōu)化實(shí)現(xiàn)顯著的策略改進(jìn)，從而解決各種機(jī)器人任務(wù)。

綜上所述，SWM 代表了一類(lèi)新型的世界模型，它利用 VLM 的豐富預(yù)訓(xùn)練知識(shí)，實(shí)現(xiàn)了可落地、靈活且可擴(kuò)展的機(jī)器人控制。

語(yǔ)義世界模型概覽

下圖 2 展示了語(yǔ)義世界模型的概況。SWM 是一種視覺(jué)語(yǔ)言模型，經(jīng)過(guò)調(diào)整后能夠回答與未來(lái)相關(guān)的問(wèn)題，這些問(wèn)題由用于調(diào)整模型的動(dòng)作所決定。通過(guò)一系列問(wèn)題和期望的答案，其預(yù)測(cè)可以轉(zhuǎn)化為規(guī)劃信號(hào)，并迭代優(yōu)化動(dòng)作序列。

數(shù)據(jù)集生成

為了訓(xùn)練一個(gè)能夠回答關(guān)于未來(lái)問(wèn)題的世界模型，本文生成了一個(gè)狀態(tài) - 動(dòng)作 - 問(wèn)題 - 答案（SAQA）數(shù)據(jù)集。圖 3 展示了該數(shù)據(jù)集中一個(gè)單獨(dú)的狀態(tài)與多個(gè)問(wèn)題和答案的配對(duì)情況。

架構(gòu)概覽

SWM 是一個(gè)能夠在給定動(dòng)作條件下回答關(guān)于未來(lái)事件問(wèn)題的模型。具備這種能力的模型本質(zhì)上是一種帶有動(dòng)作條件的視覺(jué)問(wèn)答模型。因此，從大型預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型（VLM）出發(fā)，將其泛化能力遷移到機(jī)器人任務(wù)中是很自然的做法。這種 SWM 架構(gòu)基于開(kāi)源的視覺(jué)語(yǔ)言模型 PaliGemma。

該模型包含三個(gè)核心預(yù)訓(xùn)練組件：一個(gè)基于 Transformer 的自回歸語(yǔ)言模型（其 token 嵌入大小為 d_tok)、一個(gè)視覺(jué)編碼器 v_?（其特征大小為 d_img）以及一個(gè)投影矩陣。PaliGemma 架構(gòu)建立在兩個(gè)單獨(dú)訓(xùn)練的組件之上：Gemma 大語(yǔ)言模型和 SigLIP 圖像編碼器 V_sc。W 用于從 Z_sc 投影到 Z_LLM，其中 Z_sc 是 v_? 的特征空間，Z_LLM 是大語(yǔ)言模型的輸入 token 嵌入空間。本文使用 PaliGemma 的 30 億參數(shù)檢查點(diǎn)作為基礎(chǔ)模型。

為了讓基礎(chǔ)模型能夠就「某一特定未來(lái)（由行動(dòng)產(chǎn)生）」回答問(wèn)題，模型必須以這些行動(dòng)為條件。為此，作者引入一個(gè)新的投影矩陣，它將單個(gè)動(dòng)作映射到與 W 投影矩陣類(lèi)似的潛空間 Z_LLM 中。

給定數(shù)據(jù)集 D_SAQA 中的一個(gè)元組 (S_i, a_{i:j}, Q_{S_j}, A_{S_j})，輸入序列通過(guò)將圖像嵌入、動(dòng)作嵌入和問(wèn)題 token 嵌入拼接而成：

隨后，模型以端到端方式微調(diào)，通過(guò)優(yōu)化標(biāo)準(zhǔn)交叉熵?fù)p失來(lái)預(yù)測(cè)目標(biāo)答案 A_{S_j}。

這種訓(xùn)練過(guò)程使模型能夠在語(yǔ)言空間中捕捉環(huán)境的動(dòng)態(tài)，從而在無(wú)需顯式生成像素級(jí)表征的情況下回答有關(guān)未來(lái)狀態(tài)的問(wèn)題。

實(shí)驗(yàn)結(jié)果

SWM 是否是一個(gè)有效的決策世界模型？

首先，作者通過(guò)在 LangTable 和 OGBench 任務(wù)上將基于采樣的規(guī)劃方法 MPPI 應(yīng)用于 SWM 模型，對(duì) SWM 的規(guī)劃能力進(jìn)行評(píng)估。

如表 2 所示，可以直接在語(yǔ)義世界模型之上使用基于采樣的規(guī)劃方法進(jìn)行規(guī)劃，在兩個(gè)環(huán)境中的到達(dá)和方塊分離任務(wù)上都取得了接近完美的成功率。

然而，對(duì)于大型模型而言，基于采樣的規(guī)劃方法計(jì)算成本高昂，在需要更多樣本的更具挑戰(zhàn)性的任務(wù)上運(yùn)行 MPPI 并不可行。因此，對(duì)于更復(fù)雜的任務(wù)，考慮這樣一種場(chǎng)景：由一個(gè)基礎(chǔ)策略生成候選軌跡，再利用 SWM 和基于梯度的優(yōu)化對(duì)其進(jìn)行細(xì)化。如圖 5 所示，該方法能夠?qū)蜻x軌跡進(jìn)行細(xì)化，并相比基礎(chǔ)策略取得顯著提升。在 LangTable 上，SWM 相比基礎(chǔ)策略的平均性能從 14.4% 提升至 81.6%；在 OGBench 上，從 45.33% 提升至 76%。SWM 在所有任務(wù)上也均優(yōu)于 AVD 和 IDQL 基線，展示了其在規(guī)劃方面的有效性。

SWM 還通過(guò)先選擇子目標(biāo)，再?lài)@該子目標(biāo)進(jìn)行規(guī)劃，展現(xiàn)出處理更長(zhǎng)程任務(wù)的能力。如表 1 所示，在多步任務(wù)上，SWM 的平均策略改進(jìn)幅度達(dá) 52.0%，優(yōu)于 AVD 基線。

次優(yōu)數(shù)據(jù)是否能提高建模性能？

從表 3 可以看出，混入次優(yōu)數(shù)據(jù)比僅使用專(zhuān)家數(shù)據(jù)進(jìn)行訓(xùn)練能提高準(zhǔn)確率。SWM 僅通過(guò)次優(yōu)數(shù)據(jù)訓(xùn)練也能達(dá)到中等水平的性能，這表明次優(yōu)數(shù)據(jù)在訓(xùn)練語(yǔ)義世界模型方面是多么有效。

SWM 是否保留了基礎(chǔ) VLM 的泛化能力？

為了衡量 VLM 預(yù)訓(xùn)練對(duì)泛化能力的影響，作者在組合式和場(chǎng)景分布外環(huán)境中對(duì) SWM 進(jìn)行了評(píng)估，相關(guān)環(huán)境如圖 6 所示。

為了衡量語(yǔ)義組合泛化能力，在 LangTable 環(huán)境中引入了一個(gè)新的彩色方塊，并修改了現(xiàn)有的方塊顏色 - 形狀組合。表 4 顯示，在這些條件下，與基礎(chǔ)策略相比，SWM 平均提高了 20.0%。這一性能表明，SWM 能夠保留部分預(yù)訓(xùn)練知識(shí)，從而實(shí)現(xiàn)組合泛化。

為了測(cè)試對(duì)背景變化的魯棒性，作者將 OGBench 的背景顏色改為一種新的組合。與基礎(chǔ)策略相比，SWM 的性能再次提升了 20%，并且能夠泛化到這些條件，而 AVD 方法則無(wú)法做到這一點(diǎn)。

模型的內(nèi)部表征是否關(guān)注與任務(wù)相關(guān)的信息？

為了理解模型所學(xué)的表征，作者從模型的一個(gè)中間層可視化了從語(yǔ)言 token 到圖像 patch 的注意力圖。如圖 7 所示，模型會(huì)根據(jù)語(yǔ)言提示正確關(guān)注圖像中與任務(wù)相關(guān)的位置。例如，當(dāng)被問(wèn)到「紅色的月亮是否在接觸藍(lán)色的立方體？」時(shí)，與這些物體對(duì)應(yīng)的圖像 patch 上的注意力得分更高。盡管從未在涉及兩個(gè)以上物體的問(wèn)題上進(jìn)行過(guò)微調(diào)，但研究發(fā)現(xiàn)，當(dāng)被問(wèn)及此類(lèi)問(wèn)題時(shí)，該模型能夠正確關(guān)注三個(gè)物體。這表明該模型繼承了預(yù)訓(xùn)練 VLM 的泛化能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.