<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      世界模型==VQA?機器人不用想象畫面,預測語義就夠了

      0
      分享至



      機器之心報道

      編輯:張倩

      對于機器人來說,世界模型真的有必要想象出精確的未來畫面嗎?在一篇新論文中,來自華盛頓大學、索尼 AI 的研究者提出了這個疑問。



      眾所周知,世界模型是一種讓 AI「想象未來」的學習方法。它可以從大量數據中學習世界的運行規(guī)律,然后根據當前狀態(tài)預測未來可能發(fā)生的事情。這種能力非常關鍵,因為如果 AI 能對未來做出合理預測,就能提前規(guī)劃出更聰明、更穩(wěn)健的行動策略。

      在實踐中,世界模型的實現形式多種多樣,從小規(guī)模的基于狀態(tài)的動力學模型,到大型的基于動作條件的視頻預測模型都有。但無論形式如何,大多數模型都會嘗試「還原未來的畫面」。這種方法雖然常常能生成逼真的圖像,但卻不一定適合用來做決策。原因在于:圖像看起來再真實,也可能漏掉一些真正關鍵的語義細節(jié) —— 比如兩個物體是否真的發(fā)生了接觸。

      過去有一些方法嘗試只建模「與任務相關」的信息,但這類方法往往需要額外的假設,比如必須知道獎勵函數或任務中某些已知因素。這讓它們在實際使用中變得不太靈活。

      如果像素信息并非規(guī)劃所必需,那么做出行動決策所真正需要的是什么?

      這篇論文提出:能夠預測關于未來結果的語義信息就足夠了。世界模型不應再專注于預測原始的視覺幀,而應捕捉與任務相關的對象及其交互信息,例如:「機械臂是否更靠近目標物體?」「紅色方塊是否傾倒?」「藍色球是否被拾起?」

      論文將這種信息建模為一個關于未來的視覺問答(VQA)問題,利用這樣一個事實:任何目標結果都可以用一系列「是 / 否」問題來表達。換言之,世界建模問題可以被重新定義為一個關于未來結果的 VQA 問題。

      目前已有一類模型具備完善的視覺問答工具體系,即視覺語言模型(VLM)。在世界建模任務中,VLM 具有兩大優(yōu)勢:

      • 一是,它們通過大規(guī)模預訓練獲得了強大的視覺問答能力與廣泛的泛化能力;
      • 二是,它們編碼了關于任務與場景語義特征的先驗知識。

      這些優(yōu)勢使得前沿的 VLM 能夠提出與任務相關的問題,并在給定靜態(tài)觀測時給出可靠的答案。然而,它們缺乏對未來結果的預測能力,這限制了它們在決策任務中的直接應用。

      為此,新論文提出了「語義世界模型(Semantic World Model, SWM)」的概念。SVM 是一種具備泛化能力的世界模型,它以動作條件的視覺語言模型形式存在,能夠回答關于未來動作語義效果的問題。



      • 論文標題:SEMANTIC WORLD MODELS
      • 論文鏈接:https://arxiv.org/pdf/2510.19818
      • 項目鏈接:https://weirdlabuw.github.io/swm/

      與傳統(tǒng)預測未來幀的世界模型不同,SWM 在給定當前觀測(圖像表示)與動作序列的情況下,回答關于未來的自然語言問題。

      如圖 1 所示,模型輸入包括:當前觀測、一系列擬執(zhí)行的動作,以及一個關于未來的自然語言提問。模型通過理解這些動作在環(huán)境中將帶來的后果,生成相應的文本回答。



      由于 SWM 本質上是一個與任務無關的世界模型,它可以在對通用序列數據質量要求極低的情況下進行訓練,這些數據包括游戲數據和非最優(yōu)數據。訓練數據可以很容易地從任何(專家或非專家)數據語料庫中獲取,其格式為當前觀測結果、行動、(關于未來的)問題以及預期答案。

      通過 SWM 來推理未來結果,AI 就能夠在動作空間中進行靈活的、開放世界的多任務規(guī)劃。

      當任務以自然語言描述時,系統(tǒng)可以有兩種方式理解目標:要么利用預訓練好的 VLM 自動解析任務意圖,要么由人類將任務拆解成一組文本化的「問題 — 期望答案」對。在得到這組問答之后,SWM 就可以用來規(guī)劃動作,使得未來得到這些期望答案的可能性最大化。

      給定自然語言形式的任務說明,人們既可以利用預訓練的 VLM,也可以手動將任務說明分解為一組問題以及文本形式的預期答案。有了這個問答集,SWM 就可以被用來規(guī)劃動作,從而極有可能在未來得出這些問題的預期答案。

      盡管有大量技術可用于這種規(guī)劃,但本研究表明,它與零階基于采樣的方法以及一階梯度規(guī)劃方法都兼容,這些方法會針對預期似然目標進行優(yōu)化。研究表明,這些規(guī)劃方法在計算上是可行的,相比常規(guī)的動作選擇方法,能在測試時帶來顯著改進。此外,它還展示了此類規(guī)劃方法對多步驟長程問題的可擴展性。

      在實驗方面,SWM 在兩個常用的多任務仿真環(huán)境 ——Language Table(LangTable)與 OGBench—— 上進行了評估。結果表明:SWM 能夠準確回答關于未來結果的問題,并能泛化到新場景中。SWM 可以與基于采樣的標準規(guī)劃技術以及基于梯度的改進技術相結合,通過測試時優(yōu)化實現顯著的策略改進,從而解決各種機器人任務。

      綜上所述,SWM 代表了一類新型的世界模型,它利用 VLM 的豐富預訓練知識,實現了可落地、靈活且可擴展的機器人控制。

      語義世界模型概覽

      下圖 2 展示了語義世界模型的概況。SWM 是一種視覺語言模型,經過調整后能夠回答與未來相關的問題,這些問題由用于調整模型的動作所決定。通過一系列問題和期望的答案,其預測可以轉化為規(guī)劃信號,并迭代優(yōu)化動作序列。



      數據集生成

      為了訓練一個能夠回答關于未來問題的世界模型,本文生成了一個狀態(tài) - 動作 - 問題 - 答案(SAQA)數據集。圖 3 展示了該數據集中一個單獨的狀態(tài)與多個問題和答案的配對情況。



      架構概覽

      SWM 是一個能夠在給定動作條件下回答關于未來事件問題的模型。具備這種能力的模型本質上是一種帶有動作條件的視覺問答模型。因此,從大型預訓練視覺語言模型(VLM)出發(fā),將其泛化能力遷移到機器人任務中是很自然的做法。這種 SWM 架構基于開源的視覺語言模型 PaliGemma。

      該模型包含三個核心預訓練組件:一個基于 Transformer 的自回歸語言模型(其 token 嵌入大小為 d_tok)、一個視覺編碼器 v_?(其特征大小為 d_img)以及一個投影矩陣。PaliGemma 架構建立在兩個單獨訓練的組件之上:Gemma 大語言模型和 SigLIP 圖像編碼器 V_sc。W 用于從 Z_sc 投影到 Z_LLM,其中 Z_sc 是 v_? 的特征空間,Z_LLM 是大語言模型的輸入 token 嵌入空間。本文使用 PaliGemma 的 30 億參數檢查點作為基礎模型。



      為了讓基礎模型能夠就「某一特定未來(由行動產生)」回答問題,模型必須以這些行動為條件。為此,作者引入一個新的投影矩陣,它將單個動作映射到與 W 投影矩陣類似的潛空間 Z_LLM 中。





      給定數據集 D_SAQA 中的一個元組 (S_i, a_{i:j}, Q_{S_j}, A_{S_j}),輸入序列通過將圖像嵌入、動作嵌入和問題 token 嵌入拼接而成:



      隨后,模型以端到端方式微調,通過優(yōu)化標準交叉熵損失來預測目標答案 A_{S_j}。



      這種訓練過程使模型能夠在語言空間中捕捉環(huán)境的動態(tài),從而在無需顯式生成像素級表征的情況下回答有關未來狀態(tài)的問題。

      實驗結果

      SWM 是否是一個有效的決策世界模型?

      首先,作者通過在 LangTable 和 OGBench 任務上將基于采樣的規(guī)劃方法 MPPI 應用于 SWM 模型,對 SWM 的規(guī)劃能力進行評估。

      如表 2 所示,可以直接在語義世界模型之上使用基于采樣的規(guī)劃方法進行規(guī)劃,在兩個環(huán)境中的到達和方塊分離任務上都取得了接近完美的成功率。



      然而,對于大型模型而言,基于采樣的規(guī)劃方法計算成本高昂,在需要更多樣本的更具挑戰(zhàn)性的任務上運行 MPPI 并不可行。因此,對于更復雜的任務,考慮這樣一種場景:由一個基礎策略生成候選軌跡,再利用 SWM 和基于梯度的優(yōu)化對其進行細化。如圖 5 所示,該方法能夠對候選軌跡進行細化,并相比基礎策略取得顯著提升。在 LangTable 上,SWM 相比基礎策略的平均性能從 14.4% 提升至 81.6%;在 OGBench 上,從 45.33% 提升至 76%。SWM 在所有任務上也均優(yōu)于 AVD 和 IDQL 基線,展示了其在規(guī)劃方面的有效性。



      SWM 還通過先選擇子目標,再圍繞該子目標進行規(guī)劃,展現出處理更長程任務的能力。如表 1 所示,在多步任務上,SWM 的平均策略改進幅度達 52.0%,優(yōu)于 AVD 基線。



      次優(yōu)數據是否能提高建模性能?

      從表 3 可以看出,混入次優(yōu)數據比僅使用專家數據進行訓練能提高準確率。SWM 僅通過次優(yōu)數據訓練也能達到中等水平的性能,這表明次優(yōu)數據在訓練語義世界模型方面是多么有效。



      SWM 是否保留了基礎 VLM 的泛化能力?

      為了衡量 VLM 預訓練對泛化能力的影響,作者在組合式和場景分布外環(huán)境中對 SWM 進行了評估,相關環(huán)境如圖 6 所示。



      為了衡量語義組合泛化能力,在 LangTable 環(huán)境中引入了一個新的彩色方塊,并修改了現有的方塊顏色 - 形狀組合。表 4 顯示,在這些條件下,與基礎策略相比,SWM 平均提高了 20.0%。這一性能表明,SWM 能夠保留部分預訓練知識,從而實現組合泛化。



      為了測試對背景變化的魯棒性,作者將 OGBench 的背景顏色改為一種新的組合。與基礎策略相比,SWM 的性能再次提升了 20%,并且能夠泛化到這些條件,而 AVD 方法則無法做到這一點。

      模型的內部表征是否關注與任務相關的信息?

      為了理解模型所學的表征,作者從模型的一個中間層可視化了從語言 token 到圖像 patch 的注意力圖。如圖 7 所示,模型會根據語言提示正確關注圖像中與任務相關的位置。例如,當被問到「紅色的月亮是否在接觸藍色的立方體?」時,與這些物體對應的圖像 patch 上的注意力得分更高。盡管從未在涉及兩個以上物體的問題上進行過微調,但研究發(fā)現,當被問及此類問題時,該模型能夠正確關注三個物體。這表明該模型繼承了預訓練 VLM 的泛化能力。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      徹底摧毀!伊朗威脅要炸掉300億美元OpenAI星際之門AI數據中心 衛(wèi)星地圖公布

      徹底摧毀!伊朗威脅要炸掉300億美元OpenAI星際之門AI數據中心 衛(wèi)星地圖公布

      快科技
      2026-04-06 17:21:06
      杜海濤瘦80斤后接機沈夢辰,主動求合影被拒:拍一個嘛!

      杜海濤瘦80斤后接機沈夢辰,主動求合影被拒:拍一個嘛!

      東方不敗然多多
      2026-04-07 17:08:36
      重大突發(fā)!伊朗石油命脈遇襲,美股指期貨跳水!

      重大突發(fā)!伊朗石油命脈遇襲,美股指期貨跳水!

      證券時報
      2026-04-07 19:43:17
      史上最亂倫成語“上蒸下報”

      史上最亂倫成語“上蒸下報”

      華人星光
      2026-02-21 11:24:05
      里夫斯+東契奇都去歐洲,湖人:這就有點離譜

      里夫斯+東契奇都去歐洲,湖人:這就有點離譜

      體育新角度
      2026-04-07 18:53:49
      王勵勤終于狠下心!果斷棄用4大老將,重點培養(yǎng)新生代刻不容緩

      王勵勤終于狠下心!果斷棄用4大老將,重點培養(yǎng)新生代刻不容緩

      八斗小先生
      2026-04-07 16:23:50
      中國已無退路了!美軍為中美選好了主戰(zhàn)場,決心要跟中國打場大戰(zhàn)

      中國已無退路了!美軍為中美選好了主戰(zhàn)場,決心要跟中國打場大戰(zhàn)

      甜檸聊史
      2026-04-05 15:59:13
      活塞主帥:希望坎寧安和斯圖爾特能至少出戰(zhàn)一場常規(guī)賽

      活塞主帥:希望坎寧安和斯圖爾特能至少出戰(zhàn)一場常規(guī)賽

      北青網-北京青年報
      2026-04-07 19:42:24
      “一夜?jié)q50萬元,還談個啥?”上海二手房市場現賣家大幅跳價,買家不干了

      “一夜?jié)q50萬元,還談個啥?”上海二手房市場現賣家大幅跳價,買家不干了

      上觀新聞
      2026-04-06 22:10:08
      搜救變“送寶”!美軍C130殘骸里,竟挖出AH6“小鳥”核心機密

      搜救變“送寶”!美軍C130殘骸里,竟挖出AH6“小鳥”核心機密

      安安說
      2026-04-06 14:55:17
      長汀車輛墜河5人遇難,發(fā)生了什么?

      長汀車輛墜河5人遇難,發(fā)生了什么?

      中國新聞周刊
      2026-04-07 15:56:54
      墮落的“清純女星”酒井法子,這張腿間蝴蝶背后,隱藏著的故事

      墮落的“清純女星”酒井法子,這張腿間蝴蝶背后,隱藏著的故事

      七阿姨愛八卦
      2026-03-29 10:12:33
      28歲王一博被曝大瓜,蛛絲馬跡全被扒,警方公司都介入

      28歲王一博被曝大瓜,蛛絲馬跡全被扒,警方公司都介入

      小熊侃史
      2026-04-06 10:07:26
      從三聚氰胺到優(yōu)思益:十七年過去,我們還在原地打轉

      從三聚氰胺到優(yōu)思益:十七年過去,我們還在原地打轉

      鳳眼論
      2026-04-02 15:35:27
      美國人意識到,貿易戰(zhàn)之后,不會再有中國外的大規(guī)模工業(yè)化國家了

      美國人意識到,貿易戰(zhàn)之后,不會再有中國外的大規(guī)模工業(yè)化國家了

      小樾說歷史
      2026-04-07 14:16:49
      74年李先念找到李德生,沉默半晌后說:要你辭職,是毛主席的建議

      74年李先念找到李德生,沉默半晌后說:要你辭職,是毛主席的建議

      鶴羽說個事
      2026-03-27 22:49:42
      73歲大爺為43歲妻子做陰莖假體手術,網友破防了:這才是真愛

      73歲大爺為43歲妻子做陰莖假體手術,網友破防了:這才是真愛

      魔都姐姐雜談
      2026-04-02 18:52:46
      “人體藝術”,絕非色情!

      “人體藝術”,絕非色情!

      文刀萬
      2026-03-06 06:05:03
      coco曝完謝家丑聞后,張柏芝轉頭獨自照顧四個孩子

      coco曝完謝家丑聞后,張柏芝轉頭獨自照顧四個孩子

      君笙的拂兮
      2026-03-22 07:13:00
      今天,見了一位大美女

      今天,見了一位大美女

      揭幕者
      2026-04-07 15:27:33
      2026-04-08 00:04:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12701文章數 142616關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態(tài)體驗

      態(tài)度原創(chuàng)

      數碼
      本地
      房產
      手機
      公開課

      數碼要聞

      OPPO ColorOS共創(chuàng)者星球2026年第1期高票建議采納情況公布

      本地新聞

      跟著歌聲游安徽,聽古村回響

      房產要聞

      重磅!三亞擬出安居房新政!

      手機要聞

      iOS 26.4.1系統(tǒng)更新即將到來!蘋果持續(xù)推進Liquid Glass設計

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版