<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      世界模型==VQA?機器人不用想象畫面,預測語義就夠了

      0
      分享至



      機器之心報道

      編輯:張倩

      對于機器人來說,世界模型真的有必要想象出精確的未來畫面嗎?在一篇新論文中,來自華盛頓大學、索尼 AI 的研究者提出了這個疑問。



      眾所周知,世界模型是一種讓 AI「想象未來」的學習方法。它可以從大量數據中學習世界的運行規律,然后根據當前狀態預測未來可能發生的事情。這種能力非常關鍵,因為如果 AI 能對未來做出合理預測,就能提前規劃出更聰明、更穩健的行動策略。

      在實踐中,世界模型的實現形式多種多樣,從小規模的基于狀態的動力學模型,到大型的基于動作條件的視頻預測模型都有。但無論形式如何,大多數模型都會嘗試「還原未來的畫面」。這種方法雖然常常能生成逼真的圖像,但卻不一定適合用來做決策。原因在于:圖像看起來再真實,也可能漏掉一些真正關鍵的語義細節 —— 比如兩個物體是否真的發生了接觸。

      過去有一些方法嘗試只建模「與任務相關」的信息,但這類方法往往需要額外的假設,比如必須知道獎勵函數或任務中某些已知因素。這讓它們在實際使用中變得不太靈活。

      如果像素信息并非規劃所必需,那么做出行動決策所真正需要的是什么?

      這篇論文提出:能夠預測關于未來結果的語義信息就足夠了。世界模型不應再專注于預測原始的視覺幀,而應捕捉與任務相關的對象及其交互信息,例如:「機械臂是否更靠近目標物體?」「紅色方塊是否傾倒?」「藍色球是否被拾起?」

      論文將這種信息建模為一個關于未來的視覺問答(VQA)問題,利用這樣一個事實:任何目標結果都可以用一系列「是 / 否」問題來表達。換言之,世界建模問題可以被重新定義為一個關于未來結果的 VQA 問題。

      目前已有一類模型具備完善的視覺問答工具體系,即視覺語言模型(VLM)。在世界建模任務中,VLM 具有兩大優勢:

      • 一是,它們通過大規模預訓練獲得了強大的視覺問答能力與廣泛的泛化能力;
      • 二是,它們編碼了關于任務與場景語義特征的先驗知識。

      這些優勢使得前沿的 VLM 能夠提出與任務相關的問題,并在給定靜態觀測時給出可靠的答案。然而,它們缺乏對未來結果的預測能力,這限制了它們在決策任務中的直接應用。

      為此,新論文提出了「語義世界模型(Semantic World Model, SWM)」的概念。SVM 是一種具備泛化能力的世界模型,它以動作條件的視覺語言模型形式存在,能夠回答關于未來動作語義效果的問題。



      • 論文標題:SEMANTIC WORLD MODELS
      • 論文鏈接:https://arxiv.org/pdf/2510.19818
      • 項目鏈接:https://weirdlabuw.github.io/swm/

      與傳統預測未來幀的世界模型不同,SWM 在給定當前觀測(圖像表示)與動作序列的情況下,回答關于未來的自然語言問題。

      如圖 1 所示,模型輸入包括:當前觀測、一系列擬執行的動作,以及一個關于未來的自然語言提問。模型通過理解這些動作在環境中將帶來的后果,生成相應的文本回答。



      由于 SWM 本質上是一個與任務無關的世界模型,它可以在對通用序列數據質量要求極低的情況下進行訓練,這些數據包括游戲數據和非最優數據。訓練數據可以很容易地從任何(專家或非專家)數據語料庫中獲取,其格式為當前觀測結果、行動、(關于未來的)問題以及預期答案。

      通過 SWM 來推理未來結果,AI 就能夠在動作空間中進行靈活的、開放世界的多任務規劃。

      當任務以自然語言描述時,系統可以有兩種方式理解目標:要么利用預訓練好的 VLM 自動解析任務意圖,要么由人類將任務拆解成一組文本化的「問題 — 期望答案」對。在得到這組問答之后,SWM 就可以用來規劃動作,使得未來得到這些期望答案的可能性最大化。

      給定自然語言形式的任務說明,人們既可以利用預訓練的 VLM,也可以手動將任務說明分解為一組問題以及文本形式的預期答案。有了這個問答集,SWM 就可以被用來規劃動作,從而極有可能在未來得出這些問題的預期答案。

      盡管有大量技術可用于這種規劃,但本研究表明,它與零階基于采樣的方法以及一階梯度規劃方法都兼容,這些方法會針對預期似然目標進行優化。研究表明,這些規劃方法在計算上是可行的,相比常規的動作選擇方法,能在測試時帶來顯著改進。此外,它還展示了此類規劃方法對多步驟長程問題的可擴展性。

      在實驗方面,SWM 在兩個常用的多任務仿真環境 ——Language Table(LangTable)與 OGBench—— 上進行了評估。結果表明:SWM 能夠準確回答關于未來結果的問題,并能泛化到新場景中。SWM 可以與基于采樣的標準規劃技術以及基于梯度的改進技術相結合,通過測試時優化實現顯著的策略改進,從而解決各種機器人任務。

      綜上所述,SWM 代表了一類新型的世界模型,它利用 VLM 的豐富預訓練知識,實現了可落地、靈活且可擴展的機器人控制。

      語義世界模型概覽

      下圖 2 展示了語義世界模型的概況。SWM 是一種視覺語言模型,經過調整后能夠回答與未來相關的問題,這些問題由用于調整模型的動作所決定。通過一系列問題和期望的答案,其預測可以轉化為規劃信號,并迭代優化動作序列。



      數據集生成

      為了訓練一個能夠回答關于未來問題的世界模型,本文生成了一個狀態 - 動作 - 問題 - 答案(SAQA)數據集。圖 3 展示了該數據集中一個單獨的狀態與多個問題和答案的配對情況。



      架構概覽

      SWM 是一個能夠在給定動作條件下回答關于未來事件問題的模型。具備這種能力的模型本質上是一種帶有動作條件的視覺問答模型。因此,從大型預訓練視覺語言模型(VLM)出發,將其泛化能力遷移到機器人任務中是很自然的做法。這種 SWM 架構基于開源的視覺語言模型 PaliGemma。

      該模型包含三個核心預訓練組件:一個基于 Transformer 的自回歸語言模型(其 token 嵌入大小為 d_tok)、一個視覺編碼器 v_?(其特征大小為 d_img)以及一個投影矩陣。PaliGemma 架構建立在兩個單獨訓練的組件之上:Gemma 大語言模型和 SigLIP 圖像編碼器 V_sc。W 用于從 Z_sc 投影到 Z_LLM,其中 Z_sc 是 v_? 的特征空間,Z_LLM 是大語言模型的輸入 token 嵌入空間。本文使用 PaliGemma 的 30 億參數檢查點作為基礎模型。



      為了讓基礎模型能夠就「某一特定未來(由行動產生)」回答問題,模型必須以這些行動為條件。為此,作者引入一個新的投影矩陣,它將單個動作映射到與 W 投影矩陣類似的潛空間 Z_LLM 中。





      給定數據集 D_SAQA 中的一個元組 (S_i, a_{i:j}, Q_{S_j}, A_{S_j}),輸入序列通過將圖像嵌入、動作嵌入和問題 token 嵌入拼接而成:



      隨后,模型以端到端方式微調,通過優化標準交叉熵損失來預測目標答案 A_{S_j}。



      這種訓練過程使模型能夠在語言空間中捕捉環境的動態,從而在無需顯式生成像素級表征的情況下回答有關未來狀態的問題。

      實驗結果

      SWM 是否是一個有效的決策世界模型?

      首先,作者通過在 LangTable 和 OGBench 任務上將基于采樣的規劃方法 MPPI 應用于 SWM 模型,對 SWM 的規劃能力進行評估。

      如表 2 所示,可以直接在語義世界模型之上使用基于采樣的規劃方法進行規劃,在兩個環境中的到達和方塊分離任務上都取得了接近完美的成功率。



      然而,對于大型模型而言,基于采樣的規劃方法計算成本高昂,在需要更多樣本的更具挑戰性的任務上運行 MPPI 并不可行。因此,對于更復雜的任務,考慮這樣一種場景:由一個基礎策略生成候選軌跡,再利用 SWM 和基于梯度的優化對其進行細化。如圖 5 所示,該方法能夠對候選軌跡進行細化,并相比基礎策略取得顯著提升。在 LangTable 上,SWM 相比基礎策略的平均性能從 14.4% 提升至 81.6%;在 OGBench 上,從 45.33% 提升至 76%。SWM 在所有任務上也均優于 AVD 和 IDQL 基線,展示了其在規劃方面的有效性。



      SWM 還通過先選擇子目標,再圍繞該子目標進行規劃,展現出處理更長程任務的能力。如表 1 所示,在多步任務上,SWM 的平均策略改進幅度達 52.0%,優于 AVD 基線。



      次優數據是否能提高建模性能?

      從表 3 可以看出,混入次優數據比僅使用專家數據進行訓練能提高準確率。SWM 僅通過次優數據訓練也能達到中等水平的性能,這表明次優數據在訓練語義世界模型方面是多么有效。



      SWM 是否保留了基礎 VLM 的泛化能力?

      為了衡量 VLM 預訓練對泛化能力的影響,作者在組合式和場景分布外環境中對 SWM 進行了評估,相關環境如圖 6 所示。



      為了衡量語義組合泛化能力,在 LangTable 環境中引入了一個新的彩色方塊,并修改了現有的方塊顏色 - 形狀組合。表 4 顯示,在這些條件下,與基礎策略相比,SWM 平均提高了 20.0%。這一性能表明,SWM 能夠保留部分預訓練知識,從而實現組合泛化。



      為了測試對背景變化的魯棒性,作者將 OGBench 的背景顏色改為一種新的組合。與基礎策略相比,SWM 的性能再次提升了 20%,并且能夠泛化到這些條件,而 AVD 方法則無法做到這一點。

      模型的內部表征是否關注與任務相關的信息?

      為了理解模型所學的表征,作者從模型的一個中間層可視化了從語言 token 到圖像 patch 的注意力圖。如圖 7 所示,模型會根據語言提示正確關注圖像中與任務相關的位置。例如,當被問到「紅色的月亮是否在接觸藍色的立方體?」時,與這些物體對應的圖像 patch 上的注意力得分更高。盡管從未在涉及兩個以上物體的問題上進行過微調,但研究發現,當被問及此類問題時,該模型能夠正確關注三個物體。這表明該模型繼承了預訓練 VLM 的泛化能力。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      孫穎莎還是被點名了!人民日報親自下場點破真相,評論一針見血

      孫穎莎還是被點名了!人民日報親自下場點破真相,評論一針見血

      冷紫葉
      2025-12-16 19:46:13
      俄外長:美已向俄承諾烏將放棄部分領土

      俄外長:美已向俄承諾烏將放棄部分領土

      參考消息
      2025-12-17 18:32:07
      黎智英遭裁決,美國大魚被供出,30國勢力同時冒頭,逼中方放人?

      黎智英遭裁決,美國大魚被供出,30國勢力同時冒頭,逼中方放人?

      博覽歷史
      2025-12-16 18:19:52
      警方凌晨通報:張某軍(男,43歲)投案

      警方凌晨通報:張某軍(男,43歲)投案

      南方都市報
      2025-12-17 09:25:24
      向太直播豪送郭碧婷12億財產 堅守1原則:公司不留2兒子、留給她

      向太直播豪送郭碧婷12億財產 堅守1原則:公司不留2兒子、留給她

      達達哥
      2025-12-16 18:57:28
      冤不冤?楊鳴為何連吃2T被驅逐,成賽季第一人,恐遭籃協追加處罰

      冤不冤?楊鳴為何連吃2T被驅逐,成賽季第一人,恐遭籃協追加處罰

      萌蘭聊個球
      2025-12-17 22:30:53
      凈虧4000萬!西媒:利物浦愿以1.1億歐元將維爾茨賣給皇馬

      凈虧4000萬!西媒:利物浦愿以1.1億歐元將維爾茨賣給皇馬

      球事百科吖
      2025-12-17 05:43:03
      笑了!柬泰沖突后,泰國駐華大使館微博下面,全是一樣的評論

      笑了!柬泰沖突后,泰國駐華大使館微博下面,全是一樣的評論

      消失的電波
      2025-12-15 14:10:23
      黃有龍做夢也沒想到,自己花重金培養大的女兒,竟給趙薇做了嫁衣

      黃有龍做夢也沒想到,自己花重金培養大的女兒,竟給趙薇做了嫁衣

      查爾菲的筆記
      2025-12-16 15:14:06
      1992年,28歲的何晴與同學合影留念,站在C位太顯眼了

      1992年,28歲的何晴與同學合影留念,站在C位太顯眼了

      振華觀史
      2025-12-16 17:15:01
      毛衣意外粘走3000元翡翠耳環,廣東一女子逐家詢問找到失主,店主:如釋重負,感謝!

      毛衣意外粘走3000元翡翠耳環,廣東一女子逐家詢問找到失主,店主:如釋重負,感謝!

      揚子晚報
      2025-12-16 17:49:22
      A股突然亢奮起來

      A股突然亢奮起來

      隔壁老投
      2025-12-17 14:51:31
      辣眼“知情人”曝料已婚知名大導演追求北電女學生,聊天記錄臉紅

      辣眼“知情人”曝料已婚知名大導演追求北電女學生,聊天記錄臉紅

      天天熱點見聞
      2025-12-16 16:57:46
      《阿凡達3》預售票房殺瘋了,把劉德華這部耗資2億的大片嚇跑了

      《阿凡達3》預售票房殺瘋了,把劉德華這部耗資2億的大片嚇跑了

      糊咖娛樂
      2025-12-15 19:16:46
      劉德華撤檔,《內幕》虧損近2億,我感慨:賣情懷救不了港片

      劉德華撤檔,《內幕》虧損近2億,我感慨:賣情懷救不了港片

      糊咖娛樂
      2025-12-17 18:46:48
      邱毅:流傳的屠殺中國人的日本軍官照片是高市早苗祖父高市利彥!

      邱毅:流傳的屠殺中國人的日本軍官照片是高市早苗祖父高市利彥!

      南權先生
      2025-12-16 16:22:32
      破防了!小時候覺得身高沒有那么重要,長大了才知道身高是硬傷!

      破防了!小時候覺得身高沒有那么重要,長大了才知道身高是硬傷!

      夜深愛雜談
      2025-12-17 22:32:45
      何晴主治醫師爆料,許亞軍為何晴付多年醫藥費,出錢出力很重情義

      何晴主治醫師爆料,許亞軍為何晴付多年醫藥費,出錢出力很重情義

      曉肂愛八卦
      2025-12-17 14:26:39
      張水華被醫院處分不到一周,惡心事接連發生,遭殃的何止是白巖松

      張水華被醫院處分不到一周,惡心事接連發生,遭殃的何止是白巖松

      阿纂看事
      2025-12-16 11:17:04
      中國股市大佬罕見發聲:如果散戶長期捂股不斬倉,莊家會怎么辦?

      中國股市大佬罕見發聲:如果散戶長期捂股不斬倉,莊家會怎么辦?

      股經縱橫談
      2025-12-17 20:54:54
      2025-12-17 23:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      頭條要聞

      捐贈博物館價值8800萬的名畫現身拍賣市場 捐贈方發聲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      游戲
      藝術
      教育
      數碼
      公開課

      地表最強帕魯誕生!幻獸帕魯全新版本上線,新裝備特效太強了

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      教育要聞

      明早9點,“三尺之外”城市教育談正式開講!點這里預約直播

      數碼要聞

      連續五年全國銷量第一 添可洗地機為何被稱一次性用品?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 元码人妻精品一区二区三区9| 成安县| 最新亚洲春色av无码专区| 日韩伊人| 亚洲v欧美v国产v在线观看| 国模精品在线| 日韩激情一区二区| 亚洲学生妹高清av| 看亚洲一级黄色片啪啪啪| 无码福利一区二区三区| 一本一本久久a久久精品综合| 高潮添下面视频免费看| 水蜜AⅤ视频一区二区三区| 亚洲中文日韩一区二区三区| 亚洲色小说| 日日噜噜夜夜狠狠视频| 国产精品 精品国内自产拍| 特黄aaaaaaa片免费视频| 一区二区av| 国产精品久久久久久无毒不卡| 浓毛老太交欧美老妇热爱乱| 进贤县| av色蜜桃一区二区三区| 蜜桃av一卡二卡三卡| 色天使AV| 亚洲a∨国产av综合av下载| 91精品国产综合久久久蜜臀酒店| 免费观看性行为视频的网站| 无码乳交| 四川丰满妇女毛片四川话| www.色人妻.com| 五月情婷婷| 亚洲xxxx做受欧美| 一区二区三区无效卡| 国产a网站| 国产做a爱片久久毛片a片| 国产人妖乱国产精品人妖| 九九精品在线观| 熟女在线播放| free性开放小少妇| 亚洲精品成人a在线观看|