<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達Jim Fan:「世界建模」是新一代預訓練范式

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      繼“下一個詞預測”之后,世界建模將成為新的預訓練范式。

      這是英偉達機器人主管Jim Fan給出的最新判斷。



      他認為,2026年將成為大世界模型(Large World Models)真正為機器人領域以及更廣義的多模態AI奠定基礎的第一年。

      謝賽寧隨即轉發表示贊同:“事后看來顯而易見”。



      在這篇長文中,Jim Fan討論了世界模型的定義與應用,尤其聚焦于物理AI領域的發展,同時展望了新的推理形式:

      • 世界建模(world modeling)是在給定一個動作的條件下,預測下一個合理的世界狀態(或一段更長時間范圍內的狀態)。
      • 當前世界模型的主要炒作集中在AI視頻領域,而2026年將迎來物理AI的爆發。
      • 世界模型需要更廣義的預訓練目標:下一個世界狀態不應只包含RGB,還必須覆蓋3D運動、本體感覺與觸覺。
      • 將出現一種新的推理形式:在視覺空間中的思維鏈,而非語言空間中的思維鏈。

      以下為分享全文:

      第二個預訓練范式

      下一個詞預測(Next word prediction )曾是第一個預訓練范式,而現在我們正在經歷第二次范式轉變:

      世界建模(world modeling),或者說“下一個物理狀態預測”

      很少有人真正理解這一轉變的深遠意義。不幸的是,目前世界模型最被炒作的應用仍然是AI視頻(接下來可能是游戲)。

      我非常有信心地說:2026年將成為大世界模型(Large World Models)首次為機器人領域,以及更廣義的多模態 AI 奠定真實基礎的一年。

      在這個背景下,我將世界建模定義為:在給定一個動作的條件下,預測下一個合理的世界狀態(或一段更長時間范圍內的狀態)。

      視頻生成模型是其中的一種實現形式,其中“下一個狀態”是一系列RGB幀(通常為 8–10 秒,最長可達數分鐘),而“動作”是一段描述要執行什么的文本。

      訓練過程就是對數十億小時視頻像素的未來變化進行建模。

      本質上,視頻世界模型就是可學習的物理模擬器和渲染引擎。

      它們能夠捕捉反事實情景(counterfactuals),即預測如果采取不同動作,未來可能會如何不同——這就是推理。世界模型從根本上以視覺為中心。

      相比之下,VLM本質上是以語言為中心的。從最早的原型(e.g. LLaVA, Liu et al. 2023)開始,整體路徑基本一致:視覺在編碼器處進入,然后被送入語言主干網絡。

      隨著時間推移,編碼器不斷改進,架構變得更簡潔,視覺試圖變得更加“原生”(如全模態模型)。

      然而,視覺仍然是二等公民,無法與領域多年構建的LLM能力相比。(LLM)這條路線方便,因為我們熟LLM的擴展性,架構設計、數據配方、評測指標(如 VQA)都高度優化為語言服務。

      對于物理AI來說,2025年以VLA為主:在預訓練VLM上接入機器人動作解碼器。

      嚴格來說,它更像是 “LVA”:語言 > 視覺 > 動作,等級遞減。

      方便是方便,但VLM中大多數參數用于知識(例如“這一團像素是可口可樂品牌”),而不是物理(“如果你傾倒可樂瓶,它會灑成棕色水洼,弄臟白色桌布,還可能損壞電機”)。

      VLA的設計在知識檢索上很強,但物理能力分配不足。多階段嫁接的設計,也違背我對簡潔優雅的偏好。

      從生物學角度看,視覺主導了我們的皮層計算。大約三分之一的大腦皮層用于在枕葉、顳葉和頂葉區域處理像素。

      相比之下,語言依賴于一個相對緊湊的區域。視覺是連接我們大腦、運動系統和物理世界的最高帶寬通道。它閉合了“感知—運動回路(sensorimotor loop)”——這是機器人最需要解決的回路,而且在中間不需要語言。

      自然界給了我們一個最具說服力的例證:高靈巧物理智能幾乎不依賴語言——猿類。

      我見過猿類駕駛高爾夫球車,用螺絲刀更換剎車片,動作就像人類機械師一樣。

      它們的語言理解能力不超過BERT或GPT-1,但它們的物理技能遠遠超過我們當前最先進的機器人。

      猿類可能沒有優秀的語言模型,但它們顯然擁有對“如果……會怎樣”的穩健心理表征:即對物理世界如何運作、以及在其干預下會如何反應的理解。

      世界建模的時代已經到來。

      這是帶著苦澀教訓的時代。正如Jitendra常提醒我們這些“擴展成癮者”:

      • 監督是AI研究者的鴉片。

      YouTube的海量視頻和智能眼鏡的興起,將以遠超文本訓練規模的原始視覺流捕捉世界。

      我們將看到一種新的預訓練形式:下一個世界狀態將不只包含RGB——3D空間運動、本體感覺和觸覺感知才剛剛開始。

      我們將看到一種新的推理形式:在視覺空間中的思維鏈,而不是語言空間中的思維鏈。

      你可以通過模擬幾何關系和接觸來解決物理謎題,想象物體如何移動和碰撞,而無需將其翻譯成字符串。語言是一種瓶頸,是一種腳手架,而不是基礎。

      我們將面臨一系列新的潘多拉盒問題:即便未來模擬完美,動作該如何解碼?

      像素重建真的是最優目標,還是應該進入其他潛在空間?需要多少機器人數據?遠程操作的擴展是否仍然可行?

      完成這些之后,我們是否終于迎來機器人領域的GPT-3時刻?

      Ilya 說得沒錯:AGI尚未收斂。我們又回到了研究時代,而沒有什么比挑戰第一性原理更讓人興奮的了。

      世界模型作為新的范式

      總體來看,這篇新文章可以被看作是Jim Fan在2025年機器人年終總結中第三點的延伸與展開。

      當時,他提出:基于VLM的路線,本質上主要服務于語言和知識,而不是物理世界本身



      那時,他已經把問題說得很直白:

      VLM的參數主要面向語言和知識,而非物理世界。

      視覺編碼器在訓練中會主動丟棄細節,但機器人操作恰恰依賴這些細節。

      因此,VLA并不會隨著VLM的scale自然增強。

      而最近這篇關于world modeling(世界建模) 的長文,則可以看作是Jim Fan對這一判斷的系統性展開與進一步思考。

      對于他的觀點,業內大佬和網友也紛紛表達了看法。

      來自Google DeepMind的Genie 3聯合負責人、世界模型團隊負責人Jack Parker-Holder也在轉發分享了他對世界模型應用場景的理解:

      • 世界模型本身就是一類全新的基礎模型。它們既服務于交互式媒體(視頻模型),也服務于具身AGI。世界模型是連接虛擬與物理兩個領域的橋梁,其真正價值在于跨任務、跨領域的泛化能力。



      換句話說,就像LLM作為基座模型既能編程又能解數學題一樣,放到世界模型上,視頻生成與具身操控也可以兼容

      而谷歌、英偉達等玩家,也都在虛擬游戲、視頻以及物理機器人領域同步布局。

      不過,前英偉達機器人研究主管Arsalan Mousavian也提醒:

      • 對于大型世界模型(LWM)來說,這是一個非常棒的愿景,但從像素到物理的躍遷仍然很陡峭。



      要讓世界模型成為可靠的動作生成骨干,還必須解決以下問題:

      • 幾何一致性:確保運動學和物體恒常性在物理上成立。
      • 同一性保持:避免跨實體的幻覺預測,例如機器人A在預測過程中突然變成機器人B。
      • 推理速度:降低實時循環延遲。大型世界模型計算量大、延遲高,而機器人需要高頻率響應。
      • 動作采樣:世界模型可以預測結果,但我們仍然需要對動作進行采樣。

      在數據量和計算需求上,這一目標將使當前的動作策略擴展(action-policy scaling)顯得相對溫和。

      此外,jim fan提到的視覺推理也引發廣泛討論:

      • 推理不一定非得依賴語言——視覺模擬(幾何、接觸、運動)本身就能構成推理過程。



      • 機器人正是視覺為中心的基礎模型大顯身手的完美舞臺。2026將是多模態、多輪交互代理(機器人/CUA)之年,而這一場比賽的勝者,必然會在游戲中更加重視視覺模態。



      • 猿猴的比喻非常貼切。我們太過癡迷語言,以至于忘記了靈巧的行動能力并不一定需要詞匯量。2026年或許是機器人技術最終停止依賴語言模型,轉而構建原生系統的一年。



      而除開英偉達、谷歌等巨頭在世界模型技術路線的押注外,商業層面也在快速推進——

      一周前,李飛飛創辦的World Labs正以約50億美元估值進行新一輪融資,規模最高可達5億美元。

      LeCun前段時間創辦AMI Labs(Advanced Machine Intelligence,AMI)也吸引了包括Cathay Innovation在內的潛在投資者,傳聞其融資估值可能達到35億美元。

      參考鏈接:https://x.com/DrJimFan/status/2018754323141054786

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一個拉鏈,短短7秒的畫面,竟然值100萬美元?

      一個拉鏈,短短7秒的畫面,竟然值100萬美元?

      眼界看視野
      2026-02-20 15:26:33
      超越國界!蘇翊鳴激動擁抱日本女選手,感恩日本教練培養

      超越國界!蘇翊鳴激動擁抱日本女選手,感恩日本教練培養

      米修體育
      2026-02-20 16:12:13
      整容成癮、拋妻娶粉?“消失”的宋小寶,終究為曾經的荒唐買了單

      整容成癮、拋妻娶粉?“消失”的宋小寶,終究為曾經的荒唐買了單

      啟迪你的思維
      2026-02-02 20:56:29
      父親葬禮收了近4萬份子錢!山東網友哭訴,沒有一個是因自己來的

      父親葬禮收了近4萬份子錢!山東網友哭訴,沒有一個是因自己來的

      火山詩話
      2026-02-21 11:45:52
      萊奧:伊布曾因輸掉訓練賽,拒絕同隊的青年球員再次參加合練

      萊奧:伊布曾因輸掉訓練賽,拒絕同隊的青年球員再次參加合練

      懂球帝
      2026-02-21 16:31:05
      今晚吉林省有大范圍降雪!局部有大到暴雪!

      今晚吉林省有大范圍降雪!局部有大到暴雪!

      吉刻新聞
      2026-02-21 16:09:21
      五五分流為什么分不下去了?背后的真相

      五五分流為什么分不下去了?背后的真相

      楓冷慕詩
      2026-01-24 13:09:19
      “這種兒子,直接用鋼筋揍!”家長曬農村兒子現狀,網友忍無可忍

      “這種兒子,直接用鋼筋揍!”家長曬農村兒子現狀,網友忍無可忍

      妍妍教育日記
      2026-01-08 20:37:01
      金價一夜大反轉!2月20日全國金店最新價出爐,入手的最佳時機?

      金價一夜大反轉!2月20日全國金店最新價出爐,入手的最佳時機?

      奇思妙想生活家
      2026-02-20 21:34:24
      揭秘《飛馳人生3》斷層領先原因:這就是韓寒價值觀的勝利

      揭秘《飛馳人生3》斷層領先原因:這就是韓寒價值觀的勝利

      人格志
      2026-02-18 20:52:58
      煙酒不離身卻拿下59塊金牌,23歲選擇退役,今63歲仍為國家做貢獻

      煙酒不離身卻拿下59塊金牌,23歲選擇退役,今63歲仍為國家做貢獻

      寒士之言本尊
      2025-12-24 12:26:45
      很多人低估了一萬塊的威力

      很多人低估了一萬塊的威力

      洞見
      2026-01-12 20:34:37
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      黃曉明公開回應“在澳門輸掉十幾億”:是AI生成的虛假內容

      黃曉明公開回應“在澳門輸掉十幾億”:是AI生成的虛假內容

      大象新聞
      2026-02-21 15:28:04
      你是否也經常往馬桶里倒水?這樣做看似環保,實則危險重重

      你是否也經常往馬桶里倒水?這樣做看似環保,實則危險重重

      爆炸營養彭鑫蕊
      2026-02-20 16:07:19
      劉衛東“受賄數額特別巨大”是怎么回事?

      劉衛東“受賄數額特別巨大”是怎么回事?

      雪中風車
      2026-02-20 22:18:22
      研究顯示:“獵鷹9”火箭解體致高空大氣鋰原子濃度飆升10倍

      研究顯示:“獵鷹9”火箭解體致高空大氣鋰原子濃度飆升10倍

      界面新聞
      2026-02-20 16:34:02
      14億人“生死”交給外資?若自來水和食鹽被控制,后果有多嚴重?

      14億人“生死”交給外資?若自來水和食鹽被控制,后果有多嚴重?

      云景侃記
      2026-02-04 22:34:38
      2023年,985女碩士王懿在東京活活餓死,父母拒絕為其收尸

      2023年,985女碩士王懿在東京活活餓死,父母拒絕為其收尸

      談史論天地
      2026-02-18 17:45:40
      李亞鵬前妻帶娃回村過年,山里蓋三層小樓,院子大到能遛彎

      李亞鵬前妻帶娃回村過年,山里蓋三層小樓,院子大到能遛彎

      松林侃世界
      2026-02-20 20:37:08
      2026-02-21 17:16:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12186文章數 176389關注度
      往期回顧 全部

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      頭條要聞

      在貝加爾湖遇難的3名中國游客身份已確認:系一家人

      體育要聞

      冬奧第一"海王"?一人和13國選手都有關系

      娛樂要聞

      鏢人反超驚蟄無聲拿下單日票房第二!

      財經要聞

      一覺醒來,世界大變,特朗普改新打法了

      汽車要聞

      比亞迪的“顏值擔當”來了 方程豹首款轎車路跑信息曝光

      態度原創

      親子
      游戲
      旅游
      手機
      公開課

      親子要聞

      放寒假別老催著孩子寫作業了,跳繩機會來了!

      萬幸中的不幸!男子情人節收到游戲 但沒有光盤!

      旅游要聞

      海鷗翩躚賀新歲 來青島開啟海上歡樂新春之旅

      手機要聞

      vivo產品線結構分析,走量最大的是這個檔次

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版