
![]()
11月26日,World Labs 聯合創始人、斯坦福大學以人為本HAI院長李飛飛與 World Labs 聯合創始人 Justin Johnson 接受了海外播客 Latent Space 的專訪。本次對話全面探討了 World Labs 的成立契機、從“識別”到“生成”的技術演進、世界模型的“AlexNet時刻”、學術界在“算力霸權”時代的定位重構、視覺與語言的本質差異、空間智能的生物學起源,以及 Transformer 架構等話題內容。
李飛飛與 Justin Johnson 首先回顧了深度學習的發展脈絡。Justin 指出,深度學習的歷史本質上就是算力擴展的歷史,從 AlexNet 至今,單卡性能提升千倍,集群規模擴大百萬倍,這為將 AI 從數據中心帶入 3D 物理世界提供了必要的“AlexNet 時刻”。針對學術界與工業界的張力,兩人一致認為,學術界不應卷入“訓練最大模型”的競賽,因為那是工業界的主場;相反,學術界應回歸探索那些當前看起來“古怪”的基礎科學想法,例如設想適應未來十到二十年后非 GPU 硬件的全新神經網絡架構,以及填補大模型理論基礎的空白。
針對技術路線的演進,Justin 提出了“像素至上論”,認為像素是對物理世界更無損、更通用的表征,而語言本質上是經過高度抽象的“有損壓縮”,將文本渲染成圖像再喂給模型可能是一種效率低下的路徑。李飛飛則指出“空間智能”經過了 5.4 億年的進化優化,是人類文明的基石,而語言僅有 50 萬年歷史,兩者是互補而非替代關系。
在談及 AI 是否“理解”世界時,雙方認為目前的模型表現出的是一種不同于人類的“外星智能”,它們通過海量數據擬合模式,但尚未真正掌握因果物理定律,單純的潛空間建模未必能自動涌現出物理法則。
關于 World Labs 的首款產品 Marble,李飛飛強調其核心在于構建一個可交互、可編輯的 3D 世界,而非簡單的視頻生成,這將填補具身智能訓練中“合成數據”的巨大缺口。Justin指出,Transformer 本質上不是序列模型,而是基于集合論的“集合模型”,位置編碼是唯一注入順序信息的機制,這一特性使其天然適合處理多模態的 3D 空間數據。兩人認為,未來的世界模型將不再局限于單一模態,而是走向視覺、物理與語言的深度融合。
01
從 ImageNet 到空間智能的自然演進
大家對世界模型非常有興趣,你們也圍繞空間智能等話題做了一些宣傳。我想這個故事中你們難得有機會講述的部分也許是:你們兩位是如何走到一起并創立 World Labs 的?
李飛飛:這很簡單,因為 Justin 是我以前的學生。Justin 來到了我的實驗室,我的另一個身份是斯坦福大學計算機科學教授,Justin 是什么時候加入我實驗室的?
Justin Johnson:2012 年。實際上,我加入你實驗室的那個季度正是 AlexNet 發布的那個季度。
李飛飛:Justin 是我最優秀的學生之一,隨后他在密歇根大學安娜堡分校和 Meta 開啟了非常成功的早期職業生涯,成為了一名教授。然后肯定是在兩年多前,我想我們兩人都獨立地關注著大模型的發展,并思考語言模型之后會是什么。這種構建世界模型、空間智能的想法對我們來說真的很自然。所以我們開始交流,并決定我們應該孤注一擲,專注于解決這個問題,于是共同創立了 World Labs。
Justin Johnson:是的,基本就是這樣。在讀博期間目睹了 ImageNet 時代后,我有種感覺,計算機視覺的下一個十年將致力于把 AI 帶出數據中心并帶入現實世界。所以我博士畢業后的很多興趣轉移到了 3D 視覺,多了一點計算機圖形學,也多了一點生成式建模。我當時以為在博士畢業后我和導師的關系會逐漸疏遠,但當我們幾年后重聚時,發現她在思考非常相似的事情。
如果回顧 AlexNet,它的核心顯然是 ImageNet,那是向 GPU 和神經網絡的轉變。你如何看待世界模型領域的“AlexNet 時刻”?在數據、不同類型的算法或計算方法方面,你想要構建哪些基礎要素來讓世界模型真正成為現實?
Justin Johnson:我認為一點是通常有更多的數據和算力可用。我認為深度學習的整個歷史,在某種意義上就是算力擴展的歷史。如果你回想 AlexNet,它需要從 CPU 到 GPU 的跨越,但即使是從 AlexNet 到今天,我們在單張顯卡上獲得的性能也是 AlexNet 時代的約一千倍。現在訓練模型不僅常見于在一個 GPU 上,而是在數百、數千、數萬甚至更多 GPU 上。所以我們今天能在一個單一模型上調度的計算量,是我們(即使在我博士剛開始時)能擁有的約一百萬倍。語言模型是過去幾年開始運作得很好的真正有趣的事情之一,但當我們考慮轉向視覺數據、空間數據和世界數據時,你需要處理的數據量要大得多。我認為這將是一個很好的方式來充分利用這些越來越多上線的新增算力。
這種舉辦公開挑戰賽的模式還有效嗎?還是說研發應該集中在實驗室內部進行?這僅僅是資金和商業模式的問題嗎?比如你必須從中看到一些投資回報率?現在涉及到這么多資金,以及它給學術界和開放研究領域帶來的壓力是一個問題嗎?還是說你覺得那真的不必過慮?
李飛飛:我認為開放科學仍然很重要。顯然,現在的 AI 與 ImageNet/AlexNet 時代相比已經真正進化了。那時候它只是一個如此小眾的計算機科學學科,現在它已是文明變革級的技術。但我會給你一個例子,最近我的斯坦福實驗室剛剛宣布了一個名為 BEHAVIOR 的開放數據集和基準,這是為了在模擬環境中對機器人學習進行基準測試。那是一個非常明確的努力,旨在繼續保持這種(特別是在學術界)做研究的開放科學模式。
(關于生態系統)但我認為認識到生態系統是一個混合體很重要。我認為很多在工業界非常專注的工作,其中一些更多是以產品的形式面世,而不是作為一個公開挑戰賽本身。
(關于商業模式)我認為這只是生態系統多樣性的問題。即使在所謂的 AlexNet/ImageNet 時代,也有封閉模型,有專有模型,也有開放模型。或者你看看 iOS 對比 Android,有不同的商業模式。我不會說這僅僅是資金本身的問題,這只是市場原本的形態。有不同的玩法。
(關于資源配置)我確實有顧慮,倒不是關于壓力,更多是關于資源配置以及學術界資源配置的不平衡。這與 World Labs 的話題稍有不同。作為斯坦福以人為本人工智能研究院(Stanford HAI)的創始院長和聯席院長,我一直在與政策制定者合作,討論公共部門和學術界 AI 工作的資源配置問題。我們與第一屆特朗普政府和拜登政府在《國家人工智能研究資源法案》(NAIRR)上進行了合作,該法案正在規劃一個國家級的 AI 計算云以及數據存儲庫。我也認為開源、開放數據集繼續是生態系統的重要部分。就像我說的,現在在我的斯坦福實驗室,我們正在做一個關于機器人學習的開放數據集和基準測試叫 BEHAVIOR,我的許多同事仍然在做這類工作。我認為那是生態系統的一部分。我認為工業界正在做的事情——一些初創公司正在利用模型快速奔跑創造產品——也是一件好事。
如果設身處地為你著想,你擁有為此準備的最好的數據集,你真的有什么動力去發布它?感覺實驗室里的人正越來越早地被從博士項目中拉進這些實驗室。回到學術界和工業界的選擇問題,是什么動力讓你如此感興趣?
Justin Johnson:我在本科期間實際上跟隨 Fei-Fei 的博士導師做了一些計算機視覺研究。所以這里有一種師承關系。所以我甚至作為一個本科生也做了一些計算機視覺研究,我認為它真的很酷,我想繼續做。隨后我面臨著這種工業界與學術界的選擇——即使是本科畢業出來——我認為研究社區的很多人現在正面臨著這個問題。但回到你的問題,我認為學術界的角色,特別是在 AI 領域,在過去十年已經發生了相當大的轉變。這并不是一件壞事。這是一種因為技術已經成長和涌現而產生的感覺。
(關于學術界定位)五年或十年前,你真的可以在實驗室訓練最先進的模型,即使只有幾個 GPU。但因為那項技術如此成功并擴展了這么大的規模,你再也不能只用幾個 GPU 訓練最先進的模型了。那不是一件壞事,這是一件好事。這意味著技術實際上起作用了。但這意味圍繞我們作為學者應該做什么的期望稍微轉變了一點。它不應該是關于試圖訓練最大的模型和擴展最大的東西。它應該是關于嘗試古怪的想法、新的想法和瘋狂的想法,其中大多數可能不會成功。我認為那里有很多事可做。
(關于研究顧慮)如果說有什么顧慮的話,我擔心學術界有太多人過度專注于這種試圖假裝我們可以訓練最大模型的概念,或者是把它幾乎當作一個職業培訓項目,以便畢業后去一個大實驗室并能夠玩轉所有的 GPU。我認為圍繞新算法、新架構、新系統有太多瘋狂的東西你可以做,作為一個個體你可以做很多。
李飛飛:而且學術界在理解這些大模型的理論基礎方面也有角色要扮演。我們對這個仍然知之甚少。或者擴展到跨學科,有很多基礎科學想法,有很多藍天探索式問題。所以我同意,我不認為問題是開放對封閉,產品化對開源。我認為現在的問題是學術界本身嚴重資源不足,導致研究人員和學生沒有足夠的資源來嘗試這些想法。
02
為未來十年的硬件設計截然不同的架構
當你談論“古怪的想法”時,腦海中浮現的一個例子是什么?真的很難下那些賭注,因為也有“硬件彩票”的概念。假設 Nvidia 贏了,我們應該只是無限擴展它,并編寫軟件來修補我們在組合中遇到的任何差距嗎?
Justin Johnson:比如,我有這個一直向我在密歇根的學生推銷的想法,就是我真的很喜歡硬件,我真的很喜歡新種類的硬件上線。在某種意義上,我們今天使用的神經網絡和 Transformer 的出現真的是基于矩陣乘法,因為矩陣乘法非常適合 GPU。但如果我們思考硬件在未來可能如何擴展,我不認為我們擁有的當前系統,像 GPU 硬件設計,將會無限擴展。我們甚至現在已經開始看到,計算的單位不再是單一設備,而是這整個設備集群。
(關于分布式原語)所以如果你想象硬件擴展出去,是否有其他對大規模分布式系統更有意義的原語,可以讓我們在其上建立神經網絡?我認為有可能出現截然不同的架構,以適應下一代或未來十或二十年將要到來的硬件。我們今天就可以開始設想那個未來。
(關于摩爾定律極限)我意思是,是也不是。但如果你看數字,即使從 Hopper 到 Blackwell,每瓦性能大約是一樣的。他們主要是讓晶體管數量增加,讓芯片尺寸增加,讓功耗增加。但即使從 Hopper 到 Blackwell,我們在可以獲得的每瓦性能方面已經有點看到了擴展限制。所以我認為有空間做一些新的東西。我不知道它確切是什么,而且我不認為你作為一個初創公司可以在三個月的周期內完成它,但我認為那是那種長期范圍的東西,是學術界的完美匹配。
03
圖像描述的起源與早期生成式探索
回到一點背景和歷史,我們看到了這份關于“場景敘事”工作的研究筆記,或者叫神經圖像字幕,是你和 Andrej Karpathy 做的工作。我只是想聽你們講講那個故事,關于你如何在博士期間著手做那個,以及 Fei-Fei,你當時的反應。
李飛飛:是的,所以我認為那行工作開始于我和 Andrej 之間,然后 Justin 加入了。Andrej 開始讀博時,他和我在看 ImageNet 物體識別之后是什么。在那時,卷積神經網絡(ConvNet)已經在 ImageNet 任務中證明了一些威力,所以 ConvNet 是表征圖像的一種好方法。與此同時,我認為在語言領域,一個早期的順序模型叫 LSTM 也在被實驗。所以 Andrej 和我只是在談論...這一直是我的一個長期夢想。我以為需要一百年才能解決,就是講述圖像的故事。當我博士畢業時,我真的以為我余下的整個職業生涯都將致力于解決那單一的問題,就是:給定一張圖片或給定一個場景,用自然語言講述故事。
(關于早期突破)但事情發展得太快了。當 Andrej 開始時,我們想,也許結合卷積神經網絡的表征以及 LSTM 的語言順序模型,我們也許能夠通過訓練來將字幕與圖像進行匹配。所以那是我們開始那行工作的時候。我想那是 2014 年或 2015 年?
Justin Johnson:字幕論文是在 CVPR 2015 發表的。
李飛飛:對。所以那是我們的第一篇論文,Andrej 讓它工作了,也就是,給定一個圖像,圖像用 ConvNet 表征,語言模型是 LSTM 模型,然后我們將它結合,它能夠生成一個句子。那是首批成果之一。我想我在我的書里寫了它。我們以為我們是第一批做這件事的人。結果發現 Google 那個時候也在同步做這件事,還有一個記者,是《紐約時報》的 John Markoff,正在報道 Google 的故事,但他偶然聽說了我們。然后他意識到我們真的是獨立地在同一時間到達了那里。所以他寫了關于 Google 研究以及 Andrej 和我的研究的故事。但在那之后,我想 Justin 那時已經在實驗室里了。
Justin Johnson:是的。我記得那個小組會議,Andrej 正在展示一些那些結果并解釋這個叫做 LSTM 和 RNN 的新東西,我以前從未聽說過。我想,“哇,這真是令人驚嘆的東西。我想做那個。”所以然后他在 CVPR 2015 上發表了關于第一批圖像字幕結果的論文。然后在那之后我們開始一起工作,我們做了一個第一...我們實際上只是做了一篇關于語言建模的論文,我和 Andrej,回到 ICLR 2015。
李飛飛:是的,我應該堅持做語言建模的。回想起來那結果是相當有利可圖的!
Justin Johnson:但我們一起做了這篇語言建模論文,我和 Andrej,在 2015 年,那里真的很酷。我們訓練了這些小的 RNN 語言模型,可以一次吐出幾個句子,并戳戳它們,試圖理解神經網絡內部的神經元在做什么。
李飛飛:記得你們當時正在分析 LSTM 內部不同的記憶單元。
Justin Johnson:沒錯,真的很難酷。即使在那個時候,我們就已經得出了一些結果,可以深入 LSTM 內部觀察,發現它“正在閱讀代碼”。我們訓練用的數據集之一是 Linux 源代碼,因為它是開源的,可以直接下載。我們在該數據集上訓練了一個 RNN,當網絡嘗試預測接下來的 Token 時,我們試圖將它的預測類型與 RNN 內部的結構對應起來。我們發現了一些相關性,比如當遇到左括號時,LSTM 這一層的某個單元會被激活,而遇到右括號時則會關閉。我們嘗試通過這類實證研究來搞清楚它的原理。這確實很酷,基本上是將 CNN 從語言建模部分剝離出來,孤立地研究語言模型。
04
從單一圖像到密集描述的實時流傳輸演示
后來你們是如何擴展圖像描述工作的?我記得還有關于密集描述的系統,這是一個非常復雜的神經網絡架構。它是通過一次前向傳播完成的嗎?我還聽說你做了一個瘋狂的實時演示,當時的延遲是不是很嚴重?
李飛飛:后來我們想擴展圖像描述的工作。我記得當時我們甚至有一種空間感上的缺失,感覺原本的描述并沒有捕捉到圖像的不同部分。所以我當時跟 Justin 和 Andrej 討論,能不能做我們后來稱之為“密集描述”的項目,也就是更詳細地描述場景,特別是場景的不同部分。
Justin Johnson:是的。第二年,也就是 2016 年的 CVPR,我和 Andrej 以及 Fei-Fei 合作發表了一篇論文,構建了這個進行密集描述的系統。輸入一張圖像,它會在所有感興趣的目標周圍畫框,并針對每一個目標寫一段簡短的描述。比如“這是一個桌上的綠色水瓶”或“這是一個穿著黑色襯衫的人”。這是一個非常復雜的神經網絡,因為它建立在當時目標檢測領域取得的許多進展之上,而目標檢測長期以來一直是計算機視覺的主要課題。它實際上是一個聯合神經網絡,既學習觀察單張圖像,網絡內部又有三種不同的表示。一種是整張圖像的表示,用來獲取整體全貌。然后它會提出想要關注的獨立區域,并獨立地表示每個區域。一旦關注了某個區域,就需要為該區域輸出文本。這是一個相當復雜的神經網絡架構,而且是在 PyTorch 出現之前的時代。
(關于推理優化)對,一次前向傳播就完成了所有工作。
李飛飛:不僅是一次完成,你還優化了推理,我記得你是在網絡攝像頭上運行它的。
Justin Johnson:是的,我做了一個瘋狂的實時演示。我在 Stanford 的服務器上運行網絡,前端網頁從網絡攝像頭流式傳輸視頻,將圖像發回服務器。服務器運行模型后再將預測結果回傳。當時我就拿著筆記本電腦在實驗室里走來走去,給人們展示這個實時運行的網絡。
李飛飛:這非常令人印象深刻,因為我的大多數研究生如果能發表論文就滿足了。他們通常把研究打包寫進論文里,但 Justin 更進一步,他說想做這個實時的網頁演示。
Justin Johnson:其實還有個故事,那年我們在圣地亞哥參加 ICCV '15 會議。我在那個會議上有一篇關于其他內容的論文,但我帶著筆記本電腦在會議現場走來走去,向每個人展示這個實時描述的演示。模型其實是在 California 的服務器上運行的,所以數據實際上是跨越了從 California 到圣地亞哥的距離進行流式傳輸。
(關于延遲)非常嚴重,大概只有 1 FPS。但它居然能運行,這本身就挺驚人的。
05
像素是比語言更無損、更通用的物理世界表征
也許視覺和語言建模并沒有那么大的不同。DeepSeek-VL 最近嘗試了一個瘋狂的想法,即從像素對文本進行建模,直接在像素上訓練。這可能是未來,我不知道你們對于“語言是否真的完全必要”有什么看法。我們是應該堅持語言模型,還是說“像素至上論”有其道理?
李飛飛:我剛寫了一整篇關于空間智能的宣言。我認為它們是不同的。我確實認為這些生成式模型的架構會共享很多組件,但我認為深度的 3D、4D 空間世界擁有某種結構層級,這與一維的純生成信號有著根本的不同。
Justin Johnson:我認為“像素至上論”是有一定道理的。有一種觀點認為語言是某種不同的東西,但我們是用眼睛看語言的,而我們的眼睛本質上就是在處理像素。我們眼球后方有某種生物像素在處理這些信息。我們看到文本,將其視為離散的東西,但這真的只存在于我們的思維中。文本和語言在現實世界中的物理表現是印在物體上的物理對象,我們要用眼睛去通過視覺捕捉它。
(關于信息丟失)沒錯。如果你將其轉化為我們在大語言模型中使用的那些純粹 Token 化的表示,實際上就丟失了一些信息。你丟失了字體、換行符、頁面上的 2D 排版。在很多情況下也許這并不重要,但對于某些事情這很重要。我認為像素是對世界上正在發生的事情的一種更無損的表示,在某些方面也是一種更通用的表示,更符合我們人類在探索世界時所看到的。所以這里有一個效率的論點:也許把文本渲染成圖像然后喂給視覺模型并不是超級高效。
06
世界模型的歸納偏置與物理規律
這與整個世界模型有關。我今年看到的最喜歡的論文之一是關于探測世界模型的歸納偏置。所以,你怎么思考嵌入在數據中的內容?我們可以討論 3D 世界模型的 Token 化。比如信息的維度是什么?有視覺維度,但你需要從數據中提取多少潛在的隱藏力?是顯式地測量所有的力喂給模型,還是寄希望于某種東西能更潛在地涌現?
Justin Johnson:這正是 DeepSeek 所做的,而且似乎還挺管用的。但關于歸納偏置,那是 Harvard 的一篇論文,他們將很多軌道模式輸入到一個大語言模型中,然后要求它預測行星繞太陽的軌道。它生成的模型看起來不錯,但如果你讓它畫出力矢量,結果就會非常離譜,實際上并不遵循物理規律。所以,這其中的挑戰是什么?
(關于兩種范式)我認為可以用不同的方式來處理這個問題。一種是顯式地處理,比如測量所有的力,并將這些作為訓練數據喂給模型。你可以運行一個傳統的物理模擬,獲知場景中所有的力,然后用這些作為訓練數據來訓練一個模型,希望它能預測這些力。或者你可以寄希望于某種東西能更潛在地涌現,即你在某種端到端的任務上訓練,解決一個更通用的問題,然后希望模型內部的某處必須學會建模像物理學這樣的東西,以便做出正確的預測。這是我們目前普遍存在的兩大范式。
李飛飛:但是沒有跡象表明那些潛在建模會帶你找到空間和動力學的因果定律。這就是今天的深度學習和人類智能實際上開始分叉的地方,因為從根本上說,深度學習仍然是在擬合模式。
07
AI是否真的“理解”世界
這就有點上升到哲學層面了。你會說我們人類也在試圖擬合模式,但那篇論文的模型學會了擬合軌道的特定模式,卻泛化失敗,沒有重力的因果模型。因為即使在 Marble 中,我在試用時發現它生成了美麗的風景,里面有拱門。但是模型真的理解拱門是如何依靠中心石支撐的,以及它的實際物理結構嗎?只要它總是渲染出符合我們想象的物理模型的東西,它是否理解真的重要嗎?最終會需要兩個不同的模型來分別做視覺生成和建筑生成嗎?
李飛飛:如果你用人類理解的方式使用“理解”這個詞,我相當確定模型并不理解。模型是在從數據中學習,從模式中學習。至于這是否重要,取決于具體用例。目前我不認為這重要,因為它渲染出了你想要的東西,假設效果是完美的。
Justin Johnson:這取決于用例。如果用例是想要為虛擬電影或制作生成某種背景,你需要的只是看起來合理的東西。在那種情況下,可能這并不重要。但如果你是一名建筑師,要用這個來設計一棟隨后要在現實世界中建造的建筑物,那么正確地建模力學確實很重要,因為你不想在實際建造時東西塌掉。
(關于理解的哲學)“理解”這個詞有個陷阱。這些模型是一種與人類智能截然不同的智能。人類智能很有趣,因為我認為我理解事物是因為我可以在某種程度上內省我自己的思維過程。我相信我的思維過程可能和其他人相似,所以當我觀察別人的行為時,我會推斷他們的內部心理狀態可能與我觀察到的自己的內部心理狀態相似,因此我知道我理解事物,所以我假設你也理解某些東西。但是這些模型就像某種外星形式的智能,它們可以做非常有趣的事情,展示非常有趣的行為。但無論它們擁有什么樣的內部認知或自我反思——如果存在的話——都與我們完全不同。
李飛飛:它沒有自我意識。
Justin Johnson:沒錯。所以這意味著當我們觀察到這些系統表現出看似有趣或智能的行為時,我們不能必然推斷出關于它們的其他事情,因為它們的世界模型和思考方式與我們截然不同。
(關于單一模型與涌現)我希望它是一個模型。但深度學習中的大問題在某種意義上是:你如何獲得超出訓練數據的涌現能力。你能得到某種具備理解力的東西嗎?即使它并沒有被訓練去預測力,但它會在內部隱式地學習它們?我認為我們在其他大語言模型中看到的情況是,這種涌現行為確實會在大規模下發生。這會轉移到其他模態、其他用例和其他任務上嗎?我希望如此,但這將是一個需要隨時間推移去驗證的過程。
李飛飛:我認為這是關于擴展數據和改進模型的問題。我不認為這兩者之間有什么根本性的隔閡。
08
Marble 產品揭秘與空間智能愿景
我們稍微談到了 Marble,你們選擇了它作為走出隱身模式的時刻。人們應該從中帶走什么信息?它與你們的愿景,以及與其他實驗室可能看到的其他生成式世界之間的差異是什么?我注意到一個非常有趣的工具,你可以在場景內部進行錄制。試用視頻生成模型時,我不得不學習導演的術語,但在 Marble 中似乎不同。
李飛飛:Marble 是我們窺見未來的第一眼,是這段旅程的起點。這是全球首個同類首創模型,能以如此高的保真度生成 3D 世界,并且已經面向公眾發布。這只是一個開始。我們寫了一篇技術博客,Justin 花了很多時間撰寫。不知道你們有沒有時間看。Justin 在文中詳細拆解了 Marble 支持哪些多模態輸入,支持哪些類型的可編輯性——即允許用戶與模型進行交互,以及我們可以得到什么樣的輸出。
(關于核心愿景)Marble 是對我們模型的一瞥。我們是一家空間智能模型公司,相信空間智能是下一個前沿。為了制造空間智能模型,模型必須在多模態世界的理解、推理和生成能力方面非常強大,并且允許的交互水平最終要像人類與世界交互一樣復雜。這就是空間智能的宏大愿景,以及我們要構建的那種世界模型。
(關于相機控制)沒錯,這非常重要。錄制能力意味著對相機機位的精確控制。要實現精確的相機控制,必須具備 3D 空間感。否則你就不知道如何調整相機的朝向或移動軌跡。這是這種模型自然衍生的結果,只是眾多例子之一。但即使那樣,你也不能指令說“向北平移 63 度”,你根本沒有那種控制力。而在 Marble 中,你對相機的放置擁有精確的控制權。
Justin Johnson:基本上,你可以把 Marble 看作是一個 3D 世界的生成式 AI 模型。你可以輸入文本、圖像或多張圖像,它會為你生成一個與輸入相匹配的 3D 世界。它也是交互式的,意味著你可以對場景進行實時編輯。比如我生成一個場景后,可以說:“我不喜歡這個水瓶,把它改成藍色。去掉桌子。調整麥克風的位置。”然后基于這些交互式編輯生成新的世界,并導出為各種格式。
(關于產品與科研的平衡)對于 Marble,我們試圖同時兼顧兩件事,我認為我們很好地實現了平衡。一方面是構建一個邁向“空間智能”宏偉愿景的模型。這種模型需要能夠理解多種類型的輸入,在多種情境下模擬世界,并推演世界隨時間變化的反事實情況。我們要開始構建具備這些能力的模型,而今天的 Marble 確實已經展現出了這些能力的雛形。但與此同時,我們是一家企業。我們不想讓這只停留在科研項目層面,而是要打造出對當今現實世界有用的產品。因此,雖然 Marble 是一個致力于空間智能愿景的世界模型,但我們在設計時也有意讓它成為人們當下就能使用的工具。我們已經看到游戲、視覺特效和電影領域涌現出的用例。我認為 Marble 作為一款產品在今天就能發揮很多作用,同時也為我們未來想要構建的宏大世界模型奠定了基礎。
09
技術路線解密:高斯潑濺與物理模擬
我認為這是人們首先需要理解的一點,它不是像許多其他模型那樣逐幀生成的。這里的基本單元是什么?是網格、潑濺還是體素?世界模型的根本數據結構是什么?另外,我還沒看到物理和力,如果有 Marble 2,會有運動機制嗎?是對高斯潑濺進行修改,還是完全不同的東西?潑濺密度的現狀如何?受限于生成數量還是渲染數量?
Justin Johnson:這要分“現狀”和“未來”。目前的模型原生輸出的是潑濺。高斯潑濺就像微小的半透明粒子,在 3D 空間中有位置和方向,場景就是由大量這種高斯潑濺構建起來的。高斯潑濺非常酷,因為可以高效地實時渲染。你可以在 iPhone 上渲染所有內容。這就是我們獲得精確相機控制的方式,因為潑濺可以在幾乎任何客戶端設備上實時渲染。所以對于今天生成的許多場景,基本單元就是單個潑濺。
(關于未來的架構)但我不認為這是根本性的。我可以想象未來會有其他有趣的方法。比如我們在 World Labs 內部研究過的 RTFM 模型,它確實是一次生成一幀,其基本單元就是隨著用戶交互逐幀生成的。或者未來的架構中,基本單元可能是一個 Token,代表 3D 世界的某個區塊。我認為隨著時間推移,我們可以嘗試許多不同的架構。
(關于物理引擎集成)我認為有幾種修改是合理的。在這個領域工作的美妙之處在于有很多集成方式。學術界已經有很多關于注入物理屬性的有趣研究。高斯潑濺本身是小粒子,已經有很多方法將物理屬性附加到潑濺上,比如設定質量,或者視為通過虛擬彈簧與鄰居耦合。這樣就可以在潑濺之上做物理模擬了。為這些增加物理、動力學或交互性的一種途徑是,預測每個潑濺粒子的物理屬性,然后利用經典物理學或學習算法進行下游模擬。或者,利用 3D 的可組合性在不同環節注入邏輯。比如我們生成 3D 場景,預測物體的 3D 屬性,再用經典物理引擎模擬交互。另一種方式是,作為用戶動作的結果,模型以潑濺或其他形式重新生成整個場景。這可能更通用,因為不受限于已知的物理建模方式,但計算要求更高。這是未來工作的一個有趣領域,正如你所說,可以添加到潛在的 Marble 2 中。
(關于渲染限制)會有一些限制,取決于目標用例。我們的一大限制條件是希望內容能在移動設備和 VR 頭顯中清晰渲染,這些設備的算力較弱。如果你想在四年前的 iPhone 上以 30 到 60 FPS 的高幀率渲染高分辨率潑濺文件,處理數量確實受限。但如果使用今年的 iPhone、最新的 MacBook 或本地 GPU,或者不需要 60 FPS 1080p 的流暢度,就可以放寬限制,使用更多潑濺,獲得更高分辨率。
李飛飛:這里也存在動力學的機會。
10
合成數據是解決機器人“數據饑渴”的關鍵
我原本期待但沒聽到的一個用例是具身智能。你們現在只專注于虛擬領域嗎?也許需要先解決虛擬世界,再轉向具身領域。這本身就是一大步。我剛裝修了車庫,早該知道這個的。我想廚房是下一個。
李飛飛:如果你去 World Labs 主頁的 Marble Labs 頁面,會看到我們展示了不同的用例,包括視覺效果、游戲以及模擬用例。我們確實展示了這是一項可以在機器人訓練中提供巨大幫助的技術。這回到了我之前談到的數據匱乏問題。機器人訓練非常缺乏數據,高保真的現實世界數據至關重要但難以獲取。另一個極端是純粹的互聯網視頻數據,但那樣缺乏訓練具身智能體所需的可控性。所以模擬和合成數據實際上是一個非常重要的中間地帶。我在這個領域工作多年,最大的痛點之一就是獲取合成模擬數據。你需要策劃資產、構建場景、組合復雜情況。在機器人學中,你需要很多不同的狀態,讓具身智能體在合成環境中交互。Marble 非常有潛力幫助生成這些用于訓練的合成模擬世界。
(關于應用領域)這還有待決定。我確實認為……
Justin Johnson:因為其他人都在直接進軍那個領域,對吧?
李飛飛:也不完全是,但我會說那里很熱門。不過世界足夠大,容得下不同的方法。我們有早期測試版用戶已經在使用 API 針對室內設計用例進行開發了。下次裝修時我們可以幫忙。
Justin Johnson:我們一直將其視為一種相當橫向的技術,隨著時間推移應該能觸及許多行業。Marble 目前可能更側重于創意行業,但驅動它的技術適用于許多事物。機器人學的應用可能會比預期來得更早。我在網上開了個玩笑,在 Slack 上發視頻說:“誰想用 Marble 來規劃下一次廚房改造?”它在實際用途上效果很好。只要拍兩張廚房照片,在 Marble 中重建,然后使用編輯功能看看更換臺面、地板或櫥柜后的效果。即使我們沒有專門為此構建功能,但作為強大的橫向技術,模型自然會衍生出這些用例。
11
5.4 億年的進化 vs 50 萬年的語言
我對整個空間智能領域很好奇,首先你如何定義它?它與人們認為 LLM 代表的傳統智能之間有何差距?比如 Dario 說我們有一個“充滿愛因斯坦的數據中心”,那像傳統智能而非空間智能。要具備空間智能需要什么?我們是生來就會的嗎?
李飛飛:首先我不理解“一個充滿愛因斯坦的數據中心”這個比喻。AI 作為一個學科是受人類智能啟發的。人類是已知宇宙中最聰明的動物。觀察人類智能,它是非常多元的。心理學家 Howard Gardner 在 20 世紀 60 年代提出了“多元智能”理論,包括語言智能、空間智能、邏輯智能和情感智能等。對我來說,空間智能是對語言智能的補充,而不是對立。我們將空間智能定義為在空間中推理、理解、移動和交互的能力。我常用 DNA 結構推導做例子。雖然簡化了故事,但這很大程度上涉及分子和化學鍵在 3D 空間中的空間推理,最終才推測出雙螺旋結構。這種能力很難簡化為純語言,卻是人類文明的巔峰時刻。
(關于不可言說性)但在日常生活中,比如我試圖抓起一個馬克杯。看到馬克杯及其環境,看到自己的手,張開手在幾何上匹配馬克杯并觸摸正確的功能可供性點(affordance points),整個過程都是深度的空間行為。這很難用語言敘述,而且敘述語言本身無法讓你拿起馬克杯。
(關于進化時間)作為一名視覺科學家,這很有趣。我總覺得視覺被低估了,因為它對人類來說太毫不費力了。你睜開眼睛,作為嬰兒就開始看世界,仿佛生來就會。確實,我們幾乎是與生俱來的,但你必須努力學習語言,包括學習寫作、語法和表達,這讓你感覺很困難。然而,大自然實際上花費了更多時間來優化的能力,即感知和空間智能,卻被人類低估了。出生時我們的視敏度較低,感知能力確實會隨著時間增強,但大多數人類生來就具備看的能力,也生來就具備將感知與運動聯系起來的能力。在大自然中,優化感知和空間智能花費了 5.4 億年,而語言——對語言發展的最慷慨估計大概也只有 50 萬年。
12
知識的蒸餾與物理定律的涌現
這讓我想起牛頓。我們使用語言來捕捉某些在經驗和空間上也能理解的東西,但用語言描述更便捷。我們需要多久才能從你們的世界模型中“蒸餾”出知識并融入語言模型?難道為了做到這一點,必須完全拋棄語言模型嗎?如果你有一個高精度的世界模型,但不給它任何關于我們目前物理學標準模型的概念,它能從頭重構出物理定律嗎?
Justin Johnson:我不認為需要拋棄。我覺得它們是多模態的。即使是我們現在的模型 Marble 也接受語言作為輸入。所以它是深度的多模態模型,在許多應用場景中,這些模型將協同工作。即使擁有了通用模型,還有一個務實的問題:人們使用語言,并且希望用語言與系統交互。
(關于重構物理學)這確實是個有趣的問題。實際上你甚至不需要做 AI 來回答這個問題。如果發現外星人,看看他們擁有什么樣的物理學就知道了。他們可能擁有一套完全不同的體系。我們對宇宙的知識和對物理學的理解,是否在某種程度上受到我們自身認知或技術進化路徑依賴的限制?如果給予足夠的天體運動數據,一個大語言模型實際上能預測出相當準確的運動軌跡,我也不會感到驚訝。假設我虛構了一個圍繞恒星的行星系統,給予足夠的數據,模型會告訴你第一天它在哪里,第二天它在哪里。這我不驚訝。但是 $F=ma$ 或者“作用力等于反作用力”,那完全是另一個抽象層級。這超出了今天大語言模型的能力范圍。
李飛飛:舉個例子,牛頓之所以能寫下那些定律,正是因為他在觀察物體下落的物理世界中,積累了大量的具身經驗。我想知道人們是否可以運行這樣一個實驗:我們現在有大量關于行星或天體運動的天體物理數據。只要把這些數據輸入到一個模型中,看看牛頓定律是否會涌現。我猜不會。牛頓定律的抽象層級與這些大語言模型所代表的層級不同。心理理論可能還會涉及到情商,這是今天的 AI 真的完全沒有觸及的領域。
13
Transformer 架構的本質
我必須問一個很多人發給我們的問題:我們需要拋棄多少東西?序列到序列建模過時了嗎?注意力機制過時了嗎?我們是在質疑一切嗎?
李飛飛:我認為在世界模型中,我們將看到超越序列到序列的算法或架構。
Justin Johnson:我認為應該堅持使用有效的東西。注意力機制依然重要。很多東西如果沒壞就不用修。世界上有很多難題要解決,讓我們一次專注于一個。不過這里我覺得有一點技術上的誤解。Transformer 實際上已經為我們解決了這個問題。Transformer 本質上并不是序列模型,它本質上是集合的模型。這非常強大。因為很多 Transformer 是從基于循環神經網絡的早期架構演變而來的,而 RNN 確實有內置的順序架構,它們確實是模擬一維序列的。但 Transformer 只是集合的模型,它們可以模擬很多東西,這些集合可以是一維序列,也可以是其他形式。
(關于技術細節)對,沒錯。所以 Transformer 實際上不是 Token 序列的模型,而是 Token 集合的模型。在標準 Transformer 架構中,唯一注入順序信息、區分事物順序的東西,是你給 Token 的位置嵌入。如果你選擇給它一種一維的位置嵌入,那是模型知道它是一維序列的唯一機制。在 Transformer 塊內發生的所有算子要么是 Token 級的,例如前饋網絡、QKV 投影、逐 Token 歸一化,所有這些都是每個 Token 獨立進行的。Token 之間的交互是通過注意力機制發生的,但這本身是置換等變的。也就是說,如果我打亂我的 Token 順序,注意力算子會以完全相同的方式輸出打亂后的結果。所以它本質上是一個處理 Token 集合的架構。
14
尋找具備“智力無畏”精神的伙伴
我知道時間不多了,但想給你們一些時間來呼吁行動,無論是對于那些想在 World Labs 工作的人,什么樣的人應該申請,或者除了 World Labs 之外人們應該做什么研究對你們有幫助?我們清楚地感覺到,你們在尋找的一樣特質是“智力上的無畏”,這是你們的一項原則。
李飛飛:我確實認為現在是一個非常激動人心的時刻,去超越大語言模型,思考空間智能的無限可能性。我們實際上非常渴望人才,范圍從非常資深的研究人員——思考像 Justin 剛才描述的那種訓練世界模型大模型的問題,到優秀的工程師——構建從訓練優化到推理再到產品的系統。我們也渴望優秀的商業人才、產品思想家和市場進入人才。特別是現在我們通過 Marble 向世界展示了模型,我認為我們有一個絕佳的機會與更大的人才庫合作,既解決模型問題,又向世界交付最好的產品。是的,我們真的是第一批既在模型方面又在產品方面嘗試這件事的人。
Justin Johnson:是的,我也很興奮人們能嘗試 Marble 并用它做很多很酷的事情。我認為它有很多非常棒的能力和功能,結合得非常完美。
李飛飛:確實如此。在來的車上,Justin 和我說人們還沒有完全發現,好吧才過了 24 小時,還沒有完全發現一些高級編輯模式。比如打開高級模式,你可以像 Justin 說的那樣改變瓶子的顏色,改變地板,改變樹木。你需要點擊“高級模式”。我們在 UI/UX 上還有改進空間,但記得點擊。
Justin Johnson:其實我試過這么做,但當它顯示“創建”時,它只是讓我創建了一個完全不同的世界,而不是在原有基礎上修改。是的,我們需要招聘人來做產品。
| 文章來源:數字開物
第二十屆中國IDC產業年度大典(IDCC2025)暨數字基礎設施科技展(DITExpo) 以“重塑算力 破界而生”為主題,將于2025年12月10-11日在北京首鋼國際會展中心1號館舉辦,將有超過12場主題平行論壇聯合舉辦。
萬卡集群怎么建?液冷如何用?算力出海現狀如何?算電怎樣協同?國產芯片如何破局?算力資產如何定價?綠電直連路徑在哪?聚焦IDCC2025以及15+場論壇直擊算力產業核心命題!
↓↓↓掃碼立即報名參會↓↓↓
![]()
? END?
【專欄】精品再讀
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.