網易首頁 > 網易號 > 正文申請入駐

一塊H100，實時生成一個永不消失的3D世界！李飛飛團隊發布RTFM

2025-10-17 07:56:54　來源: AI寒武紀

江蘇舉報

分享至

剛剛我在刷動態時，看到了李飛飛老師轉發的一篇她們實驗室的文章。標題是RTFM：實時框架模型。點進去之前，我以為這又會是一篇關于模型精度提升、參數量增加的常規技術發布，結果發現AI教母真不是白叫的

現在就可以在這里體驗RTFM：

https://rtfm.worldlabs.ai/

長久以來，構建一個實時、持久、交互的虛擬世界，面臨著一個近乎無解的難題：算力。

我們總以為，世界模型必然是用海量的GPU堆成的。文章里算了一筆賬，如果要實時生成一個4K、60幀的互動世界，對算力的消耗，相當于AI每秒鐘就要讀完一本《哈利波特》。這還僅僅是實時，如果要讓這個世界持久，你探索一小時后，所有東西都還在原位，那AI需要處理的記憶數據，將是一個天文數字

這樣以來，世界模型將會是未來很多年，只有少數巨頭才能參與的游戲

而RTFM給出的，卻是一個極其優雅的答案，它沒有去正面硬扛這個問題，而是繞了個彎，用一種更聰明的方式解決了它。李飛飛老師的答案是：在一塊H100上，實現這一切

這個選擇的背后，還是受到了sutton 老爺子的“苦澀的教訓”的影響：我們是真的被硬件卡住了，還是我們的方法本身就不夠經濟？那些能夠隨著計算能力的提升而優雅擴展的簡單方法，往往將在人工智能領域占據主導地位，因為它們能夠受益于計算成本的指數級下降，而這種下降在過去幾十年里推動了所有技術的發展。生成世界模型完全有能力從計算成本持續下降的未來中獲益

傳統的3D渲染，像是一個一絲不茍的物理學家，它需要精確計算每一條光線的路徑、每一次反射和折射。這是一個龐大而嚴謹的工程

RTFM不一樣。它是一個“被教會的渲染器”（Learned Renderer）。它通過觀看海量的視頻數據，學會了這個世界的光影、材質和空間關系應該是什么樣子的

當你給它一張圖片，讓它生成一個新的視角時，它不是在計算物理，而是在它的認知里進行創作：根據我見過的億萬個廚房，在這個角度，光線大概率會這樣反射，陰影應該落在這里

它把一個復雜的物理問題，轉化成了一個基于數據和經驗的感知問題。所以，它能如此高效地畫出那些極其耗費算力的光影細節，比如水面和玻璃的復雜反射

另一個讓我印象深刻的，是它解決持久性的方案

以往的模型，探索得越遠，記憶的包袱就越重，最終會慢到無法使用。而RTFM給它記住的每一幀畫面，都標記了一個空間坐標

這個設計非常巧妙。它等于給了AI一個空間感

當需要渲染一個新畫面時，它不需要調動全部的記憶。它會像我們人一樣，只關注附近的東西。這個技術，他們稱之為“上下文騰挪”（Context Juggling）。這就像你在書房找一本書，你不會把整個家翻個底朝天，你只會去書架上找

正是這個看似簡單的機制，讓RTFM構建的世界可以無限大，永不遺忘，同時又保持著極高的效率

更多的技術細節看這里：

https://www.worldlabs.ai/blog/rtfm

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.