![]()
剛剛我在刷動態時,看到了李飛飛老師轉發的一篇她們實驗室的文章。標題是RTFM:實時框架模型。點進去之前,我以為這又會是一篇關于模型精度提升、參數量增加的常規技術發布,結果發現AI教母真不是白叫的
![]()
現在就可以在這里體驗RTFM:
https://rtfm.worldlabs.ai/

長久以來,構建一個實時、持久、交互的虛擬世界,面臨著一個近乎無解的難題:算力。
我們總以為,世界模型必然是用海量的GPU堆成的。文章里算了一筆賬,如果要實時生成一個4K、60幀的互動世界,對算力的消耗,相當于AI每秒鐘就要讀完一本《哈利波特》。這還僅僅是實時,如果要讓這個世界持久,你探索一小時后,所有東西都還在原位,那AI需要處理的記憶數據,將是一個天文數字
這樣以來,世界模型將會是未來很多年,只有少數巨頭才能參與的游戲
而RTFM給出的,卻是一個極其優雅的答案,它沒有去正面硬扛這個問題,而是繞了個彎,用一種更聰明的方式解決了它。李飛飛老師的答案是:在一塊H100上,實現這一切
這個選擇的背后,還是受到了sutton 老爺子的“苦澀的教訓”的影響:我們是真的被硬件卡住了,還是我們的方法本身就不夠經濟?那些能夠隨著計算能力的提升而優雅擴展的簡單方法,往往將在人工智能領域占據主導地位,因為它們能夠受益于計算成本的指數級下降,而這種下降在過去幾十年里推動了所有技術的發展。生成世界模型完全有能力從計算成本持續下降的未來中獲益
傳統的3D渲染,像是一個一絲不茍的物理學家,它需要精確計算每一條光線的路徑、每一次反射和折射。這是一個龐大而嚴謹的工程
RTFM不一樣。它是一個“被教會的渲染器”(Learned Renderer)。它通過觀看海量的視頻數據,學會了這個世界的光影、材質和空間關系應該是什么樣子的
當你給它一張圖片,讓它生成一個新的視角時,它不是在計算物理,而是在它的認知里進行創作:根據我見過的億萬個廚房,在這個角度,光線大概率會這樣反射,陰影應該落在這里
它把一個復雜的物理問題,轉化成了一個基于數據和經驗的感知問題。所以,它能如此高效地畫出那些極其耗費算力的光影細節,比如水面和玻璃的復雜反射

另一個讓我印象深刻的,是它解決持久性的方案
以往的模型,探索得越遠,記憶的包袱就越重,最終會慢到無法使用。而RTFM給它記住的每一幀畫面,都標記了一個空間坐標
這個設計非常巧妙。它等于給了AI一個空間感
當需要渲染一個新畫面時,它不需要調動全部的記憶。它會像我們人一樣,只關注附近的東西。這個技術,他們稱之為“上下文騰挪”(Context Juggling)。這就像你在書房找一本書,你不會把整個家翻個底朝天,你只會去書架上找

正是這個看似簡單的機制,讓RTFM構建的世界可以無限大,永不遺忘,同時又保持著極高的效率
更多的技術細節看這里:
https://www.worldlabs.ai/blog/rtfm
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.