作者|子川
來源|AI先鋒官
就在昨天,螞蟻靈波(Robyant)世界模型 LingBot-World,正式開源!
![]()
據官方介紹,LingBot-World不僅能生成長達10分鐘的連貫視頻,最離譜的是,它允許你像玩3A大作一樣,通過鍵盤(WASD)實時控制視角和動作。
甚至在某些維度的體驗上,完全可以和谷歌那個至今都沒公測的Genie 3一較高下。
![]()
那是騾子是馬,咱們直接看效果。
先來看這個讓無數網友直呼炸裂的10分鐘超長生成。
普通的視頻模型,生成個5秒、10秒就容易崩壞。
但LingBot-World硬是讓模型在一個古建筑群里瞎逛了整整10分鐘!質量絲毫沒有降低,無論是光影的變化,還是建筑的透視關系,都非常穩。
但這還不是最牛的。
LingBot-World和Sora、可靈這類AI視頻模型最大的區別在于:它是活的,可控的。
視頻模型是拍好的電影,你只能看,而LingBot-World是實時演算的游戲,你能玩!
看下面這個第一人稱視角,你按W它就往前生成,按D就拐個彎往右走。
所有的場景都是下一秒實時算出來的,這種“言出法隨”的掌控感,真的 太有技術含量了。
再來看看世界模型另外一個弱點:“長時記憶”能力,這可以說是世界模型的死穴。
很多模型一回頭,物體的位置,天空的顏色都發生了變化,但LingBot-World在這方面拿捏得相當到位。
在這個案例里,鏡頭移開長達40多秒,當你再轉回來時,海浪還在那兒,顏色沒變,形狀也沒變。
除此之外,它還是個聽話的“造物主”。
給它一張如下的初始圖。
![]()
輸入“鯊魚”,畫面立刻有一條大白鯊呲著個大白牙就游過來了。
或者輸入“龍”,畫面里就出來了一條眼神略顯呆滯的青龍!
同時團隊還把使用過程的視頻放出來了,主打的就是一個真實!
有個小遺憾,就是消費級芯片是無法正常運行這個模型的,得企業級的CPU才能扛住。
放眼全球,不僅僅是螞蟻,越來越多的科技巨頭正在瘋狂下場押注世界模型。
Google DeepMind的Genie系列試圖讓AI無師自通地學會控制虛擬世界。
Meta的前首席科學家楊立昆(Yann LeCun)死磕非生成式的JEPA架構,試圖讓AI像動物一樣通過觀察掌握物理常識。
在AI圈,有許多人都覺得世界模型才是通往AGI的真正鑰匙!
他們普遍認為單純靠“預測下一個詞”的大語言模型(LLM)可能真的到了瓶頸。
楊立昆曾一針見血地指出,LLM僅僅是在操縱語言符號,它們并不真正理解物理世界的因果邏輯。
隨著算力的爆炸和架構的成熟,2026年,或許就是世界模型真正迎來爆發的一年。
屆時,我們看到的可能不再只是能生成10分鐘視頻的LingBot,而是真正能在數字與物理世界中自由穿梭、思考并行動的AGI雛形。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.