昨晚夜里快12點,AI視頻公司PixVerse毫無預(yù)兆的發(fā)了一個項目。
![]()
PixVerse R1,下一代實時世界生成模型。
![]()
這玩意你看文字,可能不是很好理解,我直接放一個官方的demo視頻,大家的感覺應(yīng)該會強一些。
上面是視頻,下面是實時輸入的Prompt。
整個過程,都是AI一直連續(xù)不斷的生成視頻,你可以在過程中用Prompt修改視頻的進程,比如開頭第一句Promtp,是士兵躺在雪山上,然后躺著躺著,你就輸入了一個Prompt,說一只黑烏鴉飛過,飛完了以后,這個視頻準(zhǔn)備自己去做一些決策了自己去演后續(xù)的劇情了,你又有了新想法,于是,你又發(fā)了一段Prompt過去:
巡邏隊發(fā)現(xiàn)了士兵。
每次你輸入Prompt延遲2秒左右之后,你會發(fā)現(xiàn),這個世界的劇情,就隨著你的不斷輸入,不斷的進行變化。
如果你不給Prompt干涉的話,他會自己一直演下去,最長的時間,在官方的技術(shù)報告里,寫的是:
無限、連續(xù)的視覺流式傳輸。
PixVerse將其稱為,實時世界生成模型。
網(wǎng)址在此:
技術(shù)報告我也下載下來看了一下。
還是蠻有意思的。
但是在講這個技術(shù)報告之前,我覺得還是需要我們先統(tǒng)一一下,大家對于世界模型的定義,這樣才更好去聊他們的技術(shù)報告。
畢竟,世界模型這個詞,這一兩年,出現(xiàn)的太多了,以至于大家,好像完全不知道世界模型到底指向的是什么了。
我心中的世界模型,因為這一波23年到25年的生成式浪潮,所以其實是一個非常泛的定義:
能用一個可持續(xù)的內(nèi)部狀態(tài),去預(yù)測世界接下來會怎樣變化,并且能被交互和驗證。
這也是為什么同一個詞,經(jīng)常會同時被拿來形容三類東西:
視頻生成模型、可交互的生成世界、面向機器人和自動駕駛的物理仿真基礎(chǔ)模型。
只要滿足這個條件的,在目前的大眾語境里,都可以被統(tǒng)稱為,世界模型。
目前已有的世界模型代表,基本可以用幾個項目,代表3個方向:
1. Google的Genie 3和Odyssey。
以Genie 3舉例子。
我之前也寫過文章:
![]()
大概就是給一個文本提示,就能生成你可以實時導(dǎo)航的動態(tài)世界,24fps,720p,一致性可以維持到分鐘級。
我極度極度看好世界模型,之前也極度的看好Genie的項目,我曾經(jīng)甚至說,沒有把Genie 3寫火,讓很多人關(guān)注到這個項目,是我們這些做AI內(nèi)容的不專業(yè)和失職。
它代表的,是一次生成,然后可以在里面操控方向進行簡單交互的視頻類動態(tài)世界模型。
2. 李飛飛World Labs的Marble和混元3D世界模型。
以Marble舉例子。
一個以三維空間智能為中心的多模態(tài)世界模型,
![]()
World Labs給Marble的定義重點在3D,世界模型需要重建、生成、模擬三維世界,同時允許人和智能體在其中交互,這類路線的核心難點變成3D 表示和空間一致性,視頻畫面只是表層輸出。
![]()
它代表的,是一次生成,然后可以在里面進行簡單交互的3D類世界模型。
3. 英偉達Cosmos。
一個非常純粹的,為物理AI服務(wù)的世界基礎(chǔ)模型平臺。
![]()
Cosmos的定位是面向自動駕駛、機器人、視頻分析agent的WFM平臺,強調(diào)數(shù)據(jù)處理、tokenizer、guardrails 和把世界模型用于高保真、物理相關(guān)的合成數(shù)據(jù)與后訓(xùn)練。
這條路線的評價標(biāo)準(zhǔn)更偏物理正確性、可控性、可用于訓(xùn)練與驗證。
它代表的,是為訓(xùn)練具身智能和自動駕駛而生的世界模型。
這幾個方向,基本就是現(xiàn)在世界模型方向的主流。
現(xiàn)在,相信大家也對世界模型,有了基本的差異化了解了,其他這玩意還是比較泛的,并沒有一個特別明確的定義,路線又挺多,場景也挺多。
而這次,PixVerse的這個新的項目,為世界模型,補上了第四個方向,也是我自己過去一直期待的方向。
實時視頻生成。
他們也上線了一個可以實測的demo版本可以玩。
網(wǎng)址在此:https://realtime.pixverse.ai/
![]()
里面已經(jīng)給了6個預(yù)設(shè)的模板,感覺后面還會更新更多。
我點了一下,發(fā)現(xiàn),要邀請碼。
![]()
我就跑去問PixVerse的朋友,問他們?yōu)樯哆@年頭了還要搞邀請碼這事。
他們是這么說的:
![]()
不過我還是舔著老臉,深夜要了一個邀請碼過來。
實際去體驗了一下。
這個體驗的結(jié)果,我說實話,可能是我最近,體驗的最快樂的產(chǎn)品了。
你們看完就知道,為啥快樂了。。。
拿到邀請碼進去以后,我先隨手點了最后一個那個卡通的模板。
![]()
在頁面上,你就會發(fā)現(xiàn),有一個倒計時,大概意思就是,你只能在這個live里,體驗五分鐘,體驗五分鐘之后,就得新起一個窗口重來了。
核心原因,還是這玩意太燒算力了。
我點了進去。
一進去,這魔性的音樂,噔噔噔噔噔的,差點給我洗腦了。。。
然后,一雙腳,就開始瞪著跑起來了。
我一定要給你們看看這個抽象的畫面,我真的,凌晨2點多,在家里笑的嘎嘎的。
說實話,我硬生生看著小人跑了2分鐘,我愣是一句話沒發(fā)出去。。。
因為實在是太歡樂了,我就一直看著它跑,跑著跑著2分鐘過去了,我都忘了我是可以隨時更改劇情的。。。
然后,我又點開了他們那個1944的模板,瘋狂的開始互動,這一次,我在家里笑出了豬叫,特別是最后,我讓它從黑洞中穿梭,盡頭是卡皮巴拉的時候。
我感覺我的大腦褶皺都撫平了。
真的,非常坦率的講,PixVerse R1作為一個實驗性的全新物種,在生成質(zhì)量上,肯定還是有很強的進步空間的。
但是,作為一個全新的物種,它的實時生成,他的隨時可交互。
這個快樂,如果不親身體驗一下的話,你是絕對感受不到的。
那是一種,你完全未知的快樂,但是你就是期待著,下一秒,他會發(fā)生什么。
你就是會期待著,你的那句話,會對這個屏幕里的小人,產(chǎn)生什么樣的影響。
還有這個賽博朋克,也很好玩。
真的,我們看了太多太多套路話的故事,那種千篇一律沒有新意的故事,這種實時生成的AI,由AI所造出的世界。
好像,會更讓我驚喜,會更讓我期待。
更別提,我還能用嘴,來指揮后續(xù)的動作了。
這里我強烈建議大家使用這個語音模式。
![]()
相信我,你在玩的時候的卡點,可能是是打字速度跟不上你想要的劇情速度。
除了這些預(yù)設(shè)好的模板之外。
你當(dāng)然,也可以去自定義。
![]()
第一個想到的demo,其實就是一個我還滿喜歡的游戲,無人深空,因為這個游戲,跟實時生成實在太契合了。
我直接直接發(fā)了個起始Prompt過去:
這是一個正在運行的科幻探索類游戲畫面,不是被攝像機拍攝的影像。畫面以穩(wěn)定的游戲視角呈現(xiàn),不存在攝影機跟隨、推拉或電影化運鏡。世界由程序生成并持續(xù)運行,角色只是世界中的一部分,畫面變化來自世界狀態(tài)的演化。
然后,這個探索,就開始了。
非常的酷非常的有意思。
還有,街霸PK。
真的,太好玩了。
好久沒有用AI,這么純粹的快樂了。
我非常開心,能見到我們未來的娛樂形態(tài),可能又會多一種非常好玩的方式。
也許再過幾年,所謂的電影、綜藝、游戲,根本就不再是固定時長的文件,而是一條條永遠流動著的世界時間線。
創(chuàng)作者給一個起點,給一些世界觀設(shè)定,剩下的交給世界模型自己往前長,觀眾進來以后,用一句話、一個表情、一次選擇,把劇情輕輕拽偏一點。
所有人看到的,都是同一個宇宙,但卻是不同的一條時間支線。
雖然讓人人創(chuàng)造內(nèi)容,是一種奢望。
但,在人的本源里,我覺得,每個人還是享受,創(chuàng)造的樂趣的。
這一天。
可能是AI模型歷史上,會標(biāo)紅的一頁。
很新,很有趣,但同時。
也很未來。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標(biāo)?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.