網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

一個全新的世界模型，終于讓AI視頻進入了“無限流”時代。

2026-01-14 08:12:55　來源: 數(shù)字生命卡茲克

天津舉報

分享至

昨晚夜里快12點，AI視頻公司PixVerse毫無預(yù)兆的發(fā)了一個項目。

PixVerse R1，下一代實時世界生成模型。

這玩意你看文字，可能不是很好理解，我直接放一個官方的demo視頻，大家的感覺應(yīng)該會強一些。

上面是視頻，下面是實時輸入的Prompt。

整個過程，都是AI一直連續(xù)不斷的生成視頻，你可以在過程中用Prompt修改視頻的進程，比如開頭第一句Promtp，是士兵躺在雪山上，然后躺著躺著，你就輸入了一個Prompt，說一只黑烏鴉飛過，飛完了以后，這個視頻準(zhǔn)備自己去做一些決策了自己去演后續(xù)的劇情了，你又有了新想法，于是，你又發(fā)了一段Prompt過去：

巡邏隊發(fā)現(xiàn)了士兵。

每次你輸入Prompt延遲2秒左右之后，你會發(fā)現(xiàn)，這個世界的劇情，就隨著你的不斷輸入，不斷的進行變化。

如果你不給Prompt干涉的話，他會自己一直演下去，最長的時間，在官方的技術(shù)報告里，寫的是：

無限、連續(xù)的視覺流式傳輸。

PixVerse將其稱為，實時世界生成模型。

網(wǎng)址在此：

技術(shù)報告我也下載下來看了一下。

還是蠻有意思的。

但是在講這個技術(shù)報告之前，我覺得還是需要我們先統(tǒng)一一下，大家對于世界模型的定義，這樣才更好去聊他們的技術(shù)報告。

畢竟，世界模型這個詞，這一兩年，出現(xiàn)的太多了，以至于大家，好像完全不知道世界模型到底指向的是什么了。

我心中的世界模型，因為這一波23年到25年的生成式浪潮，所以其實是一個非常泛的定義：

能用一個可持續(xù)的內(nèi)部狀態(tài)，去預(yù)測世界接下來會怎樣變化，并且能被交互和驗證。

這也是為什么同一個詞，經(jīng)常會同時被拿來形容三類東西：

視頻生成模型、可交互的生成世界、面向機器人和自動駕駛的物理仿真基礎(chǔ)模型。

只要滿足這個條件的，在目前的大眾語境里，都可以被統(tǒng)稱為，世界模型。

目前已有的世界模型代表，基本可以用幾個項目，代表3個方向：

1. Google的Genie 3和Odyssey。

以Genie 3舉例子。

我之前也寫過文章：

大概就是給一個文本提示，就能生成你可以實時導(dǎo)航的動態(tài)世界，24fps，720p，一致性可以維持到分鐘級。

我極度極度看好世界模型，之前也極度的看好Genie的項目，我曾經(jīng)甚至說，沒有把Genie 3寫火，讓很多人關(guān)注到這個項目，是我們這些做AI內(nèi)容的不專業(yè)和失職。

它代表的，是一次生成，然后可以在里面操控方向進行簡單交互的視頻類動態(tài)世界模型。

2. 李飛飛World Labs的Marble和混元3D世界模型。

以Marble舉例子。

一個以三維空間智能為中心的多模態(tài)世界模型，

World Labs給Marble的定義重點在3D，世界模型需要重建、生成、模擬三維世界，同時允許人和智能體在其中交互，這類路線的核心難點變成3D 表示和空間一致性，視頻畫面只是表層輸出。

它代表的，是一次生成，然后可以在里面進行簡單交互的3D類世界模型。

3. 英偉達Cosmos。

一個非常純粹的，為物理AI服務(wù)的世界基礎(chǔ)模型平臺。

Cosmos的定位是面向自動駕駛、機器人、視頻分析agent的WFM平臺，強調(diào)數(shù)據(jù)處理、tokenizer、guardrails 和把世界模型用于高保真、物理相關(guān)的合成數(shù)據(jù)與后訓(xùn)練。

這條路線的評價標(biāo)準(zhǔn)更偏物理正確性、可控性、可用于訓(xùn)練與驗證。

它代表的，是為訓(xùn)練具身智能和自動駕駛而生的世界模型。

這幾個方向，基本就是現(xiàn)在世界模型方向的主流。

現(xiàn)在，相信大家也對世界模型，有了基本的差異化了解了，其他這玩意還是比較泛的，并沒有一個特別明確的定義，路線又挺多，場景也挺多。

而這次，PixVerse的這個新的項目，為世界模型，補上了第四個方向，也是我自己過去一直期待的方向。

實時視頻生成。

他們也上線了一個可以實測的demo版本可以玩。

網(wǎng)址在此：https://realtime.pixverse.ai/

里面已經(jīng)給了6個預(yù)設(shè)的模板，感覺后面還會更新更多。

我點了一下，發(fā)現(xiàn)，要邀請碼。

我就跑去問PixVerse的朋友，問他們?yōu)樯哆@年頭了還要搞邀請碼這事。

他們是這么說的：

不過我還是舔著老臉，深夜要了一個邀請碼過來。

實際去體驗了一下。

這個體驗的結(jié)果，我說實話，可能是我最近，體驗的最快樂的產(chǎn)品了。

你們看完就知道，為啥快樂了。。。

拿到邀請碼進去以后，我先隨手點了最后一個那個卡通的模板。

在頁面上，你就會發(fā)現(xiàn)，有一個倒計時，大概意思就是，你只能在這個live里，體驗五分鐘，體驗五分鐘之后，就得新起一個窗口重來了。

核心原因，還是這玩意太燒算力了。

我點了進去。

一進去，這魔性的音樂，噔噔噔噔噔的，差點給我洗腦了。。。

然后，一雙腳，就開始瞪著跑起來了。

我一定要給你們看看這個抽象的畫面，我真的，凌晨2點多，在家里笑的嘎嘎的。

說實話，我硬生生看著小人跑了2分鐘，我愣是一句話沒發(fā)出去。。。

因為實在是太歡樂了，我就一直看著它跑，跑著跑著2分鐘過去了，我都忘了我是可以隨時更改劇情的。。。

然后，我又點開了他們那個1944的模板，瘋狂的開始互動，這一次，我在家里笑出了豬叫，特別是最后，我讓它從黑洞中穿梭，盡頭是卡皮巴拉的時候。

我感覺我的大腦褶皺都撫平了。

真的，非常坦率的講，PixVerse R1作為一個實驗性的全新物種，在生成質(zhì)量上，肯定還是有很強的進步空間的。

但是，作為一個全新的物種，它的實時生成，他的隨時可交互。

這個快樂，如果不親身體驗一下的話，你是絕對感受不到的。

那是一種，你完全未知的快樂，但是你就是期待著，下一秒，他會發(fā)生什么。

你就是會期待著，你的那句話，會對這個屏幕里的小人，產(chǎn)生什么樣的影響。

還有這個賽博朋克，也很好玩。

真的，我們看了太多太多套路話的故事，那種千篇一律沒有新意的故事，這種實時生成的AI，由AI所造出的世界。

好像，會更讓我驚喜，會更讓我期待。

更別提，我還能用嘴，來指揮后續(xù)的動作了。

這里我強烈建議大家使用這個語音模式。

相信我，你在玩的時候的卡點，可能是是打字速度跟不上你想要的劇情速度。

除了這些預(yù)設(shè)好的模板之外。

你當(dāng)然，也可以去自定義。

第一個想到的demo，其實就是一個我還滿喜歡的游戲，無人深空，因為這個游戲，跟實時生成實在太契合了。

我直接直接發(fā)了個起始Prompt過去：

這是一個正在運行的科幻探索類游戲畫面，不是被攝像機拍攝的影像。畫面以穩(wěn)定的游戲視角呈現(xiàn)，不存在攝影機跟隨、推拉或電影化運鏡。世界由程序生成并持續(xù)運行，角色只是世界中的一部分，畫面變化來自世界狀態(tài)的演化。

然后，這個探索，就開始了。

非常的酷非常的有意思。

還有，街霸PK。

真的，太好玩了。

好久沒有用AI，這么純粹的快樂了。

我非常開心，能見到我們未來的娛樂形態(tài)，可能又會多一種非常好玩的方式。

也許再過幾年，所謂的電影、綜藝、游戲，根本就不再是固定時長的文件，而是一條條永遠流動著的世界時間線。

創(chuàng)作者給一個起點，給一些世界觀設(shè)定，剩下的交給世界模型自己往前長，觀眾進來以后，用一句話、一個表情、一次選擇，把劇情輕輕拽偏一點。

所有人看到的，都是同一個宇宙，但卻是不同的一條時間支線。

雖然讓人人創(chuàng)造內(nèi)容，是一種奢望。

但，在人的本源里，我覺得，每個人還是享受，創(chuàng)造的樂趣的。

這一天。

可能是AI模型歷史上，會標(biāo)紅的一頁。

很新，很有趣，但同時。

也很未來。

以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時間收到推送，也可以給我個星標(biāo)?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.