大家好,我是冷逸,你們的測評手替又上線了。
今天,我想和大家聊一款昨晚剛剛發布的Real-time World Model——PixVerse R1。
我深度體驗了一番,這個模型還真的有點不太一樣。
它不是一款“生成得更快”的視頻模型(盡管速度上PixVerse早已沒有對手),而是從根本上改變了視頻的生成方式和交互邏輯。
給大家看個case,你就明白了。
初始畫面:一個人在冰雪世界中行走。
你可以馬上命令,讓她跑得更快點。

也可以讓畫面中出現龍卷風(別問為什么雪山上能見到龍卷風,就沒有AI辦不到的事情)。

整個過程非常絲滑、連貫。你的Prompt會立刻作用于畫面本身,實時改變視頻狀態,生成一個持續演化的視覺世界。
完整演示錄屏我放在這里了,一幀未剪。
這和以往的AI視頻生成模式完全不同:
以往的AI視頻:輸入Prompt → 等待生成 → 得到一個固定的視頻文件。
而PixVerse R1讓視頻不再是一次性生成的“結果”,而是一個可實時干預、持續演化的視覺世界。
![]()
一手體驗
昨晚模型上線后,我深度玩了玩,給大家說下我的使用體驗。
體驗地址是realtime.pixverse.ai,首次打開你會看到這樣的提示:
Visualize Your World in Real-time,Powered by PixVerse R1. 通過PixVerse R1,實時生成你的世界。
![]()
點擊「Start」,進入創作頁面,可以自建主題或選擇推薦主題。
![]()
我們選擇一個「War Thunder」主題。
![]()
隨后進入創作界面。
![]()
這時候你會發現,它和所有傳統AI視頻工具的界面都不一樣:
中央畫面區域始終在實時生成、流式播放
右上角是倒計時
下方是你的Prompt輸入區(支持語音)
你輸入的每一句指令,都會立刻作用在當前世界上。

我錄制了一段操作過程,大家可以直觀感受下。
這種體驗非常新鮮。
它不像傳統AI視頻:發一句Prompt,等一會兒,拿到一個鏡頭;
也不像3D模型:先生成一個靜態世界,再讓你進入;
更不像游戲:把一個“提前造好的世界”裝進盒子里讓你游玩。
PixVerse-R1是在“邊想,邊造世界”。
世界不是預制的,而是現炒的。一手,鮮活,且充滿無限可能。
所以說實話,我剛開始體驗PixVerse R1,也沒法立刻給它下一個準確的定義。但有一點我很確定,它不是現有任何一種媒體形態的簡單延伸。
它更像是一個全新的物種。
一個可能會引領未來AI生成世界的全新媒介。
特別值得一提的是,它也支持語音輸入。
![]()
大家都知道,鍵盤打字的速度,很難跟上實時生成的視頻世界。一旦世界開始“跑起來”,語音輸入的優勢就非常明顯。
你可以用PixVerse內置的語音工具,也可以用第三方語音輸入。我同樣錄了一個演示視頻。
目前這一版PixVerse R1,單次創作最長支持5分鐘。
但我覺得,這一定不是它的終點。
未來或許會實現無限時長,屆時限制它的只能是我們的想象力。
當然,如果單純看畫面質量,比如清晰度、物理細節、鏡頭精度等,它還不及PixVerse原始模型的效果,不像大家熟悉的AI視頻的質感。

但PixVerse R1開啟的,是一種全新的交互范式:
Real-time、Playable Reality
在這里,用戶不再只是使用者,而更像是一個共創者,甚至是世界的一部分。
你不是在“生成視頻”,而是在和一個平行世界持續對話。
它不是AI視頻,不是游戲,不是直播,也不是虛擬世界,而是一種可以被“玩”的視頻現實(Playable Reality)。
從這角度看,我感覺:PixVerse R1給整個行業扔下了一枚不太容易被立刻理解的炸彈。
這也是為什么,這個Real-time World Model會被命名為PixVerse R1。
![]()
技術拆解
在模型發布的同時,PixVerse也公開了他們的技術論文:
《PixVerse-R1: Next-Generation Real-Time World Model》。
核心目標只有一個:把視頻生成,從“離線片段”,變成“連續、可交互、實時響應的視覺流”。
怎么做到的呢?簡單來說由三部分構成:
Omni基座模型 + 無限流式生成架構 + 實時生成引擎
首先是Omni基座模型。
這是一個端到端的原生多模態模型,把文本、圖像、視頻、音頻統一成連續的token流。
![]()
在訓練階段,它學習了大量真實世界的視頻數據,因此具備生成復雜、長時間一致場景的能力——也就是我們直觀感受到的“世界感”。
初始畫面:一位士兵趴在雪地里,用望遠鏡觀察前方。
一只烏鴉飛過。(綠色部分為提示詞)

巡邏隊發現了士兵。他開始拼命逃跑。

他跌倒在坦克旁邊。

飛機對坦克實施轟炸。

整個鏡頭銜接非常自然,且遵循物理規律。完整的demo,我放在這里了。
第二個關鍵點,是生成機制。
PixVerse R1采用的是自回歸生成,而非傳統擴散模型那種“先算完整片段”的方式。
![]()
這意味著,它可以持續生成、無限延展視覺流,而不是只能吐出一個固定長度的視頻。
最后,也是PixVerse的傳統強項——速度。
在PixVerse R1中,他們重新設計了實時生成引擎,把傳統視頻生成中動輒幾十步的采樣過程,壓縮到了1–4步。
![]()
所以,我們能看到近乎實時響應的畫面變化。
![]()
整個體驗下來,我的感覺是:PixVerse R1讓實時、長時序的AI生成世界第一次變得可行。
這不僅是視頻媒介的一次演進,更是一次從「生成內容」走向「生成世界」的躍遷。
它的意義在于,把「世界模型」從離線想象,推進到了實時生成、即時響應、長時一致的階段。
每一次用戶輸入,不只是剪輯點,而是一次對世界狀態的干預;每一幀畫面,也不只是結果,而是下一步推理的上下文。
一旦這樣的世界可以被反復運行、被規模化調用、被Agent接管,游戲、仿真、訓練、創作,甚至現實決策的預演,都會在同一條技術線上融合。
所以,這并不是“視頻生成更快了”。
而是:AI,第一次開始擁有一個可以長期存在的世界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.