網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

首個實時世界模型發(fā)布：視頻媒介的「交互」時代開始了

2026-01-14 12:06:51　來源: 極客公園

北京舉報

分享至

視頻成為了一種可玩、共創(chuàng)的「過程」。

作者｜連冉

編輯｜鄭玄

如果你玩過 AI 視頻，一定對「等待期」深有體會：在輸入框敲下一串 Prompt，按下生成鍵，然后便得對著旋轉(zhuǎn)圓圈等待至少幾十秒或者幾分鐘。

而且也不知道幾分鐘后返回來的 MP4 是一場驚喜還是一次貨不對板的驚嚇。這種有些割裂的、異步式的創(chuàng)作，讓 AI 變得像個略有些笨重的遠(yuǎn)程工具，雖然好玩，但也沒那么好玩。

直到我剛剛試用了愛詩科技發(fā)布的 PixVerse R1。

在「賽博朋克城市」的場景中，我并沒有按下「生成」按鈕，也沒有盯著旋轉(zhuǎn)的進度條發(fā)呆。

我只是在輸入框輸入我想要的畫面，「開始下大雨，霓虹燈在濕潤的地面上反射出來」，接著「突然，城市大停電。只有緊急紅燈亮著」，「快速向上飛，穿過摩天大樓到達(dá)城市的上層區(qū)域。」

視頻來源：極客公園

畫面中的光影立刻隨著語意發(fā)生了流轉(zhuǎn)。沒有黑屏加載，沒有重新渲染的割裂感，就像鏡頭真的聽懂了我的指揮，實時向前推進。

一個 AI 模型正在以即時響應(yīng)級的速度，為我「實時編織」一個從未存在的視覺世界。

這是愛詩科技剛剛發(fā)布的 PixVerse R1，是「全球首個支持最高 1080P 分辨率實時生成的世界模型」。

當(dāng)視頻不再是一個確定的「結(jié)果」，而變成了一個可以被實時干預(yù)、持續(xù)存在的「過程」時，它還是我們印象里的「視頻」嗎？

這種被稱為「Playable Reality」（可玩現(xiàn)實）的新形態(tài)，究竟是噱頭還是未來？

進度條的消亡

2024 年年初，Sora 基于 DiT（Diffusion Transformer）架構(gòu)，把長視頻生成的效果提高到前所未有的水平，掀起了全球范圍內(nèi)的視頻生成熱潮。

但在 AI 視頻行業(yè)狂飆突進的這兩年里，我們雖然被 Sora、被各種視頻大模型驚艷，但這種驚艷始終帶著一種「延遲感」。這種延遲不僅是技術(shù)上的，更是心理上的。

過往，AI 視頻生成被戲稱為「開盲盒」。用戶輸入一段長長的提示詞，然后進入一段名為「生成中」的垃圾時間。這段時間長則數(shù)分鐘，短則幾十秒，但在人類的創(chuàng)作心流中，這幾十秒足以讓靈感斷裂。

用戶得到的是一個 MP4 文件，如果光影不對、構(gòu)圖不佳，只能修改提示詞，再次進入漫長的等待循環(huán)。這種「輸入-等待-輸出」的異步邏輯，本質(zhì)上是人類在遷就機器的算力和算法邏輯。

PixVerse R1 的出現(xiàn)，正在試圖終結(jié)這種「遷就」。實時生成的真正意義，絕不僅僅是「快」。如果啟動延遲降低的足夠低，幀率也足夠穩(wěn)定在，人類的感知系統(tǒng)會發(fā)生錯覺：你不再覺得自己是在使用一個工具，而是覺得你正處于一個「活著的」世界里。

視頻來源：愛詩科技

可以看到，在這個視頻里，PixVerse R1 展現(xiàn)出一種水流般的即時感。當(dāng)指令發(fā)出，畫面的色彩、材質(zhì)、甚至物理規(guī)律會瞬間響應(yīng)。

隨著「A city wall ahead.Jump over it and enter the city」指令的輸入，角色從樹林場景瞬間傳送到了中式城樓前的石橋上，正朝著城樓大門跑去；隨著「Transform into a robot and fight」指令的輸入，畫面拉近，主角從小人變身機器人并且迅速進行了一番打斗，場景和角色動作的切換非常流暢自然。

這種「實時編織」讓創(chuàng)作從「離線渲染」變成了「在線生產(chǎn)」。當(dāng)技術(shù)響應(yīng)速度追平了思維速度，令人困擾的「進度條」就此消亡，技術(shù)本身變得透明，它變成了感官的自然延伸。

而這種質(zhì)變源于愛詩科技過去 800 天的「狂奔式迭代」。早在 2023 年 10 月，愛詩科技就發(fā)布了早于 Sora 的全球首個 4K 模型 V1；2024 年 2 月，它成為國內(nèi)首家落地 DiT 架構(gòu)的創(chuàng)業(yè)公司。這種對底層架構(gòu)的「先行一步」，讓 PixVerse 在全球斬獲了超過 1 億用戶。如今 R1 實現(xiàn)的「即時感」，正是這種長期架構(gòu)押注后的必然爆發(fā)。

Playable Reality，

介于游戲與視頻之間的新物種？

長期以來，視頻和游戲被視為兩條平行線：視頻擁有高擬真的質(zhì)感但缺乏互動，游戲擁有高互動性但在視覺擬真度上受限于算力。而 PixVerse R1 正在打破這種邊界。

PixVerse R1 定義的「Playable Reality（可玩現(xiàn)實）」，正是這兩條平行線的交叉點。它不是傳統(tǒng)意義上的視頻，因為它允許實時干預(yù)；它也不是傳統(tǒng)意義上的游戲，因為它不是由程序員預(yù)設(shè)的代碼邏輯驅(qū)動，而是由 AI 對現(xiàn)實世界的模擬能力（世界模型）驅(qū)動。

從確定的、封閉的、一次性交付的 MP4 文件，到被 R1 定義的「過程」，一個可以被實時干預(yù)、持續(xù)存在的視覺世界。只要你持續(xù)給予交互，這個世界就會持續(xù)演化。

在這個創(chuàng)作過程中，用戶不再是坐在屏幕前的觀眾，也不僅僅是復(fù)雜的參數(shù)調(diào)試者，而是變成了「共同創(chuàng)作者」，可以用語言、情緒、意圖直接干預(yù)世界的走向。

這意味著視頻創(chuàng)作門檻的進一步降低。理想狀態(tài)下，我們不再需要學(xué)習(xí)復(fù)雜的非線性剪輯，也不需要理解光影參數(shù)，只需要通過簡單的交互——無論是文字還是語音——就能控制視頻的發(fā)展。

支撐這種「隨心而動」體驗的，是 PixVerse R1 背后的三大技術(shù)支柱：Omni 原生多模態(tài)基礎(chǔ)模型、自回歸流式生成機制，以及一套專門為交互設(shè)計的瞬時響應(yīng)引擎。

首先，是 Omni 原生多模態(tài)基礎(chǔ)模型。不同于以往通過插件或疊加模型來理解語意，R1 從底層邏輯上就實現(xiàn)了視覺與語意的深度融合。這意味著模型在指令發(fā)出的瞬間，就在潛空間里完成了對物理世界的重構(gòu)。

其次，為了消滅畫面切換時的「閃爍」與「刷新感」，愛詩科技引入了自回歸流式生成機制。在傳統(tǒng)的生成邏輯中，每一幀往往是孤立或弱相關(guān)的，但在 R1 的體系下，視頻不再是由一個個「固定片段」拼接而成，而是一條無限、連續(xù)且交互的視覺流。這種機制確保了在實時交互時，每一幀的演變都極其絲滑，沒有重新加載的割裂感。

最后，支撐即時反饋的物理基礎(chǔ)是其自研的瞬時響應(yīng)引擎。通過對算力的極限調(diào)度和算法優(yōu)化，它將啟動延遲壓縮到了人類幾乎感知不到的程度

在愛詩科技發(fā)布的技術(shù)報告中，他們將這種演進描述為從 Fix-length clip（固定片段）向 Infinite visual stream（無限可視化流）的范式轉(zhuǎn)移。這意味著，AI 視頻不再是一次性的煙花，而是一個可以無限延伸的數(shù)字宇宙。

當(dāng)然，PixVerse R1 并非完美。愛詩科技在報告中坦誠地提到了「時間誤差累積」的挑戰(zhàn)——在極長的時間線里，微小的誤差可能會讓物理模擬出現(xiàn)波動。

為了追求 1080P 的實時響應(yīng)，團隊在某些極致物理細(xì)節(jié)上做了取舍。但這種「權(quán)衡」恰恰展現(xiàn)了某種務(wù)實：與其追求一個只能在服務(wù)器里跑幾小時才能出來的完美標(biāo)本，不如給用戶一個可以即時觸碰、盡管尚有微瑕的「活世界」。

當(dāng)技術(shù)「隱形」，把世界還給想象

PixVerse R1 目前展示出的能力，本質(zhì)上是給數(shù)字世界鋪設(shè)了一層「實時生成層」。這層能力的釋放，其影響力將遠(yuǎn)超視頻創(chuàng)作本身。

想象一下，當(dāng)這種能力被 API 化，它將如何重塑數(shù)字娛樂？

比如未來的游戲 NPC 不再只有固定動作，基于實時生成技術(shù)，他們可以根據(jù)你的語氣實時生成獨特的表情動作和視覺反饋。

電影也不再有唯一的結(jié)局，而是變成每個人都能走進其中的開放世界，通過交互，都會看到一個屬于自己的、實時編排的獨一無二的故事。

對于這種范式轉(zhuǎn)移，愛詩科技創(chuàng)始人兼 CEO 王長虎有著更具本質(zhì)色彩的定義。他認(rèn)為，PixVerse R1 是一種全新的媒體形式。

「傳統(tǒng)視頻是被記錄的歷史，而 PixVerse R1 開創(chuàng)了『正在發(fā)生的現(xiàn)在』的實時生成新紀(jì)元。」王長虎表示，在這樣的背景下，創(chuàng)作與消費的邊界將逐漸模糊——視頻消費者本身也成為創(chuàng)作者，可以在觀看的同時即時調(diào)整和生成新內(nèi)容。

這種「所想即所現(xiàn)」（As You Think）的能力，讓王長虎對未來的數(shù)字生態(tài)充滿了想象：「無論是 AI 原生游戲、互動電影，還是生成式直播電商體驗，敘事都能實時響應(yīng)用戶意圖。我們相信，每個人都能成為動態(tài)敘事的創(chuàng)作者。

愛詩科技的愿景是「讓每個人都能成為自己生活的導(dǎo)演」。當(dāng)技術(shù)足夠先進、響應(yīng)足夠敏捷時，技術(shù)本身就會變得透明。PixVerse R1 正在做的，就是讓「生成」這個繁瑣的技術(shù)動作隱形，讓位于人類最本能的「想象」與「表達(dá)」。

盡管 PixVerse R1 目前尚處于內(nèi)測階段，且暫未在國內(nèi)上線體驗，但它已然開啟了「流動世界」的大門。

接下來，愛詩科技將采用內(nèi)測碼/定向邀請機制，一部分創(chuàng)作者將有機會先親自觸碰這個「流動的世界」。

*頭圖來源：PixVerse 官網(wǎng)

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你如何看待視頻媒介的「交互」時代？

前比亞迪高管趙長江，宣布加入智界，將出任執(zhí)行副總裁。

點贊關(guān)注極客公園視頻號，

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.