![]()
視頻成為了一種可玩、共創(chuàng)的「過程」。
作者|連冉
編輯|鄭玄
如果你玩過 AI 視頻,一定對「等待期」深有體會:在輸入框敲下一串 Prompt,按下生成鍵,然后便得對著旋轉(zhuǎn)圓圈等待至少幾十秒或者幾分鐘。
而且也不知道幾分鐘后返回來的 MP4 是一場驚喜還是一次貨不對板的驚嚇。這種有些割裂的、異步式的創(chuàng)作,讓 AI 變得像個略有些笨重的遠(yuǎn)程工具,雖然好玩,但也沒那么好玩。
直到我剛剛試用了愛詩科技發(fā)布的 PixVerse R1。
在「賽博朋克城市」的場景中,我并沒有按下「生成」按鈕,也沒有盯著旋轉(zhuǎn)的進度條發(fā)呆。
我只是在輸入框輸入我想要的畫面,「開始下大雨,霓虹燈在濕潤的地面上反射出來」,接著「突然,城市大停電。只有緊急紅燈亮著」,「快速向上飛,穿過摩天大樓到達(dá)城市的上層區(qū)域。」
視頻來源:極客公園
畫面中的光影立刻隨著語意發(fā)生了流轉(zhuǎn)。沒有黑屏加載,沒有重新渲染的割裂感,就像鏡頭真的聽懂了我的指揮,實時向前推進。
一個 AI 模型正在以即時響應(yīng)級的速度,為我「實時編織」一個從未存在的視覺世界。
這是愛詩科技剛剛發(fā)布的 PixVerse R1,是「全球首個支持最高 1080P 分辨率實時生成的世界模型」。
當(dāng)視頻不再是一個確定的「結(jié)果」,而變成了一個可以被實時干預(yù)、持續(xù)存在的「過程」時,它還是我們印象里的「視頻」嗎?
這種被稱為「Playable Reality」(可玩現(xiàn)實)的新形態(tài),究竟是噱頭還是未來?
01
進度條的消亡
2024 年年初,Sora 基于 DiT(Diffusion Transformer)架構(gòu),把長視頻生成的效果提高到前所未有的水平,掀起了全球范圍內(nèi)的視頻生成熱潮。
但在 AI 視頻行業(yè)狂飆突進的這兩年里,我們雖然被 Sora、被各種視頻大模型驚艷,但這種驚艷始終帶著一種「延遲感」。這種延遲不僅是技術(shù)上的,更是心理上的。
過往,AI 視頻生成被戲稱為「開盲盒」。用戶輸入一段長長的提示詞,然后進入一段名為「生成中」的垃圾時間。這段時間長則數(shù)分鐘,短則幾十秒,但在人類的創(chuàng)作心流中,這幾十秒足以讓靈感斷裂。
用戶得到的是一個 MP4 文件,如果光影不對、構(gòu)圖不佳,只能修改提示詞,再次進入漫長的等待循環(huán)。這種「輸入-等待-輸出」的異步邏輯,本質(zhì)上是人類在遷就機器的算力和算法邏輯。
PixVerse R1 的出現(xiàn),正在試圖終結(jié)這種「遷就」。實時生成的真正意義,絕不僅僅是「快」。如果啟動延遲降低的足夠低,幀率也足夠穩(wěn)定在,人類的感知系統(tǒng)會發(fā)生錯覺:你不再覺得自己是在使用一個工具,而是覺得你正處于一個「活著的」世界里。
視頻來源:愛詩科技
可以看到,在這個視頻里,PixVerse R1 展現(xiàn)出一種水流般的即時感。當(dāng)指令發(fā)出,畫面的色彩、材質(zhì)、甚至物理規(guī)律會瞬間響應(yīng)。
隨著「A city wall ahead.Jump over it and enter the city」指令的輸入,角色從樹林場景瞬間傳送到了中式城樓前的石橋上,正朝著城樓大門跑去;隨著「Transform into a robot and fight」指令的輸入,畫面拉近,主角從小人變身機器人并且迅速進行了一番打斗,場景和角色動作的切換非常流暢自然。
這種「實時編織」讓創(chuàng)作從「離線渲染」變成了「在線生產(chǎn)」。當(dāng)技術(shù)響應(yīng)速度追平了思維速度,令人困擾的「進度條」就此消亡,技術(shù)本身變得透明,它變成了感官的自然延伸。
而這種質(zhì)變源于愛詩科技過去 800 天的「狂奔式迭代」。早在 2023 年 10 月,愛詩科技就發(fā)布了早于 Sora 的全球首個 4K 模型 V1;2024 年 2 月,它成為國內(nèi)首家落地 DiT 架構(gòu)的創(chuàng)業(yè)公司。這種對底層架構(gòu)的「先行一步」,讓 PixVerse 在全球斬獲了超過 1 億用戶。如今 R1 實現(xiàn)的「即時感」,正是這種長期架構(gòu)押注后的必然爆發(fā)。
02
Playable Reality,
介于游戲與視頻之間的新物種?
長期以來,視頻和游戲被視為兩條平行線:視頻擁有高擬真的質(zhì)感但缺乏互動,游戲擁有高互動性但在視覺擬真度上受限于算力。而 PixVerse R1 正在打破這種邊界。
PixVerse R1 定義的「Playable Reality(可玩現(xiàn)實)」,正是這兩條平行線的交叉點。它不是傳統(tǒng)意義上的視頻,因為它允許實時干預(yù);它也不是傳統(tǒng)意義上的游戲,因為它不是由程序員預(yù)設(shè)的代碼邏輯驅(qū)動,而是由 AI 對現(xiàn)實世界的模擬能力(世界模型)驅(qū)動。
從確定的、封閉的、一次性交付的 MP4 文件,到被 R1 定義的「過程」,一個可以被實時干預(yù)、持續(xù)存在的視覺世界。只要你持續(xù)給予交互,這個世界就會持續(xù)演化。
在這個創(chuàng)作過程中,用戶不再是坐在屏幕前的觀眾,也不僅僅是復(fù)雜的參數(shù)調(diào)試者,而是變成了「共同創(chuàng)作者」,可以用語言、情緒、意圖直接干預(yù)世界的走向。
這意味著視頻創(chuàng)作門檻的進一步降低。理想狀態(tài)下,我們不再需要學(xué)習(xí)復(fù)雜的非線性剪輯,也不需要理解光影參數(shù),只需要通過簡單的交互——無論是文字還是語音——就能控制視頻的發(fā)展。
支撐這種「隨心而動」體驗的,是 PixVerse R1 背后的三大技術(shù)支柱:Omni 原生多模態(tài)基礎(chǔ)模型、自回歸流式生成機制,以及一套專門為交互設(shè)計的瞬時響應(yīng)引擎。
首先,是 Omni 原生多模態(tài)基礎(chǔ)模型。不同于以往通過插件或疊加模型來理解語意,R1 從底層邏輯上就實現(xiàn)了視覺與語意的深度融合。這意味著模型在指令發(fā)出的瞬間,就在潛空間里完成了對物理世界的重構(gòu)。
其次,為了消滅畫面切換時的「閃爍」與「刷新感」,愛詩科技引入了自回歸流式生成機制。在傳統(tǒng)的生成邏輯中,每一幀往往是孤立或弱相關(guān)的,但在 R1 的體系下,視頻不再是由一個個「固定片段」拼接而成,而是一條無限、連續(xù)且交互的視覺流。這種機制確保了在實時交互時,每一幀的演變都極其絲滑,沒有重新加載的割裂感。
最后,支撐即時反饋的物理基礎(chǔ)是其自研的瞬時響應(yīng)引擎。通過對算力的極限調(diào)度和算法優(yōu)化,它將啟動延遲壓縮到了人類幾乎感知不到的程度
在愛詩科技發(fā)布的技術(shù)報告中,他們將這種演進描述為從 Fix-length clip(固定片段)向 Infinite visual stream(無限可視化流)的范式轉(zhuǎn)移。這意味著,AI 視頻不再是一次性的煙花,而是一個可以無限延伸的數(shù)字宇宙。
當(dāng)然,PixVerse R1 并非完美。愛詩科技在報告中坦誠地提到了「時間誤差累積」的挑戰(zhàn)——在極長的時間線里,微小的誤差可能會讓物理模擬出現(xiàn)波動。
為了追求 1080P 的實時響應(yīng),團隊在某些極致物理細(xì)節(jié)上做了取舍。但這種「權(quán)衡」恰恰展現(xiàn)了某種務(wù)實:與其追求一個只能在服務(wù)器里跑幾小時才能出來的完美標(biāo)本,不如給用戶一個可以即時觸碰、盡管尚有微瑕的「活世界」。
03
當(dāng)技術(shù)「隱形」,把世界還給想象
PixVerse R1 目前展示出的能力,本質(zhì)上是給數(shù)字世界鋪設(shè)了一層「實時生成層」。這層能力的釋放,其影響力將遠(yuǎn)超視頻創(chuàng)作本身。
想象一下,當(dāng)這種能力被 API 化,它將如何重塑數(shù)字娛樂?
比如未來的游戲 NPC 不再只有固定動作,基于實時生成技術(shù),他們可以根據(jù)你的語氣實時生成獨特的表情動作和視覺反饋。
電影也不再有唯一的結(jié)局,而是變成每個人都能走進其中的開放世界,通過交互,都會看到一個屬于自己的、實時編排的獨一無二的故事。
對于這種范式轉(zhuǎn)移,愛詩科技創(chuàng)始人兼 CEO 王長虎有著更具本質(zhì)色彩的定義。他認(rèn)為,PixVerse R1 是一種全新的媒體形式。
「傳統(tǒng)視頻是被記錄的歷史,而 PixVerse R1 開創(chuàng)了『正在發(fā)生的現(xiàn)在』的實時生成新紀(jì)元。」王長虎表示,在這樣的背景下,創(chuàng)作與消費的邊界將逐漸模糊——視頻消費者本身也成為創(chuàng)作者,可以在觀看的同時即時調(diào)整和生成新內(nèi)容。
這種「所想即所現(xiàn)」(As You Think)的能力,讓王長虎對未來的數(shù)字生態(tài)充滿了想象:「無論是 AI 原生游戲、互動電影,還是生成式直播電商體驗,敘事都能實時響應(yīng)用戶意圖。我們相信,每個人都能成為動態(tài)敘事的創(chuàng)作者。
愛詩科技的愿景是「讓每個人都能成為自己生活的導(dǎo)演」。當(dāng)技術(shù)足夠先進、響應(yīng)足夠敏捷時,技術(shù)本身就會變得透明。PixVerse R1 正在做的,就是讓「生成」這個繁瑣的技術(shù)動作隱形,讓位于人類最本能的「想象」與「表達(dá)」。
盡管 PixVerse R1 目前尚處于內(nèi)測階段,且暫未在國內(nèi)上線體驗,但它已然開啟了「流動世界」的大門。
接下來,愛詩科技將采用內(nèi)測碼/定向邀請機制,一部分創(chuàng)作者將有機會先親自觸碰這個「流動的世界」。
*頭圖來源:PixVerse 官網(wǎng)
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待視頻媒介的「交互」時代?
前比亞迪高管趙長江,宣布加入智界,將出任執(zhí)行副總裁。
點贊關(guān)注極客公園視頻號,
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.