昨天,Vidu Q2的多圖參考生視頻上線了。
測了幾個(gè)小時(shí)以后,先說結(jié)論,確實(shí)是多圖參考生視頻的王。
也是一種,做AI視頻工作流的,新范式。
我花了一個(gè)下午的時(shí)間做了一個(gè)小短片,完全用的多圖參考生視頻,沒有用傳統(tǒng)的生圖-圖生視頻的工作流,基本上沒roll多少次,就實(shí)現(xiàn)了這樣的效果。
很酷,很有意思。
說實(shí)話,自從Veo3、可靈2.5、Sora2以后,我自己,越來越不喜歡用圖生視頻了。
最開始的時(shí)候,23年,我那個(gè)預(yù)告片總共肝了693張圖片,185個(gè)鏡頭,最終選出來60個(gè)鏡頭。
![]()
那個(gè)時(shí)候,其實(shí)是沒辦法的辦法,先生圖,再用圖生視頻的方式,對(duì)于流程還是挺蛋疼的,需要你強(qiáng)行來回跳轉(zhuǎn)不同的產(chǎn)品。
而且圖片本身,很多時(shí)候是個(gè)靜幀,會(huì)影響很多動(dòng)態(tài)的發(fā)揮,如果不是為了一致性,很多時(shí)候,我真的喜歡用文生視頻去做。
后來,去年11月,Vidu第一次上線了多圖參考生視頻,可以用幾張圖,就能保持人物、物品、場景一致性,開啟了多參黨的時(shí)代。
那個(gè)時(shí)候,我也寫過Vidu。
比如當(dāng)時(shí),隨手拍了我非常喜歡的Dimoo,之前的熊貓款的三視圖。然后扔到Vidu里。
![]()
然后不到1分鐘,一段Dimoo在森林里的視頻就做完了。

不過這個(gè)效果,其實(shí)已經(jīng)是Vidu去年基模還是1.5的時(shí)候的效果了,對(duì)甚至連Q這個(gè)開頭前綴都沒有。
而現(xiàn)在,在經(jīng)歷了Vidu 1.5、Vidu 2.0、Vidu Q1之后,新的Vidu Q2,確實(shí)給多圖參考,帶來了一些以前達(dá)到不了的效果。
而圖生視頻這個(gè)工作流,就好像曾經(jīng)的SD一樣,可能確實(shí)會(huì)越來越被我,封印在歷史的塵埃里了。
今天,我是一個(gè)光榮的多參黨。
我覺得這次的Q2和多參升級(jí),可以體現(xiàn)在3個(gè)方面:
大幅進(jìn)化的一致性,更強(qiáng)的表演能力,以及更棒的多風(fēng)格表現(xiàn)力。
一個(gè)一個(gè)來說。
一. 一致性
參考生視頻的,我們很多時(shí)候最看重的,就是一致性,
三個(gè)月前,Vidu Q1的多參生圖其實(shí)已經(jīng)很強(qiáng)了,但是遇到超多主體的情況還是會(huì)歇菜。
而這次,Q2更新以后,就牛逼了很多。
比如,讓文藝復(fù)興的新三杰和舊三杰同框出現(xiàn)。
![]()
這是Q2的效果,鏡頭依次出現(xiàn)六個(gè)畫家,每個(gè)人的特征都基本保留,實(shí)現(xiàn)了這個(gè)挑戰(zhàn)。

而如果你返回去,看Q1的話,會(huì)發(fā)現(xiàn)還是會(huì)失敗的。
比如會(huì)出現(xiàn)人物不全,或者人物突然從地里鉆出來的情況。

用多圖參考生視頻也特別簡單,就是把你的圖片都傳上去之后,直接按@鍵,@任何人和任何物品,超級(jí)簡單,比Sora2的那個(gè)@還要絲滑,因?yàn)镾ora2只能@人物,但是沒法@物品或者場景。
![]()
這是6個(gè)人的,再來看一下主體+物品的case。
比如讓范德彪穿著草裙在沙灘上曬太陽。
![]()
然后就得到了一個(gè)曬到七成熟的德彪。

再讓川普先從冰箱里拿出來一罐百事可樂,再拿出來一瓶可口可樂。
![]()
生成出來的結(jié)果,川普、百事可樂和可口可樂,都保持了原狀。

特別是百事上的字,也保持的非常好。
還有一個(gè),我覺得很有趣的case,也是一個(gè)之前沒玩過的玩法,就是你可以通過多主體,讓主人公實(shí)現(xiàn)變身。
提示詞是這樣的:
![]()
最驚喜的是,鏡子里和鏡子外的變化非常同步,這個(gè)是真的是有點(diǎn)東西的。

還有一個(gè)玩法,就是人物不變,場景變化。
提示詞也非常簡單:
![]()
在一致性上,表現(xiàn)的非常完美。

二. 情緒表演
表演這一塊,也是Q2的重頭戲。
拿我喜歡的演員基里安墨菲來舉例,我從他演過的英劇《浴血黑幫》里找了幾張圖,做了一個(gè)叫Tommy的主體。
![]()
這個(gè)主體其實(shí)也是多圖的的升級(jí)功能。
![]()
就是比如一個(gè)角色,我們?yōu)榱怂€(wěn)定,就可能要傳三張不同角度的圖上去,而傳統(tǒng)的做法,就是寫男人靠在XX地方,讓AI視頻自己去腦補(bǔ),哦這三張圖片是這個(gè)男人啊。后續(xù)的復(fù)用上,也不好管理。
現(xiàn)在,你可以用主體的方式,命名,然后,直接@它就完事了,還能保存成主體庫,后續(xù)隨便用,很方便。
這些小細(xì)節(jié),Vidu做的確實(shí)是蠻好的。
我們?cè)诳纯瓷厦婺莻€(gè)Prompt和主體跑出來的效果。

瞬間,得到了這個(gè)非常細(xì)膩的表演。
基里安的眼睛是真的有戲啊,把脆弱感展現(xiàn)的淋漓盡致。
相比之下Q1的演技就完全沒開竅,就是眼睛轉(zhuǎn)了幾下,你也看不出到底要表達(dá)什么情緒。
末了嘴里還變出一根煙。。。
你也不知道它到底在干啥。

再來看一有趣的case。
就是你只是給它一個(gè)規(guī)定情境,沒有很詳細(xì)的提示詞,Vidu Q2也能完成一段很優(yōu)質(zhì)的表演。
比如下面這個(gè)。
提示詞真的非常簡單,就是一個(gè)情境,用的主體是德尼羅老爺子。
![]()
出來的效果,就很有故事感,除了白發(fā)人送黑發(fā)人的悲傷和無奈,年長者努力控制情緒的克制,還能看出絲絲的不甘和恨意,似乎想給孩子復(fù)仇,很好品。

而如果說,Vidu Q2的真人表演已經(jīng)很不錯(cuò)了,那么二次元領(lǐng)域的表演更是Vidu的拿手好戲。
畢竟,動(dòng)漫,很多時(shí)候,都是Vidu的代名詞之一。
先來一個(gè)經(jīng)典的日劇跑段落。
![]()
出來的效果真的很有那味兒,可以直接配一首《你的名字》了。
讓我想起那年夕陽下的奔跑,那是我逝去的青春。。。

除了這種大開大合的表演情緒,做小表情也很有活人感。
比如下面這個(gè)情侶吵架的case。
![]()
表情和動(dòng)作都很自然,真的有點(diǎn)像某一部番的片段了。

在測試情緒的過程中,我還發(fā)現(xiàn),Vidu非常懂動(dòng)漫中常見的情緒表現(xiàn)手法。
比如下面這個(gè)case,它會(huì)通過眉眼邊上的線條抽動(dòng)、瞳孔驟然縮小、眼白布滿紅血絲,來展現(xiàn)一個(gè)人極致恐懼的情緒。
但說實(shí)話,大部分情況下我都不會(huì)給這么細(xì)的提示詞。
我在這一段,只規(guī)定了三個(gè)點(diǎn),男人極度驚恐的表情,半明半暗的光影,和推鏡頭的運(yùn)動(dòng)。
![]()
而Q2能憑借自身的技法積累,在我的提示詞框架里面完善細(xì)節(jié),最后得到一個(gè),有表現(xiàn)力的效果。

我只能說,他們動(dòng)漫的效果,是真的強(qiáng)啊。
再比如下面的這個(gè)case。
![]()
提示詞非常簡單,但Vidu就能做的很對(duì)味兒。
仔細(xì)一看,秘訣原來是,Vidu把女孩眼睛里面的高光給去掉了。。。
有高光,看起來就比較清澈,沒有高光,就很陰。
真的非常細(xì)節(jié)。。。

三.多風(fēng)格表現(xiàn)力
剛才那一趴大家也看到了,Vidu Q2做出來的動(dòng)漫視頻效果很出挑。
所以這一趴,我做了更多不同動(dòng)畫風(fēng)格的case,讓大家感受一下,Vidu的動(dòng)畫風(fēng)格表現(xiàn)力。
真的,Vidu無愧于AI視頻動(dòng)漫之王的稱號(hào)。
后面這些,我就不放截圖了,但是和生成方法和前面還是一樣的。都是貼上參考圖,或者貼上主體,然后寫提示詞,生成視頻。
先從最日常的泡面番風(fēng)格開始。

熱血戰(zhàn)斗番,亦正亦邪的反派既視感,一時(shí)間幻視了不少角色。

還有追求音樂夢(mèng)想的美少女,在空蕩的禮堂里獨(dú)自練習(xí)。
超典型360度環(huán)繞運(yùn)鏡。

或者更加風(fēng)格化一點(diǎn),比如下面這些。




不要忘了,這些都是用Vidu Q2的多參考生視頻生出來的。
所以,不僅有超棒的角色一致性,還有特別棒的風(fēng)格一致性。
還有一個(gè)更酷的,就是我測下來發(fā)現(xiàn),Q2真的很適合生成一些中二動(dòng)漫場面,因?yàn)樗倪\(yùn)鏡和特效,給的真的太足了。
比如下面這個(gè)男人舞劍的case。
鏡頭拉近拉遠(yuǎn)再拉近,還有揮劍形成的狂風(fēng),效果直接拉滿了。

再比如這個(gè)打斗。
刀光劍影,飛檐走壁,人物和鏡頭的運(yùn)動(dòng)都很豐富,也只抽了兩次卡。

Vidu Q2這次的參考生視頻,確實(shí)要比之前的質(zhì)量好太多了。
超多主體同框一致性的穩(wěn)定,以及Q2基模所帶來的效果提升。
再加上參考生視頻能帶來更牛逼的運(yùn)鏡和自然的表演。
確實(shí),是多參黨的勝利,也是新的工作流范式,進(jìn)化的前夜。
最后,再來說說大家最關(guān)心的價(jià)格問題。
![]()
以標(biāo)準(zhǔn)版月度會(huì)員為例,59元800積分,20積分就能生成一條8s視頻,折合下來1.475元/條,約0.184元/s。
幾乎就是現(xiàn)在最便宜的AI視頻模型之一了。
整體來說,這次Vidu Q2的多參還是讓我很驚喜的。
而且他們也上了APP,跟Sora2那樣的交互,也能玩合拍,不過是用多參做的,也挺有意思的,感興趣的可以去玩玩。
![]()
我也還是很相信,多圖參考生視頻,是未來的共識(shí)。
Vidu,未來可期。
以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.