![]()
眼看就要到春節(jié)了,很多團(tuán)隊(duì)已經(jīng)開始放慢節(jié)奏,但 AI 圈還是一如既往地卷。就在不少人以為“該發(fā)的模型都發(fā)完了”的時(shí)候,新模型還是一波接一波往外上,完全沒(méi)有停住的趨勢(shì)。
這段時(shí)間你會(huì)發(fā)現(xiàn)一個(gè)很有意思的現(xiàn)象:一邊是各家都在 AI 入口上做很重的營(yíng)銷動(dòng)作,搶入口、搶用戶心智、搶使用場(chǎng)景;但另一邊,底層模型的更新速度其實(shí)一點(diǎn)都沒(méi)慢下來(lái)。
廠商自己也很清楚,只靠入口包裝和營(yíng)銷聲量,是撐不住長(zhǎng)期競(jìng)爭(zhēng)力的,模型能力本身必須持續(xù)往前推。
最近,字節(jié)跳動(dòng)又放出了一張新牌:新一代視頻生成模型 Seedance 2.0 正式發(fā)布,把視頻生成這條線往“更可控、更連貫、更像真實(shí)鏡頭語(yǔ)言”的方向又推了一步。值得注意的是該大版本號(hào)模型,離前一代支持音視頻聯(lián)合生成的模型 Seedance 1.5 Pro 的發(fā)布日期只過(guò)去了 2 個(gè)月。
入口在打仗,模型在加速,兩條線同時(shí)在跑,而且都沒(méi)打算等對(duì)方。
下面,我們也完整實(shí)測(cè)了一波 Seedance 2.0。
先說(shuō)一下,這次我是直接在「即夢(mèng)」里用的 Seedance 2.0,下面講的體驗(yàn)也都基于這個(gè)平臺(tái)。
Seedance 2.0 這版主打一個(gè)點(diǎn):參考能力更全面。跟上一代的音視頻模型 Seedance 1.5 Pro 比起來(lái),它現(xiàn)在對(duì)多張圖片、多段視頻一起參考的支持更強(qiáng),用起來(lái)也更順手。
另外你也能看到一個(gè)趨勢(shì):不只是做視頻生成的模型在加強(qiáng)“參考視頻”這件事,像 Kimi 2.5 這種通用大模型,也開始強(qiáng)調(diào)可以參考視頻內(nèi)容來(lái)生成結(jié)果,大家都在往這個(gè)方向走。
01
蘋果風(fēng)格商品宣傳
我們一開始,就先做了一組素材:運(yùn)動(dòng)品牌風(fēng)格的人物模特,加上運(yùn)動(dòng)手表這種實(shí)物產(chǎn)品,一起拿來(lái)做測(cè)試。
![]()
然后我又上傳了一支很經(jīng)典的 Apple Watch 官方宣傳片。這種片子本身就是多鏡頭結(jié)構(gòu),既有人物鏡頭,也有產(chǎn)品特寫,很適合拿來(lái)當(dāng)參考素材。
現(xiàn)在在即夢(mèng)里,你基本不用寫很復(fù)雜的提示詞,按它那個(gè)很直觀的提示方式來(lái)就行。直接告訴它:參考這支視頻的鏡頭節(jié)奏和風(fēng)格,生成一條新的運(yùn)動(dòng)手表廣告。
同時(shí)把主角換成我自己的圖片,把商品也換成我準(zhǔn)備好的產(chǎn)品圖。整套流程很直接,就是選參考視頻 + 選人物圖 + 選商品圖,然后讓模型去生成一條新的廣告片。
![]()
生成這類視頻的時(shí)間會(huì)比較久,而且積分消耗也不低。比如兩張圖片加一段參考視頻,同時(shí)都參與參考的話,做一條 15 秒的視頻,基本要花接近 200 積分。
不過(guò)成片出來(lái)之后,你能明顯感覺(jué)到質(zhì)量是在線的。整體真實(shí)感很強(qiáng),模特在公路上跑步時(shí)的光線變化、頭發(fā)上的反光、臉部的受光細(xì)節(jié),都做得很到位,看著不會(huì)假。
還有一點(diǎn):我其實(shí)沒(méi)有給它一個(gè)完整的故事結(jié)構(gòu),只是給了參考素材和目標(biāo)類型。最后的視頻節(jié)奏基本是它自己排出來(lái)的。
片子里出現(xiàn)的商品,主要就是我給它的那只手表。它里面有兩段鏡頭是專門切到手表上的,而且還加了動(dòng)效。
整體看下來(lái),畫面元素基本沒(méi)什么大問(wèn)題。比較常見的坑還是那個(gè):數(shù)字和中文偶爾會(huì)亂寫,會(huì)有點(diǎn)“AI 幻覺(jué)”。
右下圖片那個(gè)轉(zhuǎn)場(chǎng),它會(huì)有一個(gè)滑動(dòng)手表的動(dòng)作。我專門截了幾幀去看,很多幀里文字其實(shí)是正常的,只是在滑動(dòng)的那一瞬間容易出錯(cuò)。這個(gè)表現(xiàn)跟上一代比,確實(shí)進(jìn)步很明顯。
![]()
你要是認(rèn)真去逐幀截圖看,會(huì)發(fā)現(xiàn)細(xì)節(jié)也比較到位。女模特手臂上的紋理、手上的細(xì)小汗毛,是能夠看清的。
02
“跨風(fēng)格整合”的財(cái)神拜年
因?yàn)樗膭?dòng)效表現(xiàn)確實(shí)不錯(cuò),我就又多做了一組測(cè)試。我新生成了一張新春財(cái)神抱著金元寶的圖,再加上一張美劇風(fēng)格的惡靈騎士角色圖,然后把這兩張圖一起丟進(jìn)去當(dāng)參考素材,讓它按這個(gè)方向繼續(xù)生成視頻。
![]()
我給它的目標(biāo)其實(shí)很簡(jiǎn)單:先讓財(cái)神出場(chǎng),背后是一堆元寶和金幣,在發(fā)光、在晃動(dòng);接著惡靈騎士騎著摩托沖進(jìn)畫面;然后變成財(cái)神騎著這輛摩托直接開走;最后閃出一幀畫面,打上“新春快樂(lè)”和具體日期的中文與數(shù)字。
成片看下來(lái),開頭惡靈騎士那一段,AI 感還是偏重一點(diǎn),能看出來(lái)是模型在“拼”畫面。不過(guò)從財(cái)神和道具之間的互動(dòng),到表情變化,再到動(dòng)作銜接,比以前順了不少。
還有一個(gè)小規(guī)律我這次也注意到:如果畫面里放的是那種比較大的藝術(shù)字,Seedance 2.0 出錯(cuò)的概率會(huì)低很多。
如果是一張圖片里有多個(gè)主體,然后讓鏡頭一個(gè)個(gè)掃過(guò)去,這種場(chǎng)景我也測(cè)了一下 Seedance 2.0 的表現(xiàn)。
03
多主體鏡頭
我做了一張圖:五個(gè)小動(dòng)物穿著不同禮服,一起坐在同一條長(zhǎng)椅上。主體多、造型差異大,還都在同一畫面里,這種情況其實(shí)挺考驗(yàn)?zāi)P偷溺R頭理解和主體保持能力。
![]()
我當(dāng)時(shí)的提示詞設(shè)計(jì)很直接:讓畫面里所有小動(dòng)物一起跳舞給大家拜年,鏡頭要一個(gè)個(gè)掃過(guò)去。每掃到一個(gè)角色,就在它的動(dòng)作上停一下,給慢鏡頭和特寫。
這個(gè)視頻主要在考一件事:鏡頭逐個(gè)掃過(guò)時(shí),角色的出現(xiàn)順序要對(duì)。也就是視頻里的出場(chǎng)順序,要和原圖里小動(dòng)物從左到右的順序一致,這點(diǎn)很看一致性能力。
從生成結(jié)果來(lái)看,Seedance 2.0 在畫面質(zhì)量和整體一致性上都還不錯(cuò)。不過(guò)這條視頻我也反復(fù)跑了三四次才選到比較滿意的版本。動(dòng)作質(zhì)量普遍很高,但還是會(huì)有順序問(wèn)題,比如熊貓和兔子的位置被對(duì)調(diào),這種情況還是會(huì)出現(xiàn)。
但如果只看角色本身和動(dòng)作表現(xiàn),這一版確實(shí)提升很明顯。每次鏡頭停在單個(gè)角色上時(shí),毛發(fā)細(xì)節(jié)、質(zhì)感、真實(shí)度,還有鏡頭之間的切換,都處理得比較順。
下面我做了一個(gè)更偏敘事向的視頻案例。接著用到的兩張圖,是我上傳給 Seedance 2.0 當(dāng)參考素材用的。
04
宇航員與 3D LED 屏里的貓
左邊是一張十字路口的大型 3D LED 屏畫面,里面有一只貓,尾巴是從屏幕里伸出來(lái)的;右邊是一張很經(jīng)典的宇航員圖片。
![]()
提示詞是:讓這個(gè)宇航員走進(jìn)十字路口,在路口下面停住,把頭盔面罩打開,再戴上墨鏡,看向 3D LED 屏里的貓,然后整個(gè)人愣一下,周圍街道人來(lái)人往。
從最后生成的視頻來(lái)看,整體效果其實(shí)很不錯(cuò)。尤其是宇航員走進(jìn)路口那段,你能看到周圍行人和車輛都是在動(dòng)態(tài)變化的,沒(méi)有那種很明顯的錯(cuò)亂感,看起來(lái)會(huì)比較順。
小問(wèn)題也有,就是屏幕里的貓還是顯得有點(diǎn)呆,靈動(dòng)感差一點(diǎn)。整體能用,但這個(gè)角色的表現(xiàn)還有提升空間。
下面這張圖是我自己生成的一張 Instagram 風(fēng)格的剪貼畫配圖,里面有好幾個(gè)男性角色拼在一起。
05
多人物 INS 風(fēng)剪貼畫
我給 Seedance 2.0 的目標(biāo)也很明確:人物不要變,背景不要變,畫面里的這些男性角色都要保留下來(lái),只是在這個(gè)基礎(chǔ)上,讓他們一起跳起來(lái)動(dòng)起來(lái)。
![]()
這個(gè)任務(wù)其實(shí)挺難的。按以前的經(jīng)驗(yàn),一張?jiān)睾芏唷⒔Y(jié)構(gòu)很復(fù)雜的圖,光是做靜態(tài)生成就不太穩(wěn),很容易出錯(cuò)。要是在視頻里再讓這些剪貼畫人物動(dòng)起來(lái),還要跳舞、互動(dòng),就更容易把周圍元素帶亂。
所以一開始我自己的預(yù)期也不高,會(huì)覺(jué)得出錯(cuò)的概率不小。
我給的提示詞:這是一張有多個(gè)男性角色的剪貼畫,背景和版式全部保持不變,只讓人物跳舞;節(jié)奏偏搞笑、偏抽象;人物之間要有互動(dòng)動(dòng)作,比如握手、擊掌。
最后生成出來(lái)的視頻,其實(shí)跟提示詞對(duì)得挺準(zhǔn)。畫面里的文字沒(méi)有被改動(dòng),不管是上面的主標(biāo)題,還是下面的小塊文字,都保持原樣。整張圖里一共七個(gè)角色,他們之間都有互動(dòng),而且基本是在同一個(gè)節(jié)奏上跳舞。
而且你仔細(xì)看細(xì)節(jié)會(huì)發(fā)現(xiàn):這些角色就算把后面的剪貼畫文字擋住了,在遮住、再淡出的那一下,文字本身也沒(méi)有被改掉。
06
NIKE 風(fēng)運(yùn)動(dòng)員剪影
最后一個(gè)案例,我用的是一位體操運(yùn)動(dòng)員運(yùn)動(dòng)時(shí)的模糊剪影。我給了它一套 5 張參考圖,每張都有很明顯的動(dòng)態(tài)拖影,構(gòu)圖也很極簡(jiǎn),沒(méi)有 logo 和文字,但整體質(zhì)感很強(qiáng)。
![]()
我當(dāng)時(shí)對(duì) Seedance 2.0 的要求也比較高:希望它能把這種動(dòng)態(tài)拖影的感覺(jué)保留下來(lái),整體風(fēng)格往運(yùn)動(dòng)廣告片那邊靠,像那種品牌宣傳片的質(zhì)感,再簡(jiǎn)單配點(diǎn)字,就能直接發(fā)到短視頻平臺(tái)。
這個(gè)目標(biāo)其實(shí)不低,但最后生成的效果還是挺可以的。
你能看出來(lái),它在結(jié)構(gòu)和節(jié)奏上是有主動(dòng)安排的,不是那種很死板的處理方式。鏡頭切換也不生硬,沒(méi)有走老路:不是簡(jiǎn)單把一張圖變成動(dòng)圖,再在幾段動(dòng)圖之間硬切。
這種老式做法在早期的視頻模型里很常見,這一版明顯更自然一些。
音樂(lè)這塊我其實(shí)什么參考都沒(méi)給,也沒(méi)寫相關(guān)提示詞,但它最后配出來(lái)的音樂(lè),和整條視頻的節(jié)奏還挺合拍的,不是很違和。
有幾個(gè)鏡頭它還會(huì)主動(dòng)給慢鏡頭特寫,比如倒數(shù)第二個(gè)鏡頭,就明顯放慢了節(jié)奏,把動(dòng)作拉出來(lái)單獨(dú)展示。我還專門截了一幀圖來(lái)看,那一刻的畫面,和我上傳的參考圖幾乎是一樣的。
同時(shí)你也能看出來(lái),它為了把前后鏡頭接順,會(huì)把這張參考畫面往前多補(bǔ)一點(diǎn)內(nèi)容,也往后多延一點(diǎn)動(dòng)作,這樣前后過(guò)渡就會(huì)更自然,不會(huì)突然斷掉。
最后簡(jiǎn)單收一下:整體看下來(lái),Seedance 2.0 在敘事節(jié)奏、鏡頭切換,還有對(duì)參考圖片和參考視頻的一致性保持上,都比上一代音視頻模型強(qiáng)了不少。
![]()
問(wèn)題也還是有的,比如畫面里有很小的文字,或者很細(xì)的小元素,在動(dòng)態(tài)變化的時(shí)候,還是會(huì)偶爾出錯(cuò)。不過(guò)出錯(cuò)的頻率,確實(shí)比上一代低了很多。與此同時(shí),單個(gè)視頻的生成時(shí)間往往非常漫長(zhǎng),積分的消耗也非常大。
對(duì)字節(jié)的平臺(tái)來(lái)說(shuō),這是內(nèi)容供給效率的提升,畢竟字節(jié)已經(jīng)將該模型全面下發(fā)到旗下各個(gè) AI 內(nèi)容創(chuàng)作平臺(tái),例如即夢(mèng)、CapCut(剪映)等等。
從更現(xiàn)實(shí)的角度看,視頻生成模型這條線,已經(jīng)快速進(jìn)入產(chǎn)品化和商業(yè)化驗(yàn)證期。誰(shuí)能把生成質(zhì)量、生成速度、可控性和接入成本一起壓到可用區(qū)間,誰(shuí)就更有機(jī)會(huì)進(jìn)入真實(shí)內(nèi)容生產(chǎn)鏈路。
可以說(shuō),春節(jié)前這一波密集發(fā)布,更像是新一輪視頻 AI 競(jìng)速的發(fā)令槍。接下來(lái),整個(gè) AI 視頻模型領(lǐng)域的競(jìng)速將會(huì)以肉眼可見的速度,迅速“開卷”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.