![]()
字節(jié)在前幾天發(fā)布了 Seedance 1.5 Pro 視頻生成模型。
重點(diǎn)是支持音畫同出了,而且在本地化方面下了很多的功夫。
先看一下藏師傅的測(cè)試視頻混剪:
結(jié)合官方介紹和我的測(cè)試結(jié)果說(shuō)一下這次升級(jí)的主要內(nèi)容:
- 視頻支持音畫同步生成,支持多種主流方言,并且顯著提升口型、語(yǔ)調(diào)對(duì)齊能力,方言效果很好;
- 增強(qiáng)語(yǔ)義理解,模型可以比較好的解析敘事語(yǔ)境,聲音與畫面同步情緒控制和專業(yè)的表演能力提升非常大;
- 精準(zhǔn)且豐富的鏡頭控制,自主機(jī)位調(diào)度,長(zhǎng)鏡頭、推軌變焦、希區(qū)柯克等都沒(méi)問(wèn)題;
- 支持首尾幀生成視頻,最長(zhǎng)可單次生成 12 秒視頻,還有 5 秒和 10 秒可選。
令人驚喜且獨(dú)特的方言效果
音畫同出可以直出方言這個(gè)太驚喜了,在我們國(guó)內(nèi)的影視作品里面方言內(nèi)容一直是為角色賦予真實(shí)性和地方特色非常好用的一個(gè)手段,這下一些影視方面的應(yīng)用要拓展了。
提示詞:
鏡頭懟著一個(gè)臉龐黝黑的老陜西人,他蹲在板凳上,手里捧著個(gè)臉盆大的青花瓷海碗,里面的面條被紅彤彤的油潑辣子裹得嚴(yán)嚴(yán)實(shí)實(shí)。他左手捏著一瓣蒜,咔嚓咬掉半截,右手猛地往嘴里猛吃了一大口面,發(fā)出震天響的吸溜聲。抬起頭時(shí)嘴邊全是紅油,他沖著鏡頭一瞪眼,滿臉陶醉地用陜西話吼道:“額給人說(shuō)!吃面不吃蒜,味道少一半!這一口面,簡(jiǎn)直美滴很!”說(shuō)完抄起旁邊的汽水猛灌一口,沖著后廚喊:“伙計(jì)!面湯還有么?今兒這頓飯,硬是聊咋咧!”
首先我找了一個(gè)可能沒(méi)那么方言的方言陜西話,很多人說(shuō)普通話的人可能聽(tīng)得懂,但又有一些讀音很獨(dú)特的詞。
這種一般是比較難的,因?yàn)樗夭母胀ㄔ捥咏耍液芏嘣~不好標(biāo)注,只有真的下功夫才能搞好。
同時(shí)場(chǎng)景選了我每天看的陜西面食吃播場(chǎng)景,文生視頻,看一下整個(gè)畫面和音頻的融合程度,吃東西的時(shí)候也會(huì)影響說(shuō)話,可以考驗(yàn)?zāi)P蛯?duì)于場(chǎng)景的判斷。
結(jié)果相當(dāng)驚喜,“聊咋咧”和“美滴很”這兩個(gè)比較難的詞都說(shuō)出來(lái)了,而且音調(diào)也確實(shí)是陜西話的音調(diào)。
意外的是提示詞遵循比較好,知道先說(shuō)一句然后喝飲料再說(shuō)一句。
邊喝邊說(shuō)的時(shí)候也沒(méi)有完全把瓶子放在嘴里,這時(shí)候就不能說(shuō)話了,它知道說(shuō)的時(shí)候拿開(kāi)瓶子,然后再喝一口再說(shuō),非常真實(shí)。
提示詞:
街邊一棵老樹(shù)下的麻將桌,旁邊停著電瓶車,背景是嘈雜的市井聲。樹(shù)蔭下的老茶館門口,麻將桌旁圍得水泄不通,一位光膀子的大爺急得把蒲扇拍得震天響,沖著對(duì)家用四川話吼道:“哎呀,張大姐,搞快點(diǎn)嘛,等到花兒都謝咯!”對(duì)面燙著卷發(fā)的胖嬢嬢絲毫不慌,猛地把一張牌“啪”地拍在桌上,中氣十足地用四川話懟回去:“催命哇?慌啥子慌……二筒,我看你吃得消不!”旁邊的小伙子咬了一口紅糖鍋盔,探出頭來(lái)用四川話起哄:“嚯!這手牌,硬是巴適得板哦!”
然后是四川方言,我選了一個(gè)非常有挑戰(zhàn)性的場(chǎng)景,在提示詞里面加入了三個(gè)年齡不同、性別不同、打扮相差也很大的角色,說(shuō)著不同的話。
這個(gè)提示詞說(shuō)實(shí)話難度有點(diǎn)大了,但 Seedance 1.5 Pro 確實(shí)給了我很大的驚喜,每次抽卡都能比較好的遵循提示詞完成任務(wù)。
每個(gè)人都在用自己角色應(yīng)該有的音色和音調(diào)在說(shuō)話,而且不會(huì)串,“巴適得板”這種四川話獨(dú)有的詞也說(shuō)的不錯(cuò)。
而且你發(fā)現(xiàn)沒(méi)有,我是沒(méi)有指定鏡頭運(yùn)動(dòng)方式的,它自己會(huì)將鏡頭通過(guò)類似搖臂旋轉(zhuǎn)的方式對(duì)準(zhǔn)正在說(shuō)話的人,而且還有一點(diǎn)類似手持設(shè)備的晃動(dòng),鏡頭為止也在麻將桌沒(méi)有露面的那個(gè)角色那里,看起來(lái)就像那個(gè)人手持拍攝一樣。
背景虛化之后的其他人也都在運(yùn)動(dòng)和做自己的事情,加上非常有市井氣息的對(duì)話,這 12 秒的視頻變得異常的真實(shí)。
提示詞:
一家貼滿綠色馬賽克瓷磚的老店。一個(gè)穿著白大褂、夾著托盤的中年男服務(wù)員在卡座間穿梭。他猛地停在一張桌子前,把一杯茶噠地一聲重重頓在玻璃桌面上,原子筆在點(diǎn)菜本上敲得飛快。服務(wù)員眉毛一皺,語(yǔ)速極快的用粵語(yǔ)說(shuō):“喂,靚仔!寫嘢未啊?諗好沒(méi)?后面仲有大把人等位啵!手腳快啲啦!”坐在卡座里的戴眼鏡的年輕人正看著手機(jī),被嚇了一跳,趕緊合上油膩膩的菜單。戴眼鏡的年輕人慌忙抬頭用粵語(yǔ)說(shuō):“啊……唔該!要個(gè)干炒牛河,再來(lái)杯凍檸茶,少甜走冰!”
最后是粵語(yǔ),這里也選了一個(gè)相當(dāng)有市井生活氣息的餐館場(chǎng)景,依然文生視頻,兩人對(duì)話這次兩個(gè)都是男性看一下說(shuō)話會(huì)不會(huì)串。
生成出來(lái)的時(shí)候這個(gè)運(yùn)鏡真的頂,直接非常順滑的從服務(wù)員的背面切換到正面,而且說(shuō)話的時(shí)候很自然的越過(guò)服務(wù)員打到男生的臉上。
提示詞遵循也非常好,每個(gè)提示詞中的細(xì)節(jié)都兼顧到了,包括貼瓷磚、服務(wù)員服、男生的眼鏡和手機(jī),還有所有動(dòng)作臺(tái)詞的時(shí)間順序,以往的模型總會(huì)漏一點(diǎn)細(xì)節(jié),這次幾乎每次都很完美,無(wú)論是畫面、時(shí)序還是對(duì)話內(nèi)容。
對(duì)話里面以我這個(gè)不太懂粵語(yǔ)的人聽(tīng),還挺是那個(gè)味的,粵語(yǔ)特有的發(fā)音也都可以說(shuō),也歡迎“粵語(yǔ)警察”提意見(jiàn)。
之所以將這一塊放在最前面,首先是我前面說(shuō)的方言對(duì)于影視劇中塑造角色形象塑造非常重要,另外一個(gè)原因是即使海外的模型如何厲害,關(guān)于我們本土文化的內(nèi)容和細(xì)節(jié)還是需要有國(guó)產(chǎn)模型來(lái)填補(bǔ),也只能由國(guó)產(chǎn)模型來(lái)做。
很高興字節(jié)無(wú)論在圖像和視頻領(lǐng)域都很重視這些。
非人場(chǎng)景音畫同出測(cè)試
現(xiàn)在各種 AI 影視爆款里面涉及到音畫同出的除了各種真實(shí)人像之外,寵物 AI 視頻的流量也占了半壁江山,所以這里也需要考察一下寵物的聲音和唇形同步。
提示詞:
鏡頭懟臉拍,柔光燈下,一只大臉盤子的橘貓正襟危坐,胸口別著個(gè)只有指甲蓋大小的迷你麥克風(fēng)。它頭頂戴著粉色蝴蝶結(jié),一臉嚴(yán)肅地盯著面前還在冒熱氣的生煎。它先是湊近了嗅一嗅,胡須隨著呼吸高頻顫動(dòng),然后歪著頭,拿起餃子“啊嗚”一口咬住酥脆的餃子皮。麥克風(fēng)里瞬間傳來(lái)清晰放大的“咔滋咔滋”脆響,緊接著是濕漉漉的“吧唧吧唧”咀嚼音。吃完一口,它瞇起眼睛,緊接著它伸出毛茸茸的“白手套”爪子,把旁邊的牛奶杯往懷里一扒拉,眼神霸氣地盯著鏡頭,說(shuō):“喵!嗷嗚!”
首先是小貓吃播,吃播對(duì)于音效和表情要求很高,吃東西必須得是跟視頻材質(zhì)相同的視頻,這里小貓吃煎餃咔滋咔滋的聲音就讓人聽(tīng)的非常有食欲。
而且貓咪在咀嚼的時(shí)候很好的表現(xiàn)了出了非常擬人的為食物陶醉的表情,但是有沒(méi)有恐怖谷的問(wèn)題,相當(dāng)不錯(cuò)。
提示詞:
一只坐在溫暖昏黃木制貓窩里的布偶貓,它擁有一雙像藍(lán)寶石一樣無(wú)辜的大眼睛,身上穿著一件精致的粉色針織小開(kāi)衫,顯得軟萌又富貴。貓咪面前的軟墊上放著一個(gè)藍(lán)色的嬰兒安撫奶嘴,它先是用毛茸茸的爪子輕輕撥弄了一下奶嘴,然后帶著一種委屈又軟糯的中文小奶音自言自語(yǔ)道:“這是媽媽給我買的‘封印神器’……她說(shuō)我半夜跑酷動(dòng)靜像拆家,非要我叼著這個(gè)才能睡覺(jué)。”說(shuō)完,貓咪順從地低頭把奶嘴含進(jìn)嘴里,腮幫子鼓鼓地動(dòng)了兩下,眼神瞬間變得迷離困倦,含糊不清地嘟囔出最后一句:“唔……別說(shuō)……含著這個(gè)……還真有點(diǎn)……困了……”隨后慢慢閉上眼睛,畫面在它微微點(diǎn)頭打瞌睡的溫馨瞬間結(jié)束。
這里讓貓咪說(shuō)人話,除了嘴型以外還有解刨結(jié)構(gòu)的考驗(yàn),很多視頻動(dòng)物說(shuō)人話的時(shí)候嘴里的舌頭和牙齒就會(huì)變得像人,這里 Seedance 1.5 Pro 就很好,還是貓咪本身的結(jié)構(gòu)。
說(shuō)話的時(shí)候我們指定了小奶音來(lái)表現(xiàn)貓咪的可愛(ài),模型輸出的也是類似孩子的聲音,最后我們還用...來(lái)表示說(shuō)話的節(jié)奏和表現(xiàn)困意,生成的時(shí)候也按照對(duì)應(yīng)的節(jié)奏放慢了說(shuō)話速度,相當(dāng)猛了。
真實(shí)且動(dòng)人的情緒表現(xiàn)
既然說(shuō)到了音畫同出的能力,那么模型的表演能力和情緒表現(xiàn)也是非常重要的部分,很多時(shí)候情緒或者表演能力跟音頻的關(guān)系相當(dāng)大,只有畫面的時(shí)候表現(xiàn)力是不夠的。
提示詞:
在一個(gè)充滿塵埃與鐵銹味的廢土掩體暗室中,單頂光打在一位面容枯槁的幸存者臉上,使他的眼窩深陷成兩個(gè)黑洞。鏡頭采用極端面部特寫,他不敢直視鏡頭,眼神游離且充滿恐懼。他嘴唇干裂起皮,先是艱難地吞咽了一下口水,喉結(jié)明顯滾動(dòng),隨后用顫抖且嘶啞的氣聲緩緩?fù)鲁雠_(tái)詞:“這一單我做完了……”,緊接著他猛地抬起頭直視鏡頭,眼眶瞬間發(fā)紅含淚,面部肌肉因極度緊繃而抽搐,用幾乎崩潰的哭腔急促地喊出:“求求你,把藥給我!” 說(shuō)話時(shí),這一瞬間的爆發(fā)導(dǎo)致他嘴角流出一絲渾濁的口水,下巴不受控制地劇烈抖動(dòng),整個(gè)人呈現(xiàn)出一種被逼至絕境的破碎感。
這里主要表現(xiàn)的是恐懼壓抑和懇求的復(fù)雜情緒,眼睛這里很傳神,將恐懼害怕同時(shí)又由于的情緒表現(xiàn)的很好。
第一句話的時(shí)候先是聲音很低的,這個(gè)時(shí)候仿佛還沒(méi)有下定決心,等到第二句話的時(shí)候就表現(xiàn)出那種反正說(shuō)都說(shuō)了膽子都大了,同時(shí)聲音也變大了。
在第二句話的時(shí)候畫面的變化也咋同步發(fā)生,眼神明顯堅(jiān)定了很多。
在大口呼吸的時(shí)候脖子部分的運(yùn)動(dòng)以及嘴上的口水都非常好的表現(xiàn)了出來(lái),進(jìn)一步增加了真實(shí)感。
提示詞:
在賽博朋克風(fēng)格的維修車間冷光下,年輕的機(jī)械師正被一臺(tái)高大的廢舊機(jī)器人逼在墻角。起初,機(jī)械師處于極度的心理防御狀態(tài),他緊咬著后槽牙,咬肌明顯鼓起,眼神充滿倔強(qiáng)與痛苦,一邊用力推搡機(jī)器人冰冷的手臂,一邊從牙縫里狠狠地?cái)D出前半句臺(tái)詞:“I can't fix it anymore...”。 隨著機(jī)器人并沒(méi)有放手而是繼續(xù)擁抱他,機(jī)械師的心理防線在這一秒崩塌,他原本緊繃的嘴角瞬間向下垮掉,整張臉皺縮在一起,發(fā)出一聲窒息般的抽泣,隨后把頭深深埋進(jìn)機(jī)器人的線纜胸膛中,含糊不清地哭喊出后半句:“I can't fix anything anymore.” 身體隨之從僵硬對(duì)抗轉(zhuǎn)為癱軟下滑,展現(xiàn)出徹底的情感釋放。
這里用了英文和風(fēng)格化的畫風(fēng)順便測(cè)試一下在 2D 風(fēng)格化畫風(fēng)下的唇形同步以及面部情緒表現(xiàn)。
沒(méi)想到在側(cè)臉加 2D 的情況下模型的唇形同步、表情以及情緒變化還能表現(xiàn)的這么好,而且也沒(méi)有出現(xiàn)向3D 轉(zhuǎn)換的傾向相當(dāng)穩(wěn)定。
最后的啜泣聲音與說(shuō)話的聲音融合的也非常好,而且啜泣的時(shí)候面部的表現(xiàn)也在跟音頻同步,看起來(lái)渾然天成,碰到機(jī)器人的時(shí)候也有跟金屬碰撞的聲音,細(xì)節(jié)表現(xiàn)相當(dāng)不錯(cuò)了。
精準(zhǔn)且豐富的鏡頭控制
這次更新的模型對(duì)于復(fù)雜運(yùn)鏡控制的表現(xiàn)也好了很多,可能你通過(guò)前面的一些案例也可以看出來(lái),我們?cè)賮?lái)點(diǎn)難得。
提示詞:
在一個(gè)深邃的歐式古堡長(zhǎng)廊中,鏡頭聚焦在走廊盡頭一位驚恐的維多利亞時(shí)代女性面部,隨著時(shí)間推移,她臉部在畫面中的比例完全保持靜止不變,但她身后的長(zhǎng)廊背景卻產(chǎn)生強(qiáng)烈的空間壓縮感,遠(yuǎn)處的門窗仿佛瞬間拉近到了她腦后,走廊兩側(cè)的雕像和燭臺(tái)以一種詭異的視覺(jué)錯(cuò)覺(jué)在極短時(shí)間內(nèi)改變了排列密度,制造出強(qiáng)烈的眩暈與壓迫感。
首先是一個(gè)大家熟知的高級(jí)運(yùn)鏡技巧希區(qū)柯克變焦,他的原理是攝像機(jī)向后拉的同時(shí)變焦鏡頭向前推,使主體大小保持不變,但背景透視發(fā)生劇烈壓縮或擴(kuò)張,但一般由于硬件限制這個(gè)變焦的時(shí)間和幅度是有局限的。
我們這里搞的非常的離譜了,一個(gè)連續(xù) 12 秒而且速度非常快的希區(qū)柯克變焦,現(xiàn)實(shí)還是很難搞的,沒(méi)想到它居然搞定了,后面的城堡背景變化相當(dāng)連貫。
人物的表情也會(huì)有微妙的變化,同時(shí)音效也會(huì)跟隨變焦的速度與主角呼吸的節(jié)奏變化,對(duì)于人物緊張的情緒渲染的異常的到位,這個(gè)太猛了。
提示詞:
頭處于一個(gè)中景距離,平穩(wěn)地跟隨一位身穿深藍(lán)色工裝外套、背部微駝的中年男性倉(cāng)庫(kù)揀貨員。他正雙手推著一輛載滿棕色瓦楞紙箱的重型金屬平板手推車,在巨大的物流倉(cāng)庫(kù)水泥地面上中速前行。首先,他穿過(guò)一條光線略顯昏暗、兩側(cè)是高聳入云的重型貨架的長(zhǎng)廊,貨架上堆滿了各種貼著標(biāo)簽的貨物托盤。他向左拐了一個(gè)大彎,進(jìn)入一個(gè)更加寬敞、光線明亮的自動(dòng)化分揀區(qū)域。進(jìn)入新區(qū)后,遠(yuǎn)處有幾輛叉車在緩慢移動(dòng)。他繼續(xù)推車前行了一段,此時(shí)側(cè)面有一扇巨大的工業(yè)卷簾門半開(kāi)著,下午的自然陽(yáng)光斜射進(jìn)來(lái)。直到他停在一臺(tái)打包機(jī)前,他松開(kāi)推車把手,直起腰擦了一下額頭的汗,鏡頭緩緩?fù)七M(jìn)到他的側(cè)臉和推車上靜止的箱子細(xì)節(jié)。
這是一個(gè)長(zhǎng)鏡頭測(cè)試,對(duì)于每個(gè)區(qū)域的規(guī)定也很詳細(xì),既考驗(yàn)?zāi)P偷拈L(zhǎng)鏡頭跟隨調(diào)度能力,也考驗(yàn)?zāi)P偷奈锢硪恢滦浴?/p>
可以看到每個(gè)部分中提示詞要求的內(nèi)容都有呈現(xiàn),同時(shí)在人物遮擋前和遮擋后都保持了很好的一致性。
運(yùn)鏡部分非常穩(wěn)定,而且在比較難得轉(zhuǎn)彎部分以及最后人物停止之后擦汗的部分都嚴(yán)格遵循了提示詞的要求,尤其最后鏡頭變焦到人臉的時(shí)候相當(dāng)順滑。
結(jié)尾
整個(gè)測(cè)試過(guò)程中也發(fā)現(xiàn)了一些小問(wèn)題,比如方言這里肯定沒(méi)辦法覆蓋全部的方言種類,一些跟普通話過(guò)于接近的方言會(huì)有混淆問(wèn)題。在音頻上跨分鏡如何解決音色的一致性也是一個(gè)需要處理和解決的問(wèn)題,不然長(zhǎng)視頻可能有些麻煩。
這次值得注意的是,除了情緒部分的幾個(gè)視頻外,其他的所有視頻我都是通過(guò)純文生視頻完成的。
一直以來(lái)很多模型都不太重視文生視頻的質(zhì)量,在色彩表現(xiàn)、物品材質(zhì)上都有很多問(wèn)題。
Seedance 一直以來(lái)的文生視頻表現(xiàn)都非常好,這次音頻生成支持后整個(gè)視頻的一致性和真實(shí)性更是高了非常多,也更容易發(fā)揮模型的能力,經(jīng)常有比較驚艷的結(jié)果。
對(duì)于視頻 Agent 產(chǎn)品來(lái)說(shuō),原生的文生視頻表現(xiàn)加上音頻能力,在融合度和真實(shí)性上,肯定要比圖生要更好,而且也更便于進(jìn)行上下文管理和一致性保持,以前的圖生是模型發(fā)展階段迫不得已的選擇。
我一直堅(jiān)持文生視頻和視頻編輯才是未來(lái),圖生是過(guò)渡,這次 Seedance 1.5 Pro 的在純文生音畫融合度以及純文生視頻偶爾表現(xiàn)出的自主智能運(yùn)鏡等表現(xiàn)都讓我堅(jiān)定了這個(gè)判斷。
今天,火山引擎正式發(fā)布豆包視頻生成模型Seedance 1.5 pro,即日起,個(gè)人用戶可在即夢(mèng)AI、豆包APP、火山方舟體驗(yàn)中心體驗(yàn);企業(yè)用戶自12月23日起可在火山引擎使用該模型API。體驗(yàn)地址:exp.volcengine.com/ark/vision?launch=seedance
提示詞的理解、表演能力提升、音畫同出、文生視頻的高質(zhì)量都大幅降低了視頻制作的復(fù)雜性,視頻 Agent 產(chǎn)品的上下文長(zhǎng)度也會(huì)隨著降低。
感覺(jué)視頻生成產(chǎn)品和視頻 Agent 又會(huì)迎來(lái)一個(gè)爆發(fā)期,之前有想法受限于模型的朋友們可以到火山引擎多嘗試了。
我是歸藏,今天的內(nèi)容就到這里。
如果覺(jué)得有幫助的話可以幫我點(diǎn)個(gè)贊或者喜歡,也可以轉(zhuǎn)發(fā)??給你需要的朋友們。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.