
別的不說了,差友們!馬上就要過年了,差評君先送請兩位咱們硬件部的同事,米羅和二狗來給大家跳個舞吧。

Ok 言歸正傳,今天我上班時刷的各種工作群摸魚群里,基本都在討論字節(jié)整的這個新模型。
原因無他,就是因為這玩意做出來的視頻效果實在是太好了。
甭管是生成美少女來和你打招呼。
by 虛妄 抖音

還是讓兩個老頭開始在屋子里大打出手都不在話下。
by 夜故事 抖音

還可以丟張咱們同事江江的照片給它,讓 Seedance 2.0 直接給我們生成一段天氣預報的口播畫面出來。
沒錯,這整條里面的聲音也是 AI 直接生成出來的,整個視頻里的各種音效細節(jié)可以說是全給對上了。
再或者是直接丟張數(shù)學題給它,讓 AI 來手寫答案。
這里雖然結(jié)果寫錯了,但是口播的聲音卻是對的
太狠了字節(jié),整個視頻里,不管是人物的一致性,還是動作的流暢性還是音頻的適配性,相比過去的視頻生成模型都有了斷崖式的提升。
工作了一天刷了一天抖音的我,已經(jīng)快要分不清什么是真,什么是假的了。
不過這,還不是最讓差評君感興趣的。
素材來源于網(wǎng)絡(luò)

真正讓我好奇的是,為什么這次的新模型這么強?
在簡單的體驗后,差評君發(fā)現(xiàn)這一方面是它的模型本身能力確實夠頂。
和其他常見的視頻模型一樣,只要隨便給它一段話,Seedance 2.0 就能給你生成一段質(zhì)量尚可的視頻。
在上海的東方明珠塔下,生成東方明珠塔用激光攻擊蜜雪冰城雪王的視頻,
雪王不斷躲避激光,場面十分混亂

看起來好像平平無奇,但是咱們仔細看就會發(fā)現(xiàn),這個視頻里,出現(xiàn)了不只一個鏡頭。
短短五秒鐘的視頻,鏡頭切換了四次。
先遠景看東方明珠塔變形發(fā)光,再懟臉給雪王表情,再回到全景展示攻擊。節(jié)奏跟得上、邏輯能閉環(huán),整個段落不光好懂,甚至挺有情緒。
沒錯,Seedance 2.0 做出來的視頻自帶分鏡。
經(jīng)常喜歡用 AI 做視頻的差友們都知道,在過去,大多數(shù) AI 模型做出來的視頻,基本上就是主打“一鏡到底”。你給它寫一段提示詞,它還給你一段幾乎固定定機位的畫面。
即使有些模型有分鏡吧,但他們做出來的分鏡也可能不夠有靈魂,變得非常奇怪。
某另外一個視頻模型用相同提示詞做的畫面,
基本都是站樁輸出

就比如上面這個視頻,這畫面好看嗎,咱們先拋開它沒識別出雪王的形象不談,光論這個視頻質(zhì)量本身,確實是算不上差的。
但是這視頻耐看嗎?那還真不好說。
一個視頻想要能引人注意,那剪輯的節(jié)奏就是一個非常非常重要的環(huán)境。
過去的 AI 想要做成剛才那樣的畫面,可能需要咱們預先構(gòu)思每個分鏡和分鏡之間是如何切換的。
然后用 AI 抽卡,生成一堆一堆的關(guān)鍵幀,接著再在這些關(guān)鍵幀和關(guān)鍵幀之間抽卡,才能得到成噸的素材。
然后再通過人類剪輯師的發(fā)力,才能把這些成噸的素材,給變成一段好看的視頻。
這一套流程下來,這就讓不少想玩視頻生成的新手心生畏懼了。
但這一切問題在 Seedance 2.0 這里,幾乎被徹底解決了。
可以明顯的看到,字節(jié)在分鏡上下了不少功夫。

在不用用戶特意去描述怎么分鏡的情況下,自動就把分鏡的活給包圓了。
整個應(yīng)該鏡頭應(yīng)該怎么切才好看給你整的明明白白,幾乎是把過去半個小時的工作量給壓縮成了一句話。
而且它同時還是個配樂大師,做出來的視頻里,該有的音效全都有。
不管是光之巨人和怪獸大戰(zhàn)時的嘶吼聲。
還是在夜之城飆車時的引擎轟鳴聲。
都可以非常精髓的還原到位。。。
甚至于你還可以直接在提示詞里寫清楚,你想要在這個視頻里聽到 AI 說什么話,就連音色也可以通過自己上傳聲音來制定。
另一方面,字節(jié)的產(chǎn)品設(shè)計也整的很牛 X。
如果說過去的 AI 視頻工具用起來還有各種各樣的門檻和困難的話,那么這次新發(fā)布的 Seedance 2.0 就是把這些門檻都給鏟飛了。
現(xiàn)在,普通人都能很方便的用AI,來做出各種華麗的畫面了。

所以為什么我要給這個模型這么高的評價?不只是因為它能出好畫面,而是因為它真的在認真做“產(chǎn)品”。
即使是零基礎(chǔ)小白也不用害怕,這可能是目前最適合新手來玩的視頻生成大模型了。
它的邏輯非常清爽,打開即夢(jimeng.jianying.com)在最底下選擇“視頻生成”,在邊上把生成視頻的模式給切換成“全能參考”,或者是“首尾幀” 之后,就可以用上最新的 Seedance 2.0 模型。
![]()
![]()
如果這里你找不到 Seedance 2.0 這個選項的話,那可能就是這個號沒有被內(nèi)測到,可以用小云雀 App 試試,或者過段時間等火山引擎發(fā)布了Seedance 2.0 API,就能在更多平臺和APP里用到了。
沒有會員也沒關(guān)系,每天靠著簽到的積分也可以先白嫖體驗一下,如果覺得好用再充也來得及。
OK 咱們回到主題,首尾幀這個模式就不用多說,也是咱們的老朋友了,既能貼上頭尾兩張圖片來控制 AI 的發(fā)揮,也能只貼一張開頭的圖片來讓 AI 自己天馬行空,還可以什么都不貼,打字就能直接得到我們想要的畫面了。
![]()
而另外一個“全能參考” 模式就有意思了,過去咱們用 AI 做視頻,遇到的最大問題是什么?
對我來說,這個最大的問題可能就是“不會形容”了。
有時候腦子里明明知道自己想要什么畫面,但是在打字的時候卻經(jīng)常寫不出來。
可一但提示詞寫得太抽象,那模型就給你瞎編,可寫得太具體,又像在拼題。經(jīng)常是提示詞寫到懷疑人生,還是生不出想要的質(zhì)感。
而這個“全能參考” 模式就能在很大程度上避開這個問題。
在這個模式下,你可以同時從圖片、視頻、音頻和文本這四個維度來描述你想要得到的畫面。
就比如開頭的跳舞小視頻,我只需要同時上傳米羅和二狗兩位同事的照片,然后再配上一段舞蹈的視頻一起給它,就能很輕松的整出來,也能基本保證人物的面部輪廓在生成的視頻中不會崩潰。
這樣一來,我就不需要描述具體舞蹈的姿勢,也不需要描述我需要什么音樂,甚至連人物穿什么衣服都不用說,就可以直接搞出一條舞蹈視頻。
![]()
當然,想給他們換衣服也很簡單,改個提示詞就行了。。。
為了保護差友的雙眼(為了不被打),我決定來點馬賽克
![]()
在這次 Seedance 2.0 里,這個參考模式最多支持同時輸入 9 張圖片,3 個視頻, 3 個音頻(但是加起來不能超過 12 個文件)
我們可以在這個 12 個素材里任意發(fā)揮,來得到我們想要的畫面,基本等于是可以傻瓜式來操作了。
說實話,它的整個產(chǎn)品的設(shè)計邏輯其實讓我想到了另一款字節(jié)的 App —— 豆包。
這是在那產(chǎn)品的思路在做大模型。
不管是剪輯分鏡的快速生成,還是音頻畫面的同步輸出,再或者是方便創(chuàng)作的參考模式。
這三個功能的目的都很明確,希望能夠降低 AI 視頻生成的門檻。
下賽季你來單防詹姆斯

我很喜歡這樣的產(chǎn)品,但到最后,話又要說回來了:
技術(shù)進步從來不是單向的狂歡。
隨著 AI 生成視頻的門檻越來越低,分不清 AI 視頻的人,也會越來越多。
過去大家會說“眼見為實”,會說“視頻是不能 P 的”。
但現(xiàn)在隨著 AI 這一路往前奔騰進步的態(tài)勢,P 個視頻已經(jīng)是輕輕松松的了。
像咱們這樣天天和 AI 打交道,看新聞的人或許能分的出來,但是我們身邊的老人孩子呢?
咱們編輯部就有個小伙伴,下午出于好玩的心態(tài)。做了一段“他自己在送外賣”的視頻,結(jié)果發(fā)到家族群里之后,他媽就當真了。
嚇的他趕緊解釋,自己沒被開除,這是 AI 做的視頻,就怕下一秒直接被家長的奪命連環(huán) call 來拷打。
![]()
看著阿姨在群里著急的樣子,差評君其實笑不出來。
因為我們突然意識到,這道橫亙在現(xiàn)實和詐騙之間的防火墻,其實非常脆弱。
不過好在,字節(jié)好像自己也意識到了這個問題。
在今天晚上我真人照片來做嘗試的時候,就遇到了好幾次被屏蔽的情況。
![]()
當然這個屏蔽情況算不上穩(wěn)定啊,但是能有這種“自我約束”的意識,總歸是個好苗頭。
因為技術(shù)跑得太快時,總會有人被落在后面,而那些人往往是我們最親近的長輩。
但是別忘了,我們能認得出這些 AI 生成的視頻,不是因為我們特殊,而是因為我們接觸的早,有了抗性。
在這種情況下,我們掌握的不只是一個創(chuàng)作工具,更是一種沉甸甸的責任感。
也希望未來的 AI 視頻,能幫我們延伸想象力的邊界,而不是磨滅掉那些最基本的真實。
撰文:早起
編輯:江江 & 面線
美編:素描
圖片、資料來源: x,網(wǎng)絡(luò),部分素材未核實到確實出處未標注
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.