網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)可靈3.0，普通人的導(dǎo)演夢(mèng)成真了

2026-02-08 12:04:02　來源: 卡爾的AI沃茨

北京舉報(bào)

分享至

當(dāng)我用可靈3.0和3.0 Omni抽了100個(gè)15s鏡頭后，

我意識(shí)到AI視頻又進(jìn)入一個(gè)新時(shí)代了。

先說結(jié)論，

這次更新了單次15s多分鏡視頻生成，多角色多語(yǔ)言對(duì)話，4k清晰度，一致性穩(wěn)到離譜。來看這兩個(gè)case，

這兩個(gè)視頻，第一個(gè)是圖生視頻，第二個(gè)是文生視頻，兩個(gè)視頻的畫面都更加具有電影感，而且都做出了分鏡，第一個(gè)視頻我給到的提示語(yǔ)是：

一名特工在夜晚的香港街頭被人追，時(shí)不時(shí)回頭看對(duì)方位置露出緊張的表情，最終一邊跑一邊從車門跳上一輛行駛中的電車，然后在行駛晃動(dòng)的電車中走向車的后方，伴隨著行駛的電車男人從電車后窗回頭望停下來追不上他停下原地的另一個(gè)男人。緊張，快節(jié)奏，電影感。

在提示語(yǔ)里只是寫出了劇情內(nèi)容，完全沒有告訴它需要在人物進(jìn)行什么動(dòng)作的時(shí)候，用什么樣的鏡頭、什么樣的景別以及什么樣的鏡頭運(yùn)動(dòng)。可靈是自己做出了5個(gè)分鏡。

我和我的編導(dǎo)朋友一拍即合，把一個(gè)個(gè)分鏡拆解來看，看看可靈有沒有導(dǎo)演思維。

第一個(gè)鏡頭可靈用了低角度追拍，人物迎著鏡頭沖向觀眾的動(dòng)態(tài)把緊迫感拉滿。同時(shí)可靈能夠自己思考在畫面中增加了很多和行人碰撞的場(chǎng)景，做出人物和環(huán)境的互動(dòng)。

然后在手持晃動(dòng)的跟拍鏡頭中，露出了人物一個(gè)有點(diǎn)虛焦的面部鏡頭。可靈知道我在提示詞中寫出的男主露出緊張的表情，選擇用特寫鏡頭來展現(xiàn)，這是電影節(jié)奏中的呼吸位。

第三個(gè)鏡頭，可靈又換了一個(gè)視角，展現(xiàn)了人物遇到一輛電車的場(chǎng)景。整個(gè)電車出現(xiàn)的位置并不突兀，而且能夠感覺到人物下一秒就會(huì)跟電車做出互動(dòng)。

第四個(gè)鏡頭，人物跳上車的站位和他上一個(gè)鏡頭的動(dòng)作銜接也是對(duì)應(yīng)上的，這里整個(gè)人物的動(dòng)作以及鏡頭的設(shè)計(jì)，都很有真實(shí)感。

最后一個(gè)鏡頭是人物在車尾看到停下來追擊他的男人，這里通過人物的過肩鏡頭來展現(xiàn)人物的位置關(guān)系，設(shè)計(jì)得也都非常自然。

能看得出來，可靈是明確知道在表現(xiàn)什么樣的畫面內(nèi)容時(shí)，應(yīng)該用什么樣的構(gòu)圖、什么樣的鏡頭運(yùn)動(dòng)以及什么樣的景別。這些知識(shí)是導(dǎo)演需要具備的基礎(chǔ)技術(shù)知識(shí)，可靈現(xiàn)在已經(jīng)擁有了。

除了可以讓可靈幫你自動(dòng)做分鏡之外，如果你已經(jīng)有提前規(guī)劃好的分鏡，知道要如何安排自己的鏡頭，也可以用可靈 3.0 現(xiàn)在的自定義分鏡功能。

在 15 秒內(nèi)最多可以規(guī)劃出 6 個(gè)分鏡，可以選擇每個(gè)分鏡的時(shí)長(zhǎng)，寫好每個(gè)分鏡的劇情內(nèi)容。

我按照上面這張圖的分鏡內(nèi)容，做出了下面這個(gè)視頻，每一個(gè)鏡頭的畫面和時(shí)長(zhǎng)，都是按照我規(guī)定的內(nèi)容做出來的，尤其整個(gè)畫面保持了非常強(qiáng)的風(fēng)格一致性。

可靈這一次升級(jí)的不止是分鏡，

還有多人對(duì)話能力。

我們可以在一段15秒的視頻里面設(shè)計(jì)多個(gè)人物的連續(xù)對(duì)話，而且能夠做出以往 AI 視頻很難做出來的人物正反打?qū)υ掔R頭，比如下面這個(gè)視頻。

人物的對(duì)話非常自然，多個(gè)人物角色在做動(dòng)作的同時(shí)，能保持說話時(shí)要求的情緒音色準(zhǔn)確性，且表演細(xì)膩，同時(shí)對(duì)話鏡頭能保持較高的風(fēng)格和人物的一致性。

可靈在控制分鏡的剪輯時(shí)節(jié)奏也很好，很短的15秒視頻真的很有那種冷幽默的感覺

這解決了AI視頻中非常大的一個(gè)難題，

也就是說，我們以后不需要一張圖一張圖地來固定人臉了，而是可以一組視頻一組視頻地去制作。

我還測(cè)試了幾個(gè)不同風(fēng)格的畫面，每一種畫面都能夠保持嚴(yán)格的一致性，即使是比較風(fēng)格化的動(dòng)畫制作，它也能夠很好地保持下來。

從外景的容器堆場(chǎng)，到藍(lán)紅兩臺(tái)機(jī)甲的涂裝細(xì)節(jié)，再到座艙內(nèi)飛行員的制服，一致性保持得都非常好。九色鹿低頭輕觸凡人額頭的動(dòng)作，輕盈且?guī)в袃x式感，沒有機(jī)械僵硬感。

動(dòng)漫風(fēng)格的人物動(dòng)作沒有變形成偽3D的感覺。仙俠動(dòng)畫中女主角飄逸的高馬尾、淡藍(lán)色的劍光，在 360 度大范圍旋轉(zhuǎn)鏡頭中始終保持著統(tǒng)一的形態(tài)。

強(qiáng)啊強(qiáng)！

而且可靈還能講方言，在這個(gè)基礎(chǔ)上，我又玩了一個(gè)很有意思的東西，在古裝場(chǎng)景中，包裝了一個(gè)非常有地域特點(diǎn)的、四川話風(fēng)格的情侶對(duì)話場(chǎng)景，

可靈的方言講得也很不錯(cuò)，這種就很有意思了，

本來你以為是一個(gè)比較正經(jīng)的場(chǎng)面，結(jié)果兩個(gè)人一開口，是比較接地氣的四川話。地域特征一加上，人物就更加鮮活，整個(gè)畫面就更加有戲劇感。

然后我又又又玩了一個(gè)比較復(fù)雜的場(chǎng)面，是港劇里經(jīng)常能看到的粵語(yǔ)和英語(yǔ)摻雜在一起講的場(chǎng)景。這里我直接使用的是文生視頻。

這個(gè)視頻我寫的提示詞是這樣的，其實(shí)蠻抽象的，說實(shí)話這個(gè)復(fù)雜程度，我一個(gè)廣東本地人都沒讀明白，但是可靈讀明白了，

在一家辦公室里，兩個(gè)人在對(duì)話，A（被搶功者，崩潰又暴怒，聲音發(fā)抖）: 你居然當(dāng)著 Boss 說那個(gè) Strategy 是你想的？那份 Deck 我改了三十遍，凌晨三點(diǎn)還在調(diào) Font！真系 Shameless（不要臉）到爆咯你！（注：語(yǔ)速很快，普通話帶哭腔，英文詞重讀，粵語(yǔ)收尾帶罵意）B（搶功者，輕蔑自信，反咬一口）: Relax，我系 Lead 呀！沒有我去 align 資源，你啲東西根本落唔到地，別咁玻璃心啦！唔好喺度嘈！（注：B全程半笑，眼神藐視，語(yǔ)氣理所當(dāng)然，最后一句用粵語(yǔ)強(qiáng)行壓制對(duì)方）

除了方言之外，可靈的多國(guó)語(yǔ)言講得也都很不錯(cuò)。我直接設(shè)計(jì)了一個(gè)三人場(chǎng)景，然后給他們每一個(gè)人都做了一個(gè)單人的切景分別講中文、英文、韓語(yǔ)。不僅全程人臉保持了一致，而且語(yǔ)言、動(dòng)作、神態(tài)表情做得都很不錯(cuò)。

用到這里，

我還想大拇哥一下可靈這次清晰度是真不錯(cuò)。

即使是切近它自己生成的畫面，鏡頭也都能夠保持很高清晰度，人臉的細(xì)節(jié)什么的做得都很到位。

上面的鏡頭都是我用可靈 3.0 做出來的。

這次可靈還帶來了另一個(gè)新的升級(jí)，

可靈3.0 Omni，

從界面上就可以看到，可靈 3.0 Omni 出現(xiàn)在之前我們介紹過的多模態(tài)視頻編輯功能中可靈O1模型所在的位置，其實(shí)可靈3.0 Omni就是O1升級(jí)后的新版本，更加側(cè)重視頻編輯功能。

我可以在可靈 3.0 Omni 中上傳自己的一段視頻作為創(chuàng)建主體。然后后續(xù)使用這個(gè)主體來創(chuàng)建視頻的話，它就可以很嚴(yán)格地保持音色的一致。

比如說這里，我上傳了一段自己的視頻，作為創(chuàng)建了一個(gè)我自己的角色，

然后我用這個(gè)角色做了兩段 15 秒的視頻，并將它們拼接在了一起。從這兩段視頻中可以聽到，我的角色保持的音色與我的原聲一致，我自己聽起來還是挺明顯的。

固定音色是之前 AI 視頻工具一直以來都沒有解決的問題，只能通過后期配音解決。但是現(xiàn)在我可以直接在可靈做到了，這樣我就不再需要再找人進(jìn)行后期配音，而是一次性直接生成了完整、能夠使用的鏡頭。

同時(shí)，我還嘗試使用可靈 3.0 Omni 使用前面的素材做了一段替換主體的視頻，把人物換成了我自己，

整個(gè)使用的感受來說，

可靈 3.0 Omni 的視頻編輯功能比 O1 要更加穩(wěn)定，不管是風(fēng)格的延續(xù)還是人物的動(dòng)作和表情都會(huì)更加自然。更詳細(xì)使用方法，大家可以參考我之前寫的那篇關(guān)于 O1 的視頻文章。

說實(shí)話，這兩天我還處于一個(gè)震驚的大狀態(tài)中。

感覺AI已經(jīng)告別了單鏡頭的時(shí)代，

迎來了一組多鏡頭同時(shí)生成的這樣一個(gè)新階段。

可靈做出來的多分鏡不只局限于遵循我給的提示語(yǔ)，離譜的是，它能夠在生成的過程中，自己補(bǔ)足我們?cè)趯懱崾菊Z(yǔ)時(shí)可能沒有寫完整的部分。

它會(huì)把這一組鏡頭組合得非常完整，讓這一組鏡頭就能完成單一場(chǎng)景的完整敘事。

這幾天我看到了非常多的人，用兩三句提示詞，就做出了一段極具電影感，人物的表情，動(dòng)作和配音幾乎分不出是 AI 的作品。

以前在我看來，

視頻創(chuàng)作門檻在于你是否有扎實(shí)的影視制作知識(shí)，

有，才能創(chuàng)造出有審美高質(zhì)量的作品，

可靈這次再一次把這個(gè)距離無(wú)限縮短，

短到我伸手就夠到了。

@ 作者 / 阿湯 & 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點(diǎn)贊｜在看｜轉(zhuǎn)發(fā)｜評(píng)論

如果想要第一時(shí)間收到推送，不妨給我個(gè)星標(biāo)

如果你有更有趣的玩法，歡迎在評(píng)論區(qū)和我聊聊

更多的內(nèi)容正在不斷填坑中……

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.