當我用可靈3.0和3.0 Omni抽了100個15s鏡頭后,
我意識到AI視頻又進入一個新時代了。
先說結論,
這次更新了單次15s多分鏡視頻生成,多角色多語言對話,4k清晰度,一致性穩到離譜。來看這兩個case,
這兩個視頻,第一個是圖生視頻,第二個是文生視頻,兩個視頻的畫面都更加具有電影感,而且都做出了分鏡,第一個視頻我給到的提示語是:
一名特工在夜晚的香港街頭被人追,時不時回頭看對方位置露出緊張的表情,最終一邊跑一邊從車門跳上一輛行駛中的電車,然后在行駛晃動的電車中走向車的后方,伴隨著行駛的電車男人從電車后窗回頭望停下來追不上他停下原地的另一個男人。緊張,快節奏,電影感。
在提示語里只是寫出了劇情內容,完全沒有告訴它需要在人物進行什么動作的時候,用什么樣的鏡頭、什么樣的景別以及什么樣的鏡頭運動。可靈是自己做出了5個分鏡。
我和我的編導朋友一拍即合,把一個個分鏡拆解來看,看看可靈有沒有導演思維。
第一個鏡頭可靈用了低角度追拍,人物迎著鏡頭沖向觀眾的動態把緊迫感拉滿。同時可靈能夠自己思考在畫面中增加了很多和行人碰撞的場景,做出人物和環境的互動。
![]()
然后在手持晃動的跟拍鏡頭中,露出了人物一個有點虛焦的面部鏡頭。可靈知道我在提示詞中寫出的男主露出緊張的表情,選擇用特寫鏡頭來展現,這是電影節奏中的呼吸位。
![]()
第三個鏡頭,可靈又換了一個視角,展現了人物遇到一輛電車的場景。整個電車出現的位置并不突兀,而且能夠感覺到人物下一秒就會跟電車做出互動。
![]()
第四個鏡頭,人物跳上車的站位和他上一個鏡頭的動作銜接也是對應上的,這里整個人物的動作以及鏡頭的設計,都很有真實感。
![]()
最后一個鏡頭是人物在車尾看到停下來追擊他的男人,這里通過人物的過肩鏡頭來展現人物的位置關系,設計得也都非常自然。
![]()
能看得出來,可靈是明確知道在表現什么樣的畫面內容時,應該用什么樣的構圖、什么樣的鏡頭運動以及什么樣的景別。這些知識是導演需要具備的基礎技術知識,可靈現在已經擁有了。
除了可以讓可靈幫你自動做分鏡之外,如果你已經有提前規劃好的分鏡,知道要如何安排自己的鏡頭,也可以用可靈 3.0 現在的自定義分鏡功能。
![]()
在 15 秒內最多可以規劃出 6 個分鏡,可以選擇每個分鏡的時長,寫好每個分鏡的劇情內容。
![]()
我按照上面這張圖的分鏡內容,做出了下面這個視頻,每一個鏡頭的畫面和時長,都是按照我規定的內容做出來的,尤其整個畫面保持了非常強的風格一致性。
可靈這一次升級的不止是分鏡,
還有多人對話能力。
我們可以在一段15秒的視頻里面設計多個人物的連續對話,而且能夠做出以往 AI 視頻很難做出來的人物正反打對話鏡頭,比如下面這個視頻。
人物的對話非常自然,多個人物角色在做動作的同時,能保持說話時要求的情緒音色準確性,且表演細膩,同時對話鏡頭能保持較高的風格和人物的一致性。
可靈在控制分鏡的剪輯時節奏也很好,很短的15秒視頻真的很有那種冷幽默的感覺
這解決了AI視頻中非常大的一個難題,
也就是說,我們以后不需要一張圖一張圖地來固定人臉了,而是可以一組視頻一組視頻地去制作。
我還測試了幾個不同風格的畫面,每一種畫面都能夠保持嚴格的一致性,即使是比較風格化的動畫制作,它也能夠很好地保持下來。
從外景的容器堆場,到藍紅兩臺機甲的涂裝細節,再到座艙內飛行員的制服,一致性保持得都非常好。九色鹿低頭輕觸凡人額頭的動作,輕盈且帶有儀式感,沒有機械僵硬感。
動漫風格的人物動作沒有變形成偽3D的感覺。仙俠動畫中女主角飄逸的高馬尾、淡藍色的劍光,在 360 度大范圍旋轉鏡頭中始終保持著統一的形態。
強啊強!
而且可靈還能講方言,在這個基礎上,我又玩了一個很有意思的東西,在古裝場景中,包裝了一個非常有地域特點的、四川話風格的情侶對話場景,
可靈的方言講得也很不錯,這種就很有意思了,
本來你以為是一個比較正經的場面,結果兩個人一開口,是比較接地氣的四川話。地域特征一加上,人物就更加鮮活,整個畫面就更加有戲劇感。
然后我又又又玩了一個比較復雜的場面,是港劇里經常能看到的粵語和英語摻雜在一起講的場景。這里我直接使用的是文生視頻。
這個視頻我寫的提示詞是這樣的,其實蠻抽象的,說實話這個復雜程度,我一個廣東本地人都沒讀明白,但是可靈讀明白了,
在一家辦公室里,兩個人在對話,A(被搶功者,崩潰又暴怒,聲音發抖): 你居然當著 Boss 說那個 Strategy 是你想的?那份 Deck 我改了三十遍,凌晨三點還在調 Font!真系 Shameless(不要臉)到爆咯你!(注:語速很快,普通話帶哭腔,英文詞重讀,粵語收尾帶罵意)B(搶功者,輕蔑自信,反咬一口): Relax,我系 Lead 呀!沒有我去 align 資源,你啲東西根本落唔到地,別咁玻璃心啦!唔好喺度嘈!(注:B全程半笑,眼神藐視,語氣理所當然,最后一句用粵語強行壓制對方)
除了方言之外,可靈的多國語言講得也都很不錯。我直接設計了一個三人場景,然后給他們每一個人都做了一個單人的切景分別講中文、英文、韓語。不僅全程人臉保持了一致,而且語言、動作、神態表情做得都很不錯。
用到這里,
我還想大拇哥一下可靈這次清晰度是真不錯。
即使是切近它自己生成的畫面,鏡頭也都能夠保持很高清晰度,人臉的細節什么的做得都很到位。
上面的鏡頭都是我用可靈 3.0 做出來的。
這次可靈還帶來了另一個新的升級,
可靈3.0 Omni,
從界面上就可以看到,可靈 3.0 Omni 出現在之前我們介紹過的多模態視頻編輯功能中可靈O1模型所在的位置,其實可靈3.0 Omni就是O1升級后的新版本,更加側重視頻編輯功能。
![]()
我可以在可靈 3.0 Omni 中上傳自己的一段視頻作為創建主體。然后后續使用這個主體來創建視頻的話,它就可以很嚴格地保持音色的一致。
比如說這里,我上傳了一段自己的視頻,作為創建了一個我自己的角色,
然后我用這個角色做了兩段 15 秒的視頻,并將它們拼接在了一起。從這兩段視頻中可以聽到,我的角色保持的音色與我的原聲一致,我自己聽起來還是挺明顯的。
固定音色是之前 AI 視頻工具一直以來都沒有解決的問題,只能通過后期配音解決。但是現在我可以直接在可靈做到了,這樣我就不再需要再找人進行后期配音,而是一次性直接生成了完整、能夠使用的鏡頭。
同時,我還嘗試使用可靈 3.0 Omni 使用前面的素材做了一段替換主體的視頻,把人物換成了我自己,
整個使用的感受來說,
可靈 3.0 Omni 的視頻編輯功能比 O1 要更加穩定,不管是風格的延續還是人物的動作和表情都會更加自然。更詳細使用方法,大家可以參考我之前寫的那篇關于 O1 的視頻文章。
說實話,這兩天我還處于一個震驚的大狀態中。
感覺AI已經告別了單鏡頭的時代,
迎來了一組多鏡頭同時生成的這樣一個新階段。
可靈做出來的多分鏡不只局限于遵循我給的提示語,離譜的是,它能夠在生成的過程中,自己補足我們在寫提示語時可能沒有寫完整的部分。
它會把這一組鏡頭組合得非常完整,讓這一組鏡頭就能完成單一場景的完整敘事。
這幾天我看到了非常多的人,用兩三句提示詞,就做出了一段極具電影感,人物的表情,動作和配音幾乎分不出是 AI 的作品。
以前在我看來,
視頻創作門檻在于你是否有扎實的影視制作知識,
有,才能創造出有審美高質量的作品,
可靈這次再一次把這個距離無限縮短,
短到我伸手就夠到了。
@ 作者 / 阿湯 & 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
如果你有更有趣的玩法,歡迎在評論區和我聊聊
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.