作者|子川
來源|AI先鋒官
雖然這句話已經(jīng)說了N次了,但還是忍不住大聲喊出來:
阿里又開源啦!!!
![]()
這次開源的是一個非常好玩的音頻驅(qū)動的視頻模型——Wan2.2-S2V。
到底有多好玩?
只需上傳一張圖片和一段音頻,就能生成一段表情自然、口型一致、肢體動作協(xié)調(diào)的數(shù)字人視頻。
話不多說,先來一波展示。
一位女生聲情并茂地唱著粵語歌。
一群修女在教堂里唱贊美詩。
蔡徐坤著講著自己的冷笑話。
從視頻中,我們不難看出,Wan2.2-S2V不僅口型對得好,而且會增加一些身體的晃動,使其更加的自然。
據(jù)通義團隊介紹,Wan2.2-S2在FID(視頻質(zhì)量)、EFID(表達真實性)、CSIM(身份一致性)等核心指標中,在同類模型中取得了最好或接近最佳的性能。
![]()
深度體驗過后,發(fā)現(xiàn)Wan2.2-S2確實是一個值得玩的模型。
比如我上傳一張女生圖片和鄧紫棋的光年之外的音頻,一段十分自然的數(shù)字人視頻就生成了。
先說優(yōu)點,對口型這方面沒話說,口型一致,而且主要的是隨著聲音的起伏,身體也會跟著晃動,期間還有眨眼的動作,使其看起來更加自然。
再來說缺點,犯了許多數(shù)字人的老毛病,不夠自然,有些許的突兀感。
據(jù)介紹,除了真人外,Wan2.2-S2還支持卡通、動物等多種類型圖片。
隨后我們也分別測試了一下。
上傳一張漫畫圖片,讓它上傳相應的數(shù)字人視頻。
不過在上傳一張小貓咪的照片后,系統(tǒng)提示“未檢測到角色,請嘗試使用包含清晰的角色的圖片”。
經(jīng)過多次嘗試,都沒有成功識別動物角色并生成數(shù)字人視頻。
![]()
后續(xù)還測試了水墨畫和卡通圖片這類題材, Wan2.2-S2 都是支持的,生成的效果還不賴。
為了進一步探究Wan2.2-S2的極限,我們進行了兩項難度更高的測試。上傳了一張側(cè)臉照片,看能不能精準識別。
答案很明顯,即使是側(cè)臉圖依舊能精準識別,生成口型一致的數(shù)字人視頻,
Wan2.2-S2的 人臉識別與關鍵點追蹤能力還是很抗打的。
不過缺點也很明顯,與正面照片生成的數(shù)字人相比,側(cè)臉數(shù)字人在整體自然度上略顯遜色,面部細節(jié)的表達不如正面圖那般生動。
后續(xù)加大點難度,測試了首語速較快的音。
這次就有點翻車了,在高速的音頻輸入下,明顯感受到部分口型未能與聲音完美對齊,出現(xiàn)了延遲的現(xiàn)象。
目前,Wan2.2-S2已經(jīng)正式開源,大家可以 在Github、HuggingFace和魔搭社區(qū)下載模型,通過阿里云百煉調(diào)用API,或在通義萬相官網(wǎng)直接體驗。
感興趣的小伙伴可以去試玩一下。
掃碼邀請進群,我們帶你一起來玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
![]()
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.