![]()
智東西
作者 李水青
編輯 心緣
智東西12月16日報道,今日,阿里推出新一代萬相2.6系列模型。該系列模型支持音畫同步、多鏡頭生成及聲音驅動等多項功能,號稱是全球功能最全的視頻生成模型,并且是國內首個支持角色扮演功能的視頻模型。
相比于9月發布的萬相2.5,萬相2.6本次升級面向專業影視和圖像創作,進一步提升了畫質、音效、指令遵循等能力,單次視頻時長實現國內最高的15s,還新增了角色扮演和分鏡控制功能。
智東西第一時間試用了萬相2.6,發現穩定的音畫同步生成在這一版本中已經是標配,指令遵循能力提升;全新的分鏡控制功能表現驚艷,能夠理解腳本分鏡術語,多鏡頭間的主體、場景一致性較強,剪輯效果連貫,多人互動仍略有機械感,但比此前更接近真人;角色扮演功能也能實現貼合原角色特征,但多人場景可能出現角色替換錯配問題。
即日起,所有人可直接在萬相官網體驗萬相2.6,企業用戶還能通過阿里云百煉調用模型API,據悉,千問APP也將于近期上線該模型。
體驗鏈接:
萬相官網:https://tongyi.aliyun.com/wan/
阿里云百煉API:https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan
一、上傳多鏡頭腳本,AI直接生成15秒劇情短片
如下視頻所示,當我上傳一張我的數字人分身的照片,輸入一段分鏡腳本提示詞,萬相2.6在幾分鐘之內一次就成功生成了我需要的帶音畫同步的視頻,與提示詞精準匹配,分鏡銜接具有大片感,并且生成的人物保持了較好一致性,沒有出現明顯“穿幫”鏡頭。
提示詞:
愛豆的臺前與幕后。
鏡頭1 [0-2秒] 女孩在臺上唱歌,星光璀璨。
鏡頭2 [3-6秒] 周圍的燈光驟暗,女生在化妝鏡前卸妝。
鏡頭3 [7-10秒] 遠景,女生穿著機車服,騎著摩托車呼嘯而過。
▲萬相2.6生成的視頻(源自:智東西)
當我加大難度,上傳了一個男生和女生走在操場上的照片,并輸入圍繞“男生向女生表白”主題的相關分鏡提示詞,如下視頻所示,萬相2.6也能夠在幾分鐘之內生成準確呈現劇情的15秒視頻,人物的動作、嘴型和聲音比較一致,人物的情緒飽滿,不過相比于上一個單人視頻略顯AI味,不如真人表演具有靈動感,但已經好過之前的AI生成效果。
提示詞:
校園操場,男生真誠跪地表白,氛圍溫暖感人。
鏡頭1 [0-5秒]?中景:男生叫住女生,緊張遞花,女生疑惑。
鏡頭2 [6-10秒]?遠景:男女生對視,認真告白,女生驚訝捂嘴。
鏡頭3 [10-15秒]?特寫,女生點頭接受,對男生笑。
▲萬相2.6生成的視頻(源自:智東西)
下面是一段通義萬相官方公布的分鏡控制功能示例,更加專業的操作人員配合萬相2.6試用,有望生成大片感更足的多分鏡視頻。
▲萬相2.6分鏡控制功能示例(圖源:通義萬相)
二、國內首個AI視頻角色扮演模型,實測一鍵變“女版馬斯克”
然后來看看角色扮演,萬相2.6能參考輸入視頻中的角色外觀和音色、實現角色扮演,按照提示詞生成單人、多人、人與物合拍的視頻。
當我上傳一段馬斯克采訪的相關視頻,并輸入我的數字人分身,希望讓我的分身去模仿馬斯克的受訪時的神態,萬相2.6能快速將馬斯克替換為我的“數字分身”——一個女版馬斯克,穿著大碼的夾克叉腿作者,兩手交叉一邊深度一思考一邊認真講述自己的觀點,神態高度還原了馬斯克,但生成視頻的聲音依然保留了男性聲音。
▲萬相2.6生成的視頻(源自:智東西)
當我加大難度,上傳了一個動態效果更強、有多個角色的視頻:哈利?波特的好朋友赫敏?格蘭杰飛奔向他兩人擁抱,只見萬相2.6也能夠捕捉到人物,準確地將赫敏替換成我的數字分身,從遠處飛奔過來,朋友見面的喜悅的神態、動作都還原地十分生動。
▲萬相2.6生成的視頻(源自:智東西)
美中不足是萬相2.6捕捉和替換角色有點像短視頻平臺的變身特效一樣“隨意”,有一幀依然保留了原演員艾瑪?沃特森的畫面,而最后一幀將哈利·波特的臉換成了我的數字分身。理論上這是可以通過提示詞調整的,但在我使用的時候該功能無法進行提示詞編輯。如果萬相2.6能針對多角色視頻增加一個“角色選擇”勾選功能,這一功能的可用性或許將更高。
針對角色扮演,下面是通義萬相官方提供的一個示例:用戶上傳一段個人視頻,并輸入一段科幻懸疑風格的提示詞,萬相2.6能快速完成分鏡設計、角色演繹、畫面配音等環節工作。
▲萬相2.6角色扮演功能實例(圖源:通義萬相)
三、支持多模態聯合建模與學習,可進行高層語義理解
主打“面向專業影視制作”,萬相2.6在業界十分關注的“細節穿幫”問題上表現如何,做了哪些工作?
萬相2.6相關負責人在采訪中告訴智東西,現在沒有任何一個模型完全做到沒有Bad Case(所謂的“穿幫”),萬相2.6的穩定性要比上個版本明顯加強,當用戶多次輸入提示詞可能得到不同的結果,其實真人演員對同一個劇本每次的表現也是不一樣的。它不是為了去解決“穿幫”問題,(不過)用戶可以使用多次生成來看哪一個結果更符合預期。
其在模型結構上集成了多項創新技術,可對輸入參考視頻進行多模態聯合建模與學習,參考具有時序信息的主體情緒、姿態和多角度全面視覺特征,同時提取音色、語速等聲學特征,在生成階段作為參考條件控制,實現從畫面到聲音的全感官全維度一致性保持與遷移,目前萬相可支持單人和多人的表演。
在分鏡控制上,通義萬相能通過高層語義理解,將原始輸入構建為具備完整故事線與敘事張力的專業級多鏡頭段落,在多鏡頭切換的過程中保持核心主體、場景布局和環境氛圍統一建模,確保全片在內容、節奏和氛圍上的高一致性。
結語:國產視覺生成模型功能加速迭代
今年9月,阿里率先在國內發布音畫同步的視頻生成模型萬相2.5,在權威大模型評測集LMArena上,萬相圖生視頻位居國內第一。三個多月后,萬相2.6又推出了角色替換、多鏡頭控制等功能,提升幅度明顯。
國產視覺生成模型正在刷新更多全球記錄。目前,萬相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動作生成、角色扮演及通用視頻編輯等10多種視覺創作能力,據稱已成為全球功能最全的視頻生成模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.