網易首頁 > 網易號 > 正文申請入駐

阿里視頻生成模型登場！號稱全球功能最全，附一手體驗

2025-12-16 19:24:08　來源: 智東西

北京舉報

分享至

智東西
作者李水青
編輯心緣

智東西12月16日報道，今日，阿里推出新一代萬相2.6系列模型。該系列模型支持音畫同步、多鏡頭生成及聲音驅動等多項功能，號稱是全球功能最全的視頻生成模型，并且是國內首個支持角色扮演功能的視頻模型。

相比于9月發布的萬相2.5，萬相2.6本次升級面向專業影視和圖像創作，進一步提升了畫質、音效、指令遵循等能力，單次視頻時長實現國內最高的15s，還新增了角色扮演和分鏡控制功能。

智東西第一時間試用了萬相2.6，發現穩定的音畫同步生成在這一版本中已經是標配，指令遵循能力提升；全新的分鏡控制功能表現驚艷，能夠理解腳本分鏡術語，多鏡頭間的主體、場景一致性較強，剪輯效果連貫，多人互動仍略有機械感，但比此前更接近真人；角色扮演功能也能實現貼合原角色特征，但多人場景可能出現角色替換錯配問題。

即日起，所有人可直接在萬相官網體驗萬相2.6，企業用戶還能通過阿里云百煉調用模型API，據悉，千問APP也將于近期上線該模型。

體驗鏈接：
萬相官網：https://tongyi.aliyun.com/wan/
阿里云百煉API：https://bailian.console.aliyun.com/?tab=model#/model-market/all?providers=wan

一、上傳多鏡頭腳本，AI直接生成15秒劇情短片

如下視頻所示，當我上傳一張我的數字人分身的照片，輸入一段分鏡腳本提示詞，萬相2.6在幾分鐘之內一次就成功生成了我需要的帶音畫同步的視頻，與提示詞精準匹配，分鏡銜接具有大片感，并且生成的人物保持了較好一致性，沒有出現明顯“穿幫”鏡頭。

提示詞：
愛豆的臺前與幕后。
鏡頭1 [0-2秒] 女孩在臺上唱歌，星光璀璨。
鏡頭2 [3-6秒] 周圍的燈光驟暗，女生在化妝鏡前卸妝。
鏡頭3 [7-10秒] 遠景，女生穿著機車服，騎著摩托車呼嘯而過。

▲萬相2.6生成的視頻（源自：智東西）

當我加大難度，上傳了一個男生和女生走在操場上的照片，并輸入圍繞“男生向女生表白”主題的相關分鏡提示詞，如下視頻所示，萬相2.6也能夠在幾分鐘之內生成準確呈現劇情的15秒視頻，人物的動作、嘴型和聲音比較一致，人物的情緒飽滿，不過相比于上一個單人視頻略顯AI味，不如真人表演具有靈動感，但已經好過之前的AI生成效果。

提示詞：
校園操場，男生真誠跪地表白，氛圍溫暖感人。
鏡頭1 [0-5秒]?中景：男生叫住女生，緊張遞花，女生疑惑。
鏡頭2 [6-10秒]?遠景：男女生對視，認真告白，女生驚訝捂嘴。
鏡頭3 [10-15秒]?特寫，女生點頭接受，對男生笑。

▲萬相2.6生成的視頻（源自：智東西）

下面是一段通義萬相官方公布的分鏡控制功能示例，更加專業的操作人員配合萬相2.6試用，有望生成大片感更足的多分鏡視頻。

▲萬相2.6分鏡控制功能示例（圖源：通義萬相）

二、國內首個AI視頻角色扮演模型，實測一鍵變“女版馬斯克”

然后來看看角色扮演，萬相2.6能參考輸入視頻中的角色外觀和音色、實現角色扮演，按照提示詞生成單人、多人、人與物合拍的視頻。

當我上傳一段馬斯克采訪的相關視頻，并輸入我的數字人分身，希望讓我的分身去模仿馬斯克的受訪時的神態，萬相2.6能快速將馬斯克替換為我的“數字分身”——一個女版馬斯克，穿著大碼的夾克叉腿作者，兩手交叉一邊深度一思考一邊認真講述自己的觀點，神態高度還原了馬斯克，但生成視頻的聲音依然保留了男性聲音。

▲萬相2.6生成的視頻（源自：智東西）

當我加大難度，上傳了一個動態效果更強、有多個角色的視頻：哈利?波特的好朋友赫敏?格蘭杰飛奔向他兩人擁抱，只見萬相2.6也能夠捕捉到人物，準確地將赫敏替換成我的數字分身，從遠處飛奔過來，朋友見面的喜悅的神態、動作都還原地十分生動。

▲萬相2.6生成的視頻（源自：智東西）

美中不足是萬相2.6捕捉和替換角色有點像短視頻平臺的變身特效一樣“隨意”，有一幀依然保留了原演員艾瑪?沃特森的畫面，而最后一幀將哈利·波特的臉換成了我的數字分身。理論上這是可以通過提示詞調整的，但在我使用的時候該功能無法進行提示詞編輯。如果萬相2.6能針對多角色視頻增加一個“角色選擇”勾選功能，這一功能的可用性或許將更高。

針對角色扮演，下面是通義萬相官方提供的一個示例：用戶上傳一段個人視頻，并輸入一段科幻懸疑風格的提示詞，萬相2.6能快速完成分鏡設計、角色演繹、畫面配音等環節工作。

▲萬相2.6角色扮演功能實例（圖源：通義萬相）

三、支持多模態聯合建模與學習，可進行高層語義理解

主打“面向專業影視制作”，萬相2.6在業界十分關注的“細節穿幫”問題上表現如何，做了哪些工作？

萬相2.6相關負責人在采訪中告訴智東西，現在沒有任何一個模型完全做到沒有Bad Case（所謂的“穿幫”），萬相2.6的穩定性要比上個版本明顯加強，當用戶多次輸入提示詞可能得到不同的結果，其實真人演員對同一個劇本每次的表現也是不一樣的。它不是為了去解決“穿幫”問題，（不過）用戶可以使用多次生成來看哪一個結果更符合預期。

其在模型結構上集成了多項創新技術，可對輸入參考視頻進行多模態聯合建模與學習，參考具有時序信息的主體情緒、姿態和多角度全面視覺特征，同時提取音色、語速等聲學特征，在生成階段作為參考條件控制，實現從畫面到聲音的全感官全維度一致性保持與遷移，目前萬相可支持單人和多人的表演。

在分鏡控制上，通義萬相能通過高層語義理解，將原始輸入構建為具備完整故事線與敘事張力的專業級多鏡頭段落，在多鏡頭切換的過程中保持核心主體、場景布局和環境氛圍統一建模，確保全片在內容、節奏和氛圍上的高一致性。

結語：國產視覺生成模型功能加速迭代

今年9月，阿里率先在國內發布音畫同步的視頻生成模型萬相2.5，在權威大模型評測集LMArena上，萬相圖生視頻位居國內第一。三個多月后，萬相2.6又推出了角色替換、多鏡頭控制等功能，提升幅度明顯。

國產視覺生成模型正在刷新更多全球記錄。目前，萬相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動作生成、角色扮演及通用視頻編輯等10多種視覺創作能力，據稱已成為全球功能最全的視頻生成模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.