阿里發(fā)布通義萬相2.6系列視頻生成模型，上線國內(nèi)首個角色扮演功能 | 鈦快訊

2025-12-16 13:12:13　來源: 鈦媒體APP

北京舉報

分享至

12月16日消息，阿里發(fā)布新一代萬相2.6系列模型，該系列模型面向?qū)I(yè)影視制作和圖像創(chuàng)作場景進行了全面升級，全新的萬相2.6是國內(nèi)首個支持角色扮演功能的視頻模型。該模型同時支持音畫同步、多鏡頭生成及聲音驅(qū)動等功能，是目前全球功能最全的視頻生成模型。萬相2.6已同步上線阿里云百煉、萬相官網(wǎng)。

今年9月，阿里率先在國內(nèi)發(fā)布音畫同步的視頻生成模型萬相2.5，極大提升視頻創(chuàng)作的效率，在權(quán)威大模型評測集LMArena上，萬相圖生視頻位居國內(nèi)第一。

此次發(fā)布的萬相2.6進一步提升了畫質(zhì)、音效、指令遵循等能力，單次視頻時長實現(xiàn)國內(nèi)最高的15s，萬相2.6新增了角色扮演和分鏡控制功能，不僅能一鍵完成單人、多人、人與物合拍的視頻，還能自動實現(xiàn)多鏡頭切換等專業(yè)任務，滿足專業(yè)影視級場景需求。

萬相2.6是國內(nèi)首個支持角色扮演功能的模型，能參考輸入視頻中的角色外觀和音色、實現(xiàn)角色扮演，按照提示詞生成單人、多人、人與物合拍的視頻

據(jù)介紹，通義萬相在模型結(jié)構(gòu)上集成了多項創(chuàng)新技術(shù)，可對輸入?yún)⒖家曨l進行多模態(tài)聯(lián)合建模與學習，參考具有時序信息的主體情緒、姿態(tài)和多角度全面視覺特征，同時提取音色、語速等聲學特征，在生成階段作為參考條件控制，實現(xiàn)從畫面到聲音的全感官全維度一致性保持與遷移，目前萬相可支持單人和多人的表演。

萬相2.6可將用戶簡單的提示詞轉(zhuǎn)換為多分鏡腳本，生成包含多個鏡頭的連貫敘事視頻，并且保持多鏡頭間的主體、場景等關鍵信息的一致性

在分鏡控制上，通義萬相能通過高層語義理解，將原始輸入構(gòu)建為具備完整故事線與敘事張力的專業(yè)級多鏡頭段落，在多鏡頭絲滑切換的過程中保持核心主體、場景布局和環(huán)境氛圍統(tǒng)一建模，確保全片在內(nèi)容、節(jié)奏和氛圍上的高一致性。

萬相2.6的角色扮演功能讓普通用戶也能在影視級畫面里表現(xiàn)精湛的演技。例如，用戶上傳一段個人視頻，并輸入一段科幻懸疑風格的提示詞，萬相2.6能快速完成分鏡設計、角色演繹、畫面配音等環(huán)節(jié)工作，生成一段鏡頭敘事完整、電影級運鏡的短片，僅需幾分鐘就能幫用戶圓電影主角夢。

面向廣告設計、短劇制作等專業(yè)場景，通過輸入連續(xù)提示詞，萬相還能生成一段完整敘事的短片，讓人人都能當導演。例如，輸入一段廣告創(chuàng)意的提示詞，萬相2.6能生成一段包含人物角色和商品的廣告視頻，并且在多鏡頭切換的情況下保持主體、場景等關鍵信息的一致性。

即日起，所有人可直接在萬相官網(wǎng)體驗萬相2.6，企業(yè)用戶還能通過阿里云百煉調(diào)用模型API，據(jù)悉，千問APP也將于近期上線該模型，并提供更豐富的玩法。目前，萬相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動作生成、角色扮演及通用視頻編輯等10多種視覺創(chuàng)作能力，已廣泛應用于AI漫劇、廣告設計和短視頻創(chuàng)作等領域。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.