《鳳凰WEEKLY財(cái)經(jīng)》獲悉,12月16日,阿里發(fā)布新一代萬(wàn)相2.6系列模型。
據(jù)悉,該系列模型面向?qū)I(yè)影視制作和圖像創(chuàng)作場(chǎng)景進(jìn)行了全面升級(jí),是國(guó)內(nèi)首個(gè)支持角色扮演功能的視頻模型。該模型同時(shí)支持音畫同步、多鏡頭生成及聲音驅(qū)動(dòng)等功能,是全球功能最全的視頻生成模型。目前,萬(wàn)相2.6已同步上線阿里云百煉、萬(wàn)相官網(wǎng)。
據(jù)阿里方面介紹,今年9月,阿里率先在國(guó)內(nèi)發(fā)布音畫同步的視頻生成模型萬(wàn)相2.5,極大提升視頻創(chuàng)作的效率,在權(quán)威大模型評(píng)測(cè)集LMArena上,萬(wàn)相圖生視頻位居國(guó)內(nèi)第一。此次發(fā)布的萬(wàn)相2.6進(jìn)一步提升了畫質(zhì)、音效、指令遵循等能力,單次視頻時(shí)長(zhǎng)實(shí)現(xiàn)國(guó)內(nèi)最高的15s,萬(wàn)相2.6還新增了角色扮演和分鏡控制功能,不僅能一鍵完成單人、多人、人與物合拍的視頻,還能自動(dòng)實(shí)現(xiàn)多鏡頭切換等專業(yè)任務(wù),滿足專業(yè)影視級(jí)場(chǎng)景需求。
值得注意的是,通義萬(wàn)相在模型結(jié)構(gòu)上集成了多項(xiàng)創(chuàng)新技術(shù),可對(duì)輸入?yún)⒖家曨l進(jìn)行多模態(tài)聯(lián)合建模與學(xué)習(xí),參考具有時(shí)序信息的主體情緒、姿態(tài)和多角度全面視覺特征,同時(shí)提取音色、語(yǔ)速等聲學(xué)特征,在生成階段作為參考條件控制,實(shí)現(xiàn)從畫面到聲音的全感官全維度一致性保持與遷移,目前萬(wàn)相可支持單人和多人的表演。
在分鏡控制上,通義萬(wàn)相能通過高層語(yǔ)義理解,將原始輸入構(gòu)建為具備完整故事線與敘事張力的專業(yè)級(jí)多鏡頭段落,在多鏡頭絲滑切換的過程中保持核心主體、場(chǎng)景布局和環(huán)境氛圍統(tǒng)一建模,確保全片在內(nèi)容、節(jié)奏和氛圍上的高一致性。
另外,萬(wàn)相2.6的角色扮演功能讓普通用戶也能在影視級(jí)畫面里表現(xiàn)精湛的演技。例如,用戶上傳一段個(gè)人視頻,并輸入一段科幻懸疑風(fēng)格的提示詞,萬(wàn)相2.6能快速完成分鏡設(shè)計(jì)、角色演繹、畫面配音等環(huán)節(jié)工作,生成一段鏡頭敘事完整、電影級(jí)運(yùn)鏡的短片,僅需幾分鐘就能幫用戶圓電影主角夢(mèng)。
面向廣告設(shè)計(jì)、短劇制作等專業(yè)場(chǎng)景,通過輸入連續(xù)提示詞,萬(wàn)相還能生成一段完整敘事的短片,讓人人都能當(dāng)導(dǎo)演。例如,輸入一段廣告創(chuàng)意的提示詞,萬(wàn)相2.6能生成一段包含人物角色和商品的廣告視頻,并且在多鏡頭切換的情況下保持主體、場(chǎng)景等關(guān)鍵信息的一致性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.