鳳凰網(wǎng)科技訊 12月16日,字節(jié)跳動(dòng)發(fā)布新一代音視頻生成模型Seedance 1.5 pro。該模型支持從文本或圖像生成帶有同步音頻的視頻,實(shí)現(xiàn)了音視頻的聯(lián)合生成。
![]()
據(jù)介紹,Seedance 1.5 pro在音畫(huà)同步方面進(jìn)行了優(yōu)化,旨在提升生成內(nèi)容中口型、語(yǔ)調(diào)與表演節(jié)奏的一致性。模型支持包括中文、英文、日文在內(nèi)的多語(yǔ)種,并可模擬四川話、粵語(yǔ)等方言的語(yǔ)音特征。在視頻層面,該模型聲稱具備一定的自主運(yùn)鏡調(diào)度能力,可生成如長(zhǎng)鏡頭跟隨、希區(qū)柯克式變焦等效果,以增強(qiáng)畫(huà)面的動(dòng)態(tài)張力與敘事感。
技術(shù)層面,該模型采用了基于MMDiT架構(gòu)的音視頻聯(lián)合生成框架,并通過(guò)多階段數(shù)據(jù)鏈路與強(qiáng)化學(xué)習(xí)方式進(jìn)行優(yōu)化。團(tuán)隊(duì)表示,其已在影視創(chuàng)作、廣告制作、短劇及游戲內(nèi)容等場(chǎng)景中進(jìn)行測(cè)試,生成內(nèi)容在指令遵循、音質(zhì)表現(xiàn)等方面有所提升,但在復(fù)雜運(yùn)動(dòng)的物理穩(wěn)定性、多角色對(duì)話等方面仍有改進(jìn)空間。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.