字節(jié)今天發(fā)布了 Seedance 1.5 pro,原生音視頻聯(lián)合生成
劃重點(diǎn) 視頻、聲音同時(shí)生成,而非先出視頻、再配音對(duì)口型
![]()
本文里,我將以盡可能易懂的方式,講講其原理
保證中學(xué)生能看懂
如果你需要更專業(yè)、細(xì)致的了解,可以看這個(gè)技術(shù)報(bào)告https://arxiv.org/abs/2512.13507v2
![]()
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model
先看兩個(gè)案例,感受下這個(gè)技術(shù)
案例一:火鍋店,三代人,三種口音
重慶火鍋店包間,三人圍坐吃火鍋,熱氣騰騰。畫(huà)面左側(cè)的老人用重慶話說(shuō)「這個(gè)毛肚七上八下,剛剛好」,說(shuō)完夾起毛肚。畫(huà)面中間的中年男人給右側(cè)的年輕人夾菜,用普通話說(shuō)「慢點(diǎn)吃,小心燙」。年輕人吃完后用上海話說(shuō)「爺爺,辣是辣,不過(guò)老靈額」。老人聽(tīng)完哈哈大笑拍桌子,三人相視而笑。全程緩慢推鏡,背景是火鍋沸騰聲和餐廳環(huán)境音
案例二:審訊室,甩鏡,微表情
女人坐在昏暗的審訊桌前,神情嚴(yán)肅,不屑的翻看著資料,女人說(shuō):“前面你說(shuō)了這么多,聽(tīng)起來(lái)天衣無(wú)縫的。”說(shuō)完后,鏡頭向左邊方向快速甩鏡。此時(shí)畫(huà)外音女偵探有力量的語(yǔ)調(diào)快速問(wèn)”你是AI吧?!“特寫(xiě)男人的面部,圍繞男人緩慢旋轉(zhuǎn)的推鏡頭,推鏡至五官,男人表情緊張,眼睛微微睜大,流露出一絲絲輕微的不安感。男人聽(tīng)完單手摘下眼鏡,低下頭,停頓一下,抬頭皺眉,然后從抿嘴轉(zhuǎn)為嘴角微笑的表情,輕微咽一下口水,隨后微笑著問(wèn):”你怎么知道?“
Seedance 1.5 pro
12 月 18 日,火山的 FORCE 原動(dòng)力大會(huì)上,發(fā)布了豆包視頻生成模型 Seedance 1.5 pro,核心賣點(diǎn)是「原生音視頻聯(lián)合生成」
這個(gè)模型,能做四件事:
?
文本生成音視頻(T2VA):你寫(xiě)一段描述,它生成帶聲音的視頻?
圖片生成音視頻(I2VA):你給一張圖,它生成帶聲音的視頻?
文本生成視頻(T2V):傳統(tǒng)的文生視頻,不帶聲音?
圖片生成視頻(I2V):傳統(tǒng)的圖生視頻,不帶聲音
之前一些音畫(huà)同出,是「縫合怪」:模型先生成畫(huà)面,然后再來(lái)配音
問(wèn)題在于,視頻已經(jīng)定型了,口型已經(jīng)固定了,配音只能盡量去對(duì)。對(duì)不上的地方就會(huì)穿幫,行業(yè)里管這個(gè)叫「腹語(yǔ)效應(yīng)」
Seedance 1.5 pro 則做到了音視頻同時(shí)生成,兩邊持續(xù)交換信息
視頻流知道現(xiàn)在該說(shuō)什么話,音頻流知道現(xiàn)在畫(huà)面是什么表情
![]()
音視頻同時(shí)生成 架構(gòu)是怎樣的
Seedance 1.5 pro 用的是雙分支 Diffusion Transformer 架構(gòu)
Diffusion Transformer
Diffusion Transformer 這是當(dāng)前視頻生成的主流架構(gòu)
Sora 用的是這個(gè),Kling 用的是這個(gè),Veo 也是
方式大概是這樣,從一張全是噪點(diǎn)的圖開(kāi)始,一步一步去掉噪點(diǎn),最后得到清晰的視頻
每去一步噪,模型會(huì)參考你的文本描述,決定「往哪個(gè)方向去」
![]()
Diffusion Transformer 再說(shuō)什么是「雙分支」
傳統(tǒng)的視頻生成模型,只有一個(gè)分支,只管生成畫(huà)面
Seedance 1.5 pro 有兩個(gè)分支,一個(gè)負(fù)責(zé)視頻,一個(gè)負(fù)責(zé)音頻,兩條線同時(shí)跑
那么,兩條線怎么協(xié)作?
答:中間有一個(gè)「跨模態(tài)聯(lián)合模塊」,讓兩個(gè)分支在生成過(guò)程中持續(xù)交換信息
視頻分支在去噪的時(shí)候,會(huì)收到音頻分支的信號(hào):現(xiàn)在這個(gè)時(shí)間點(diǎn),音頻那邊在生成一句話,這句話的口型是這樣的
音頻分支在生成的時(shí)候,也會(huì)收到視頻分支的信號(hào):現(xiàn)在畫(huà)面里的人嘴張開(kāi)了,你這邊得出聲;畫(huà)面里的人嘴閉上了,你這邊得停
通過(guò)這種方式,生成出來(lái)的視頻和音頻,時(shí)間上是同步的,語(yǔ)義上是一致的
![]()
架構(gòu)示意圖
技術(shù)基礎(chǔ)是 MMDiT(Multimodal Diffusion Transformer)
Stable Diffusion 3 用的就是這個(gè)架構(gòu)
Seed 團(tuán)隊(duì)在這個(gè)基礎(chǔ)上加了音頻分支和跨模態(tài)交互機(jī)制
訓(xùn)練數(shù)據(jù)怎么搞
模型能力的上限,很大程度上是數(shù)據(jù)決定的。Seedance 1.5 pro 在數(shù)據(jù)處理上做了三件事
第一件事:篩數(shù)據(jù)
網(wǎng)上能爬到的視頻很多,但大部分不能直接拿來(lái)訓(xùn)練
技術(shù)報(bào)告里說(shuō),篩選管線優(yōu)先保證三件事:音視頻一致性、動(dòng)作表現(xiàn)力、以及后面會(huì)提到的課程式調(diào)度
舉個(gè)例子:
?
音視頻同步:畫(huà)面里的人在說(shuō)話,但口型對(duì)不上的;畫(huà)面里有動(dòng)作,但沒(méi)有對(duì)應(yīng)聲音的,篩掉?
表現(xiàn)力:動(dòng)作幅度不夠、表情變化不豐富的,篩掉
篩完幾輪,數(shù)據(jù)量會(huì)大幅減少,但剩下的都是能用的
![]()
數(shù)據(jù)篩選
第二件事:打標(biāo)簽
每條數(shù)據(jù)都要告訴模型「這里面有什么」
視頻的標(biāo)簽包括:畫(huà)面里有幾個(gè)人、在做什么動(dòng)作、互相之間有什么互動(dòng)、鏡頭怎么運(yùn)動(dòng)
![]()
給模型數(shù)據(jù),打上標(biāo)簽
音頻的標(biāo)簽分兩類:
1.
人聲標(biāo)簽——這段聲音是說(shuō)話、還是唱歌、還是笑聲嘆氣。如果是說(shuō)話,說(shuō)的什么語(yǔ)言、什么口音、什么情緒。比如這是「普通話,女性,開(kāi)心」,那是「四川話,男性,疲憊」2.
非人聲標(biāo)簽——這段聲音是環(huán)境音還是音樂(lè)。環(huán)境音的話,聲源是什么:車流聲、雨聲、鍵盤(pán)敲擊聲。音樂(lè)的話,什么流派、什么節(jié)奏
這套標(biāo)簽打得很細(xì),技術(shù)報(bào)告里說(shuō)是「professional-grade descriptions」,專業(yè)級(jí)的描述
![]()
技術(shù)報(bào)告的原內(nèi)容
第三件事:安排訓(xùn)練順序
數(shù)據(jù)弄好后,拿去訓(xùn)練,也是分先后順序的
技術(shù)報(bào)告里叫「curriculum-based data scheduling」,課程式數(shù)據(jù)調(diào)度
具體怎么安排的,報(bào)告沒(méi)有展開(kāi)。但課程學(xué)習(xí)的一種做法是:
先讓模型學(xué)簡(jiǎn)單的:一個(gè)人、正面鏡頭、說(shuō)話清晰、口型明顯
學(xué)會(huì)了,再喂難一點(diǎn)的:兩三個(gè)人、有互動(dòng)、有鏡頭切換
最后喂最難的:多人多語(yǔ)言、復(fù)雜鏡頭調(diào)度、微表情遞進(jìn)
![]()
課程式數(shù)據(jù)調(diào)度 訓(xùn)練步驟
Seedance 1.5 pro 的訓(xùn)練分三步走:預(yù)訓(xùn)練、SFT、RLHF
![]()
訓(xùn)練流程 第一步:預(yù)訓(xùn)練
這一步,是讓模型「能生成」
這一步用的數(shù)據(jù)量大、種類多。既有純視頻,也有純音頻,也有音視頻一起的。讓模型把視頻生成和音頻生成的基本功都學(xué)會(huì)
這一步結(jié)束,模型已經(jīng)能根據(jù)文本描述生成帶聲音的視頻了,但質(zhì)量不穩(wěn)定,有時(shí)候好有時(shí)候差
第二步:SFT(監(jiān)督微調(diào))
這一步,是讓模型「生成得好」
這一步用的數(shù)據(jù)量小,但質(zhì)量高。每一條都是精挑細(xì)選的:畫(huà)面精美、音頻清晰、口型完全對(duì)齊、情緒表達(dá)到位
讓模型學(xué)習(xí)這些高質(zhì)量樣本,知道「好的生成結(jié)果長(zhǎng)什么樣」
第三步:RLHF(人類反饋強(qiáng)化學(xué)習(xí))
這一步,是讓模型「符合審美」
RLHF 的邏輯是:讓人來(lái)評(píng)判模型的生成結(jié)果,告訴模型「這個(gè)好、那個(gè)不好」,模型根據(jù)反饋調(diào)整自己
圍繞這個(gè),Seed 團(tuán)隊(duì)訓(xùn)練了一個(gè)「獎(jiǎng)勵(lì)模型」,這個(gè)獎(jiǎng)勵(lì)模型學(xué)會(huì)了人類的評(píng)判標(biāo)準(zhǔn),可以自動(dòng)給生成結(jié)果打分
打分有三個(gè)維度:動(dòng)作質(zhì)量:動(dòng)作流不流暢、物理上合不合理、有沒(méi)有穿模(比如手穿過(guò)桌子)視覺(jué)美學(xué):畫(huà)面好不好看、構(gòu)圖合不合理、色彩協(xié)不協(xié)調(diào)音頻保真度:聲音清不清晰、有沒(méi)有雜音、情緒表達(dá)對(duì)不對(duì)
模型每生成一個(gè)結(jié)果,獎(jiǎng)勵(lì)模型從這三個(gè)維度打分。分?jǐn)?shù)高的,說(shuō)明方向?qū)α耍^續(xù)往這個(gè)方向走;分?jǐn)?shù)低的,說(shuō)明方向錯(cuò)了,調(diào)整策略
這一步的訓(xùn)練量很大,Seed 團(tuán)隊(duì)專門(mén)優(yōu)化了訓(xùn)練管線,速度提升了近 3 倍。同樣的時(shí)間,能讓模型學(xué)到更多反饋
推理優(yōu)化
視頻生成,通常很慢,生成一個(gè) 10 秒的視頻,可能要算好幾分鐘
因?yàn)橐徊揭徊饺ピ耄恳徊蕉际谴罅坑?jì)算
Seedance 1.5 pro 把推理速度提升了 10 倍以上
怎么做到的?三層優(yōu)化
![]()
三層優(yōu)化 第一層:蒸餾
原本模型生成一個(gè)視頻可能要 100 步去噪,太慢了
蒸餾的做法是:訓(xùn)練一個(gè)「學(xué)生模型」,讓它模仿「老師模型」的行為。老師用 100 步才能做到的事,學(xué)生可能 10 步就能做到差不多的效果
步數(shù)少了,計(jì)算量就少了,速度就快了
Seed 團(tuán)隊(duì)用的是多階段蒸餾,分好幾輪來(lái)壓縮步數(shù),每一輪都盡量保證質(zhì)量不掉
第二層:量化
模型參數(shù)通常用 32 位浮點(diǎn)數(shù)存儲(chǔ),精度高,但計(jì)算量大
量化就是把精度降下來(lái),32 位變 16 位,甚至 8 位。精度低了,計(jì)算量就小了,速度就快了
當(dāng)然不能降太多,否則生成質(zhì)量會(huì)明顯下滑。Seed 團(tuán)隊(duì)找了一個(gè)平衡點(diǎn):精度降到一定程度,速度提升明顯,質(zhì)量基本不掉
第三層:并行
視頻生成的計(jì)算量很大,一個(gè) GPU 算不過(guò)來(lái)
并行就是把任務(wù)拆開(kāi),分給多個(gè) GPU 同時(shí)干活,最后把結(jié)果合起來(lái)
三層優(yōu)化疊加,端到端加速超過(guò) 10 倍
評(píng)測(cè)對(duì)比
Seed 團(tuán)隊(duì)建了一套評(píng)測(cè)基準(zhǔn)叫 SeedVideoBench 1.5
請(qǐng)專業(yè)電影導(dǎo)演定標(biāo)準(zhǔn),請(qǐng)電影制作、攝影、設(shè)計(jì)領(lǐng)域的專家做人工評(píng)測(cè)
與各類模型進(jìn)行對(duì)比:Kling 2.5、Kling 2.6、Veo 3.1、Sora 2、Seedance 1.0 Pro
![]()
評(píng)測(cè)數(shù)據(jù)
具體的評(píng)測(cè)信息如下
視頻能力
評(píng)測(cè)維度:動(dòng)作質(zhì)量、指令跟隨、視覺(jué)美學(xué)
T2V 任務(wù)(文本生成視頻):
![]()
T2V 視頻評(píng)測(cè)
? 指令跟隨:Seedance 1.5 pro 領(lǐng)先
? 視覺(jué)美學(xué)和動(dòng)作質(zhì)量:和 Kling 2.6、Veo 3.1 有競(jìng)爭(zhēng)力
I2V 任務(wù)(圖片生成視頻):
? 各項(xiàng)指標(biāo)穩(wěn)定,比上一代 Seedance 1.0 Pro 有明顯提升
音頻能力
評(píng)測(cè)維度:音頻指令跟隨、音頻質(zhì)量、音視頻同步、音頻表現(xiàn)力
和 Kling 2.6、Veo 3.1、Sora 2 對(duì)比:
在中文語(yǔ)境上,Seedance 1.5 pro 在中文對(duì)話、方言、獨(dú)白的生成上,準(zhǔn)確度高于 Veo 3.1。基本沒(méi)有吞字、發(fā)音錯(cuò)誤
在口型匹配上,Seedance 1.5 pro 能正確對(duì)應(yīng)說(shuō)話角色的數(shù)量和身份。在這個(gè)維度上超過(guò) Veo 3.1 和 Kling 2.6
在音頻表現(xiàn)力上,Sora 2 在情緒表達(dá)上更「夸張」,Seedance 1.5 pro 更「克制」。技術(shù)報(bào)告的原話是「able to achieve consistent emotional alignment with visual content while avoiding over-exaggeration」——在需要穩(wěn)定調(diào)性控制的專業(yè)制作場(chǎng)景更合適
![]()
T2V 音頻評(píng)測(cè)
I2V 音頻評(píng)測(cè) 即將上線:Draft 樣片功能
AI 生成視頻有個(gè)老問(wèn)題:抽盲盒
為了一個(gè)理想的鏡頭,可能要反復(fù)試很多次
每次都是全分辨率生成,等半天,算力消耗大
Draft 樣片功能解決這個(gè)問(wèn)題
? 第一步,先生成低分辨率的預(yù)覽。速度快,成本低
? 第二步,看預(yù)覽。不滿意就調(diào) prompt,重新生成預(yù)覽
? 第三步,預(yù)覽滿意了,再生成高清成片
預(yù)覽和成片之間,是高保真一致的
預(yù)覽里的畫(huà)面構(gòu)圖、人物動(dòng)作、口型節(jié)奏,成片里都會(huì)保留
不會(huì)出現(xiàn)「預(yù)覽挺好,成片變樣」的情況
官方數(shù)據(jù):創(chuàng)作效率提升 50%,推理成本最高節(jié)約 60%
![]()
Draft 樣片功能 以及
![]()
這個(gè)模型,已上線了,帶來(lái)了原生的「有聲片」,并且更符合本土需求,可通過(guò)多渠道進(jìn)行訪問(wèn)
個(gè)人/企業(yè)用戶
可在即夢(mèng) AI、豆包 APP、火山方舟體驗(yàn)中心體驗(yàn)
![]()
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seedance-1-5-pro-251215&projectName=default&tab=GenVideo
API 用戶
可在 12 月 23 日起可在火山引擎使用 API,模型名稱: Doubao-Seedance-1.5-pro
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.