網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié) Seedance 1.5 pro，如何實(shí)現(xiàn)「音畫(huà)同出」：中學(xué)生能看懂

2025-12-18 13:00:28　來(lái)源: 賽博禪心

北京舉報(bào)

分享至

字節(jié)今天發(fā)布了 Seedance 1.5 pro，原生音視頻聯(lián)合生成
劃重點(diǎn) 視頻、聲音同時(shí)生成，而非先出視頻、再配音對(duì)口型

本文里，我將以盡可能易懂的方式，講講其原理
保證中學(xué)生能看懂

如果你需要更專業(yè)、細(xì)致的了解，可以看這個(gè)技術(shù)報(bào)告
https://arxiv.org/abs/2512.13507v2

Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

先看兩個(gè)案例，感受下這個(gè)技術(shù)

案例一：火鍋店，三代人，三種口音

重慶火鍋店包間，三人圍坐吃火鍋，熱氣騰騰。畫(huà)面左側(cè)的老人用重慶話說(shuō)「這個(gè)毛肚七上八下，剛剛好」，說(shuō)完夾起毛肚。畫(huà)面中間的中年男人給右側(cè)的年輕人夾菜，用普通話說(shuō)「慢點(diǎn)吃，小心燙」。年輕人吃完后用上海話說(shuō)「爺爺，辣是辣，不過(guò)老靈額」。老人聽(tīng)完哈哈大笑拍桌子，三人相視而笑。全程緩慢推鏡，背景是火鍋沸騰聲和餐廳環(huán)境音

案例二：審訊室，甩鏡，微表情

女人坐在昏暗的審訊桌前，神情嚴(yán)肅，不屑的翻看著資料，女人說(shuō)：“前面你說(shuō)了這么多，聽(tīng)起來(lái)天衣無(wú)縫的。”說(shuō)完后，鏡頭向左邊方向快速甩鏡。此時(shí)畫(huà)外音女偵探有力量的語(yǔ)調(diào)快速問(wèn)”你是AI吧？！“特寫(xiě)男人的面部，圍繞男人緩慢旋轉(zhuǎn)的推鏡頭，推鏡至五官，男人表情緊張，眼睛微微睜大，流露出一絲絲輕微的不安感。男人聽(tīng)完單手摘下眼鏡，低下頭，停頓一下，抬頭皺眉，然后從抿嘴轉(zhuǎn)為嘴角微笑的表情，輕微咽一下口水，隨后微笑著問(wèn)：”你怎么知道？“

Seedance 1.5 pro

12 月 18 日，火山的 FORCE 原動(dòng)力大會(huì)上，發(fā)布了豆包視頻生成模型 Seedance 1.5 pro，核心賣點(diǎn)是「原生音視頻聯(lián)合生成」

這個(gè)模型，能做四件事：

? 文本生成音視頻（T2VA） ：你寫(xiě)一段描述，它生成帶聲音的視頻
? 圖片生成音視頻（I2VA） ：你給一張圖，它生成帶聲音的視頻
? 文本生成視頻（T2V） ：傳統(tǒng)的文生視頻，不帶聲音
? 圖片生成視頻（I2V） ：傳統(tǒng)的圖生視頻，不帶聲音

四種能力，同一個(gè)模型

之前一些音畫(huà)同出，是「縫合怪」：模型先生成畫(huà)面，然后再來(lái)配音

問(wèn)題在于，視頻已經(jīng)定型了，口型已經(jīng)固定了，配音只能盡量去對(duì)。對(duì)不上的地方就會(huì)穿幫，行業(yè)里管這個(gè)叫「腹語(yǔ)效應(yīng)」

Seedance 1.5 pro 則做到了音視頻同時(shí)生成，兩邊持續(xù)交換信息

視頻流知道現(xiàn)在該說(shuō)什么話，音頻流知道現(xiàn)在畫(huà)面是什么表情

音視頻同時(shí)生成架構(gòu)是怎樣的

Seedance 1.5 pro 用的是雙分支 Diffusion Transformer 架構(gòu)

Diffusion Transformer

Diffusion Transformer 這是當(dāng)前視頻生成的主流架構(gòu)
Sora 用的是這個(gè)，Kling 用的是這個(gè)，Veo 也是

方式大概是這樣，從一張全是噪點(diǎn)的圖開(kāi)始，一步一步去掉噪點(diǎn)，最后得到清晰的視頻

每去一步噪，模型會(huì)參考你的文本描述，決定「往哪個(gè)方向去」

Diffusion Transformer 再說(shuō)什么是「雙分支」

傳統(tǒng)的視頻生成模型，只有一個(gè)分支，只管生成畫(huà)面
Seedance 1.5 pro 有兩個(gè)分支，一個(gè)負(fù)責(zé)視頻，一個(gè)負(fù)責(zé)音頻，兩條線同時(shí)跑

那么，兩條線怎么協(xié)作？
答：中間有一個(gè)「跨模態(tài)聯(lián)合模塊」，讓兩個(gè)分支在生成過(guò)程中持續(xù)交換信息

視頻分支在去噪的時(shí)候，會(huì)收到音頻分支的信號(hào)：
現(xiàn)在這個(gè)時(shí)間點(diǎn)，音頻那邊在生成一句話，這句話的口型是這樣的

音頻分支在生成的時(shí)候，也會(huì)收到視頻分支的信號(hào)：
現(xiàn)在畫(huà)面里的人嘴張開(kāi)了，你這邊得出聲；畫(huà)面里的人嘴閉上了，你這邊得停

通過(guò)這種方式，生成出來(lái)的視頻和音頻，時(shí)間上是同步的，語(yǔ)義上是一致的

架構(gòu)示意圖

技術(shù)基礎(chǔ)是 MMDiT（Multimodal Diffusion Transformer）
Stable Diffusion 3 用的就是這個(gè)架構(gòu)
Seed 團(tuán)隊(duì)在這個(gè)基礎(chǔ)上加了音頻分支和跨模態(tài)交互機(jī)制

訓(xùn)練數(shù)據(jù)怎么搞

模型能力的上限，很大程度上是數(shù)據(jù)決定的。Seedance 1.5 pro 在數(shù)據(jù)處理上做了三件事

第一件事：篩數(shù)據(jù)

網(wǎng)上能爬到的視頻很多，但大部分不能直接拿來(lái)訓(xùn)練

技術(shù)報(bào)告里說(shuō)，篩選管線優(yōu)先保證三件事：音視頻一致性、動(dòng)作表現(xiàn)力、以及后面會(huì)提到的課程式調(diào)度

舉個(gè)例子：

? 音視頻同步 ：畫(huà)面里的人在說(shuō)話，但口型對(duì)不上的；畫(huà)面里有動(dòng)作，但沒(méi)有對(duì)應(yīng)聲音的，篩掉
? 表現(xiàn)力 ：動(dòng)作幅度不夠、表情變化不豐富的，篩掉

篩完幾輪，數(shù)據(jù)量會(huì)大幅減少，但剩下的都是能用的

數(shù)據(jù)篩選

第二件事：打標(biāo)簽

每條數(shù)據(jù)都要告訴模型「這里面有什么」

視頻的標(biāo)簽包括：畫(huà)面里有幾個(gè)人、在做什么動(dòng)作、互相之間有什么互動(dòng)、鏡頭怎么運(yùn)動(dòng)

給模型數(shù)據(jù)，打上標(biāo)簽

音頻的標(biāo)簽分兩類：

1. 人聲標(biāo)簽 ——這段聲音是說(shuō)話、還是唱歌、還是笑聲嘆氣。如果是說(shuō)話，說(shuō)的什么語(yǔ)言、什么口音、什么情緒。比如這是「普通話，女性，開(kāi)心」，那是「四川話，男性，疲憊」
2. 非人聲標(biāo)簽 ——這段聲音是環(huán)境音還是音樂(lè)。環(huán)境音的話，聲源是什么：車流聲、雨聲、鍵盤(pán)敲擊聲。音樂(lè)的話，什么流派、什么節(jié)奏

這套標(biāo)簽打得很細(xì)，技術(shù)報(bào)告里說(shuō)是「professional-grade descriptions」，專業(yè)級(jí)的描述

技術(shù)報(bào)告的原內(nèi)容

第三件事：安排訓(xùn)練順序

數(shù)據(jù)弄好后，拿去訓(xùn)練，也是分先后順序的
技術(shù)報(bào)告里叫「curriculum-based data scheduling」，課程式數(shù)據(jù)調(diào)度

具體怎么安排的，報(bào)告沒(méi)有展開(kāi)。但課程學(xué)習(xí)的一種做法是：
先讓模型學(xué)簡(jiǎn)單的：一個(gè)人、正面鏡頭、說(shuō)話清晰、口型明顯
學(xué)會(huì)了，再喂難一點(diǎn)的：兩三個(gè)人、有互動(dòng)、有鏡頭切換
最后喂最難的：多人多語(yǔ)言、復(fù)雜鏡頭調(diào)度、微表情遞進(jìn)

課程式數(shù)據(jù)調(diào)度訓(xùn)練步驟

Seedance 1.5 pro 的訓(xùn)練分三步走：預(yù)訓(xùn)練、SFT、RLHF

訓(xùn)練流程第一步：預(yù)訓(xùn)練

這一步，是讓模型「能生成」

這一步用的數(shù)據(jù)量大、種類多。既有純視頻，也有純音頻，也有音視頻一起的。讓模型把視頻生成和音頻生成的基本功都學(xué)會(huì)

這一步結(jié)束，模型已經(jīng)能根據(jù)文本描述生成帶聲音的視頻了，但質(zhì)量不穩(wěn)定，有時(shí)候好有時(shí)候差

第二步：SFT（監(jiān)督微調(diào)）

這一步，是讓模型「生成得好」

這一步用的數(shù)據(jù)量小，但質(zhì)量高。每一條都是精挑細(xì)選的：畫(huà)面精美、音頻清晰、口型完全對(duì)齊、情緒表達(dá)到位

讓模型學(xué)習(xí)這些高質(zhì)量樣本，知道「好的生成結(jié)果長(zhǎng)什么樣」

第三步：RLHF（人類反饋強(qiáng)化學(xué)習(xí)）

這一步，是讓模型「符合審美」

RLHF 的邏輯是：讓人來(lái)評(píng)判模型的生成結(jié)果，告訴模型「這個(gè)好、那個(gè)不好」，模型根據(jù)反饋調(diào)整自己

圍繞這個(gè)，Seed 團(tuán)隊(duì)訓(xùn)練了一個(gè)「獎(jiǎng)勵(lì)模型」，這個(gè)獎(jiǎng)勵(lì)模型學(xué)會(huì)了人類的評(píng)判標(biāo)準(zhǔn)，可以自動(dòng)給生成結(jié)果打分

打分有三個(gè)維度：
動(dòng)作質(zhì)量：動(dòng)作流不流暢、物理上合不合理、有沒(méi)有穿模（比如手穿過(guò)桌子）
視覺(jué)美學(xué)：畫(huà)面好不好看、構(gòu)圖合不合理、色彩協(xié)不協(xié)調(diào)
音頻保真度：聲音清不清晰、有沒(méi)有雜音、情緒表達(dá)對(duì)不對(duì)

模型每生成一個(gè)結(jié)果，獎(jiǎng)勵(lì)模型從這三個(gè)維度打分。分?jǐn)?shù)高的，說(shuō)明方向?qū)α耍^續(xù)往這個(gè)方向走；分?jǐn)?shù)低的，說(shuō)明方向錯(cuò)了，調(diào)整策略

這一步的訓(xùn)練量很大，Seed 團(tuán)隊(duì)專門(mén)優(yōu)化了訓(xùn)練管線，速度提升了近 3 倍。同樣的時(shí)間，能讓模型學(xué)到更多反饋

推理優(yōu)化

視頻生成，通常很慢，生成一個(gè) 10 秒的視頻，可能要算好幾分鐘

因?yàn)橐徊揭徊饺ピ耄恳徊蕉际谴罅坑?jì)算

Seedance 1.5 pro 把推理速度提升了 10 倍以上
怎么做到的？三層優(yōu)化

三層優(yōu)化第一層：蒸餾

原本模型生成一個(gè)視頻可能要 100 步去噪，太慢了

蒸餾的做法是：訓(xùn)練一個(gè)「學(xué)生模型」，讓它模仿「老師模型」的行為。老師用 100 步才能做到的事，學(xué)生可能 10 步就能做到差不多的效果

步數(shù)少了，計(jì)算量就少了，速度就快了

Seed 團(tuán)隊(duì)用的是多階段蒸餾，分好幾輪來(lái)壓縮步數(shù)，每一輪都盡量保證質(zhì)量不掉

第二層：量化

模型參數(shù)通常用 32 位浮點(diǎn)數(shù)存儲(chǔ)，精度高，但計(jì)算量大

量化就是把精度降下來(lái)，32 位變 16 位，甚至 8 位。精度低了，計(jì)算量就小了，速度就快了

當(dāng)然不能降太多，否則生成質(zhì)量會(huì)明顯下滑。Seed 團(tuán)隊(duì)找了一個(gè)平衡點(diǎn)：精度降到一定程度，速度提升明顯，質(zhì)量基本不掉

第三層：并行

視頻生成的計(jì)算量很大，一個(gè) GPU 算不過(guò)來(lái)

并行就是把任務(wù)拆開(kāi)，分給多個(gè) GPU 同時(shí)干活，最后把結(jié)果合起來(lái)

三層優(yōu)化疊加，端到端加速超過(guò) 10 倍

評(píng)測(cè)對(duì)比

Seed 團(tuán)隊(duì)建了一套評(píng)測(cè)基準(zhǔn)叫 SeedVideoBench 1.5
請(qǐng)專業(yè)電影導(dǎo)演定標(biāo)準(zhǔn)，請(qǐng)電影制作、攝影、設(shè)計(jì)領(lǐng)域的專家做人工評(píng)測(cè)

與各類模型進(jìn)行對(duì)比：Kling 2.5、Kling 2.6、Veo 3.1、Sora 2、Seedance 1.0 Pro

評(píng)測(cè)數(shù)據(jù)

具體的評(píng)測(cè)信息如下

視頻能力

評(píng)測(cè)維度：動(dòng)作質(zhì)量、指令跟隨、視覺(jué)美學(xué)

T2V 任務(wù)（文本生成視頻）：

T2V 視頻評(píng)測(cè)

? 指令跟隨：Seedance 1.5 pro 領(lǐng)先
? 視覺(jué)美學(xué)和動(dòng)作質(zhì)量：和 Kling 2.6、Veo 3.1 有競(jìng)爭(zhēng)力

I2V 任務(wù)（圖片生成視頻）：

? 各項(xiàng)指標(biāo)穩(wěn)定，比上一代 Seedance 1.0 Pro 有明顯提升

I2V 視頻評(píng)測(cè)

音頻能力

評(píng)測(cè)維度：音頻指令跟隨、音頻質(zhì)量、音視頻同步、音頻表現(xiàn)力

和 Kling 2.6、Veo 3.1、Sora 2 對(duì)比：

在中文語(yǔ)境上，Seedance 1.5 pro 在中文對(duì)話、方言、獨(dú)白的生成上，準(zhǔn)確度高于 Veo 3.1。基本沒(méi)有吞字、發(fā)音錯(cuò)誤

在口型匹配上，Seedance 1.5 pro 能正確對(duì)應(yīng)說(shuō)話角色的數(shù)量和身份。在這個(gè)維度上超過(guò) Veo 3.1 和 Kling 2.6

在音頻表現(xiàn)力上，Sora 2 在情緒表達(dá)上更「夸張」，Seedance 1.5 pro 更「克制」。技術(shù)報(bào)告的原話是「able to achieve consistent emotional alignment with visual content while avoiding over-exaggeration」——在需要穩(wěn)定調(diào)性控制的專業(yè)制作場(chǎng)景更合適

T2V 音頻評(píng)測(cè) I2V 音頻評(píng)測(cè) 即將上線：Draft 樣片功能

AI 生成視頻有個(gè)老問(wèn)題：抽盲盒

為了一個(gè)理想的鏡頭，可能要反復(fù)試很多次
每次都是全分辨率生成，等半天，算力消耗大

Draft 樣片功能解決這個(gè)問(wèn)題

? 第一步，先生成低分辨率的預(yù)覽。速度快，成本低
? 第二步，看預(yù)覽。不滿意就調(diào) prompt，重新生成預(yù)覽
? 第三步，預(yù)覽滿意了，再生成高清成片

預(yù)覽和成片之間，是高保真一致的
預(yù)覽里的畫(huà)面構(gòu)圖、人物動(dòng)作、口型節(jié)奏，成片里都會(huì)保留
不會(huì)出現(xiàn)「預(yù)覽挺好，成片變樣」的情況

官方數(shù)據(jù)：創(chuàng)作效率提升 50%，推理成本最高節(jié)約 60%

Draft 樣片功能以及

這個(gè)模型，已上線了，帶來(lái)了原生的「有聲片」，并且更符合本土需求，可通過(guò)多渠道進(jìn)行訪問(wèn)

個(gè)人/企業(yè)用戶
可在即夢(mèng) AI、豆包 APP、火山方舟體驗(yàn)中心體驗(yàn)

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seedance-1-5-pro-251215&projectName=default&tab=GenVideo

API 用戶
可在 12 月 23 日起可在火山引擎使用 API，模型名稱： Doubao-Seedance-1.5-pro

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.