<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      字節 Seedance 1.5 pro,如何實現「音畫同出」:中學生能看懂

      0
      分享至

      字節今天發布了 Seedance 1.5 pro,原生音視頻聯合生成
      劃重點 視頻、聲音同時生成,而非先出視頻、再配音對口型


      本文里,我將以盡可能易懂的方式,講講其原理
      保證中學生能看懂

      如果你需要更專業、細致的了解,可以看這個技術報告
      https://arxiv.org/abs/2512.13507v2


      Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

      先看兩個案例,感受下這個技術

      案例一:火鍋店,三代人,三種口音

      重慶火鍋店包間,三人圍坐吃火鍋,熱氣騰騰。畫面左側的老人用重慶話說「這個毛肚七上八下,剛剛好」,說完夾起毛肚。畫面中間的中年男人給右側的年輕人夾菜,用普通話說「慢點吃,小心燙」。年輕人吃完后用上海話說「爺爺,辣是辣,不過老靈額」。老人聽完哈哈大笑拍桌子,三人相視而笑。全程緩慢推鏡,背景是火鍋沸騰聲和餐廳環境音

      案例二:審訊室,甩鏡,微表情

      女人坐在昏暗的審訊桌前,神情嚴肅,不屑的翻看著資料,女人說:“前面你說了這么多,聽起來天衣無縫的。”說完后,鏡頭向左邊方向快速甩鏡。此時畫外音女偵探有力量的語調快速問”你是AI吧?!“特寫男人的面部,圍繞男人緩慢旋轉的推鏡頭,推鏡至五官,男人表情緊張,眼睛微微睜大,流露出一絲絲輕微的不安感。男人聽完單手摘下眼鏡,低下頭,停頓一下,抬頭皺眉,然后從抿嘴轉為嘴角微笑的表情,輕微咽一下口水,隨后微笑著問:”你怎么知道?“

      Seedance 1.5 pro

      12 月 18 日,火山的 FORCE 原動力大會上,發布了豆包視頻生成模型 Seedance 1.5 pro,核心賣點是「原生音視頻聯合生成

      這個模型,能做四件事:

      • ? 文本生成音視頻(T2VA) :你寫一段描述,它生成帶聲音的視頻

      • ? 圖片生成音視頻(I2VA) :你給一張圖,它生成帶聲音的視頻

      • ? 文本生成視頻(T2V) :傳統的文生視頻,不帶聲音

      • ? 圖片生成視頻(I2V) :傳統的圖生視頻,不帶聲音

      四種能力,同一個模型

      之前一些音畫同出,是「縫合怪」:模型先生成畫面,然后再來配音

      問題在于,視頻已經定型了,口型已經固定了,配音只能盡量去對。對不上的地方就會穿幫,行業里管這個叫「腹語效應」

      Seedance 1.5 pro 則做到了音視頻同時生成,兩邊持續交換信息

      視頻流知道現在該說什么話,音頻流知道現在畫面是什么表情


      音視頻同時生成 架構是怎樣的

      Seedance 1.5 pro 用的是雙分支 Diffusion Transformer 架構

      Diffusion Transformer

      Diffusion Transformer 這是當前視頻生成的主流架構
      Sora 用的是這個,Kling 用的是這個,Veo 也是

      方式大概是這樣,從一張全是噪點的圖開始,一步一步去掉噪點,最后得到清晰的視頻

      每去一步噪,模型會參考你的文本描述,決定「往哪個方向去」


      Diffusion Transformer 再說什么是「雙分支」

      傳統的視頻生成模型,只有一個分支,只管生成畫面
      Seedance 1.5 pro 有兩個分支,一個負責視頻,一個負責音頻,兩條線同時跑

      那么,兩條線怎么協作?
      答:中間有一個「跨模態聯合模塊」,讓兩個分支在生成過程中持續交換信息

      視頻分支在去噪的時候,會收到音頻分支的信號:
      現在這個時間點,音頻那邊在生成一句話,這句話的口型是這樣的

      音頻分支在生成的時候,也會收到視頻分支的信號:
      現在畫面里的人嘴張開了,你這邊得出聲;畫面里的人嘴閉上了,你這邊得停

      通過這種方式,生成出來的視頻和音頻,時間上是同步的,語義上是一致的


      架構示意圖

      技術基礎是 MMDiT(Multimodal Diffusion Transformer)
      Stable Diffusion 3 用的就是這個架構
      Seed 團隊在這個基礎上加了音頻分支和跨模態交互機制

      訓練數據怎么搞

      模型能力的上限,很大程度上是數據決定的。Seedance 1.5 pro 在數據處理上做了三件事

      第一件事:篩數據

      網上能爬到的視頻很多,但大部分不能直接拿來訓練

      技術報告里說,篩選管線優先保證三件事:音視頻一致性動作表現力、以及后面會提到的課程式調度

      舉個例子:

      • ? 音視頻同步 :畫面里的人在說話,但口型對不上的;畫面里有動作,但沒有對應聲音的,篩掉

      • ? 表現力 :動作幅度不夠、表情變化不豐富的,篩掉

      篩完幾輪,數據量會大幅減少,但剩下的都是能用的


      數據篩選

      第二件事:打標簽

      每條數據都要告訴模型「這里面有什么」

      視頻的標簽包括:畫面里有幾個人在做什么動作互相之間有什么互動鏡頭怎么運動


      給模型數據,打上標簽

      音頻的標簽分兩類:

      1. 1. 人聲標簽 ——這段聲音是說話、還是唱歌、還是笑聲嘆氣。如果是說話,說的什么語言、什么口音、什么情緒。比如這是「普通話,女性,開心」,那是「四川話,男性,疲憊」

      2. 2. 非人聲標簽 ——這段聲音是環境音還是音樂。環境音的話,聲源是什么:車流聲、雨聲、鍵盤敲擊聲。音樂的話,什么流派、什么節奏

      這套標簽打得很細,技術報告里說是「professional-grade descriptions」,專業級的描述


      技術報告的原內容

      第三件事:安排訓練順序

      數據弄好后,拿去訓練,也是分先后順序的
      技術報告里叫「curriculum-based data scheduling」,課程式數據調度

      具體怎么安排的,報告沒有展開。但課程學習的一種做法是:
      先讓模型學簡單的:一個人、正面鏡頭、說話清晰、口型明顯
      學會了,再喂難一點的:兩三個人、有互動、有鏡頭切換
      最后喂最難的:多人多語言、復雜鏡頭調度、微表情遞進


      課程式數據調度 訓練步驟

      Seedance 1.5 pro 的訓練分三步走:預訓練SFTRLHF


      訓練流程 第一步:預訓練

      這一步,是讓模型「能生成」

      這一步用的數據量大、種類多。既有純視頻,也有純音頻,也有音視頻一起的。讓模型把視頻生成和音頻生成的基本功都學會

      這一步結束,模型已經能根據文本描述生成帶聲音的視頻了,但質量不穩定,有時候好有時候差

      第二步:SFT(監督微調)

      這一步,是讓模型「生成得好」

      這一步用的數據量小,但質量高。每一條都是精挑細選的:畫面精美、音頻清晰、口型完全對齊、情緒表達到位

      讓模型學習這些高質量樣本,知道「好的生成結果長什么樣」

      第三步:RLHF(人類反饋強化學習)

      這一步,是讓模型「符合審美」

      RLHF 的邏輯是:讓人來評判模型的生成結果,告訴模型「這個好、那個不好」,模型根據反饋調整自己

      圍繞這個,Seed 團隊訓練了一個「獎勵模型」,這個獎勵模型學會了人類的評判標準,可以自動給生成結果打分

      打分有三個維度:
      動作質量:動作流不流暢、物理上合不合理、有沒有穿模(比如手穿過桌子)
      視覺美學:畫面好不好看、構圖合不合理、色彩協不協調
      音頻保真度:聲音清不清晰、有沒有雜音、情緒表達對不對

      模型每生成一個結果,獎勵模型從這三個維度打分。分數高的,說明方向對了,繼續往這個方向走;分數低的,說明方向錯了,調整策略

      這一步的訓練量很大,Seed 團隊專門優化了訓練管線,速度提升了近 3 倍。同樣的時間,能讓模型學到更多反饋

      推理優化

      視頻生成,通常很慢,生成一個 10 秒的視頻,可能要算好幾分鐘

      因為要一步一步去噪,每一步都是大量計算

      Seedance 1.5 pro 把推理速度提升了 10 倍以上
      怎么做到的?三層優化


      三層優化 第一層:蒸餾

      原本模型生成一個視頻可能要 100 步去噪,太慢了

      蒸餾的做法是:訓練一個「學生模型」,讓它模仿「老師模型」的行為。老師用 100 步才能做到的事,學生可能 10 步就能做到差不多的效果

      步數少了,計算量就少了,速度就快了

      Seed 團隊用的是多階段蒸餾,分好幾輪來壓縮步數,每一輪都盡量保證質量不掉

      第二層:量化

      模型參數通常用 32 位浮點數存儲,精度高,但計算量大

      量化就是把精度降下來,32 位變 16 位,甚至 8 位。精度低了,計算量就小了,速度就快了

      當然不能降太多,否則生成質量會明顯下滑。Seed 團隊找了一個平衡點:精度降到一定程度,速度提升明顯,質量基本不掉

      第三層:并行

      視頻生成的計算量很大,一個 GPU 算不過來

      并行就是把任務拆開,分給多個 GPU 同時干活,最后把結果合起來

      三層優化疊加,端到端加速超過 10 倍

      評測對比

      Seed 團隊建了一套評測基準叫 SeedVideoBench 1.5
      請專業電影導演定標準,請電影制作、攝影、設計領域的專家做人工評測

      與各類模型進行對比:Kling 2.5Kling 2.6Veo 3.1Sora 2Seedance 1.0 Pro


      評測數據

      具體的評測信息如下

      視頻能力

      評測維度:動作質量指令跟隨視覺美學

      T2V 任務(文本生成視頻):


      T2V 視頻評測


      • ? 指令跟隨:Seedance 1.5 pro 領先

      • ? 視覺美學和動作質量:和 Kling 2.6、Veo 3.1 有競爭力

      I2V 任務(圖片生成視頻):

      • ? 各項指標穩定,比上一代 Seedance 1.0 Pro 有明顯提升

      I2V 視頻評測

      音頻能力

      評測維度:音頻指令跟隨音頻質量音視頻同步音頻表現力

      和 Kling 2.6、Veo 3.1、Sora 2 對比:

      中文語境上,Seedance 1.5 pro 在中文對話、方言、獨白的生成上,準確度高于 Veo 3.1。基本沒有吞字、發音錯誤

      口型匹配上,Seedance 1.5 pro 能正確對應說話角色的數量和身份。在這個維度上超過 Veo 3.1 和 Kling 2.6

      音頻表現力上,Sora 2 在情緒表達上更「夸張」,Seedance 1.5 pro 更「克制」。技術報告的原話是「able to achieve consistent emotional alignment with visual content while avoiding over-exaggeration」——在需要穩定調性控制的專業制作場景更合適


      T2V 音頻評測 I2V 音頻評測 即將上線:Draft 樣片功能

      AI 生成視頻有個老問題:抽盲盒

      為了一個理想的鏡頭,可能要反復試很多次
      每次都是全分辨率生成,等半天,算力消耗大

      Draft 樣片功能解決這個問題

      • ? 第一步,先生成低分辨率的預覽。速度快,成本低

      • ? 第二步,看預覽。不滿意就調 prompt,重新生成預覽

      • ? 第三步,預覽滿意了,再生成高清成片

      預覽和成片之間,是高保真一致的
      預覽里的畫面構圖、人物動作、口型節奏,成片里都會保留
      不會出現「預覽挺好,成片變樣」的情況

      官方數據:創作效率提升 50%,推理成本最高節約 60%


      Draft 樣片功能 以及


      這個模型,已上線了,帶來了原生的「有聲片」,并且更符合本土需求,可通過多渠道進行訪問

      個人/企業用戶
      可在即夢 AI、豆包 APP、火山方舟體驗中心體驗


      https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?modelId=doubao-seedance-1-5-pro-251215&projectName=default&tab=GenVideo

      API 用戶
      可在 12 月 23 日起可在火山引擎使用 API,模型名稱: Doubao-Seedance-1.5-pro

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深圳承泰科技股份有限公司遞表港交所

      深圳承泰科技股份有限公司遞表港交所

      財聯社
      2025-12-24 21:52:12
      3類牙膏被列入致癌“黑名單”,長期用或有致癌風險?告訴你真相

      3類牙膏被列入致癌“黑名單”,長期用或有致癌風險?告訴你真相

      39健康網
      2025-12-24 20:37:18
      高市早苗越來越急,打破日本政壇慣例,一定要在特朗普訪華前訪美

      高市早苗越來越急,打破日本政壇慣例,一定要在特朗普訪華前訪美

      攬星辰入夢
      2025-12-25 00:47:43
      江蘇3:2逆轉天津,楊佳九連發吳夢潔低開高走施海榮用人存疑

      江蘇3:2逆轉天津,楊佳九連發吳夢潔低開高走施海榮用人存疑

      無月可歸辛
      2025-12-25 00:51:38
      研究發現:主食一換,每年癌死少一半,提倡吃4種主食,建議看看

      研究發現:主食一換,每年癌死少一半,提倡吃4種主食,建議看看

      展望云霄
      2025-12-17 21:34:55
      棄曼聯投皇馬?主帥確認 41萬 周薪巨星去往伯納烏

      棄曼聯投皇馬?主帥確認 41萬 周薪巨星去往伯納烏

      奶蓋熊本熊
      2025-12-25 02:41:04
      我們的消費觀念被資本做局了?網友:一百塊,出去轉一圈就沒了!

      我們的消費觀念被資本做局了?網友:一百塊,出去轉一圈就沒了!

      特約前排觀眾
      2025-12-25 00:15:06
      山東發的這個文件,引發了一些討論……

      山東發的這個文件,引發了一些討論……

      靠山屯閑話
      2025-12-24 22:46:06
      深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產前狀態差

      深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產前狀態差

      照亮你的前行之路
      2025-12-24 03:10:08
      南博事件升級!參與定"偽"的專家徐沄秋等被扒,果然有情況

      南博事件升級!參與定"偽"的專家徐沄秋等被扒,果然有情況

      喜歡歷史的阿繁
      2025-12-24 23:17:53
      149的優衣庫和5000元老錢羊絨衫,誰在割韭菜?

      149的優衣庫和5000元老錢羊絨衫,誰在割韭菜?

      快刀財經
      2025-12-24 22:40:21
      前“南京首富”、豐盛控股主席季昌群敗訴,香港高院判定其需償還近9億港元本金,市場預計債務總額或達12億港元

      前“南京首富”、豐盛控股主席季昌群敗訴,香港高院判定其需償還近9億港元本金,市場預計債務總額或達12億港元

      每日經濟新聞
      2025-12-24 22:20:05
      六旬老漢六年間染指26名女性,上到50下到30,只因“身懷絕技”

      六旬老漢六年間染指26名女性,上到50下到30,只因“身懷絕技”

      歷史八卦社
      2025-03-12 23:22:45
      北京樓市再調整,風向已經很明確了

      北京樓市再調整,風向已經很明確了

      深藍夜讀
      2025-12-24 22:11:24
      零下30℃或出現!遼寧入冬以來最低溫要來了!

      零下30℃或出現!遼寧入冬以來最低溫要來了!

      沈陽生活圈i
      2025-12-24 15:26:43
      據說全球僅20例!巴西一女子在同一晚與2名男子發生了關系

      據說全球僅20例!巴西一女子在同一晚與2名男子發生了關系

      忠于法紀
      2025-12-04 11:25:07
      藍營完成22縣市選戰規劃:分三大類提名,有信心至少奪得15席

      藍營完成22縣市選戰規劃:分三大類提名,有信心至少奪得15席

      丁懰驚悚影視解說
      2025-12-23 22:49:43
      兒子丟了10年后,張澤群第一次公開案情:官司沒完結,人都老了

      兒子丟了10年后,張澤群第一次公開案情:官司沒完結,人都老了

      小欣欣聊體育
      2025-12-24 17:26:03
      硬剛中俄?與日本簽了稀土協議后,托卡耶夫直接趕往俄羅斯攤牌

      硬剛中俄?與日本簽了稀土協議后,托卡耶夫直接趕往俄羅斯攤牌

      回京歷史夢
      2025-12-25 01:30:03
      關系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

      關系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

      誮惜顏a
      2025-12-24 05:53:10
      2025-12-25 04:44:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      224文章數 12關注度
      往期回顧 全部

      科技要聞

      智譜和MiniMax拿出了“血淋淋”的賬本

      頭條要聞

      幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

      頭條要聞

      幼兒園8人遇難兒童母親:女兒4歲 今年9月入讀

      體育要聞

      26歲廣西球王,在質疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經要聞

      北京進一步放松限購 滬深是否會跟進?

      汽車要聞

      “運動版庫里南”一月份亮相???或命名極氪9S

      態度原創

      藝術
      旅游
      時尚
      家居
      軍事航空

      藝術要聞

      巨星劉德華1000萬善款建村,為何如今竟成山間“空心村”?

      旅游要聞

      上海藏2800株水上紅杉!免費開放,夕陽下美成油畫

      對不起周柯宇,是陳靖可先來的

      家居要聞

      法式大平層 智能家居添彩

      軍事要聞

      軍事專家:"特朗普級"戰艦設計疑大量借鑒中國055大驅

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩人妻精品中文字幕专区不卡| 护士的小嫩嫩好紧好爽| 男人用嘴添女人下身免费视频| 狠狠综合久久久久综合网址| 国精产品一区一区三区| 毛片免费观看天天干天天爽| 天天干天天色综合网| jizz亚洲人| 亚洲色综网| 涪陵区| 久热久| 99在线精品视频观看免费| 国产亚洲精品久久久久四川人| 99久久国产宗和精品1上映| 亚洲精品一二三四| 精品无码国产污污污免费| 亚洲乳大丰满中文字幕| 国产精品美女久久久| 蜜臀99| 亚洲av无码牛牛影视在线二区 | 男人用嘴添女人私密视频| 97久久精品人人做人人爽| 国产熟女第三页| 日韩av黄片| 国产欧美日韩另类在线专区| 91在线无码精品秘?入口动作| 男人天堂一区| 额敏县| 国产va在线观看免费| 狠狠综合亚洲综合亚洲色| 中文无码高潮到痉挛在线视频| 愛爱视频在线3| 中文字幕乱论| 在线播放国产一区二区三区| 国产人妻人伦精品婷婷| 亚洲AV中文| 尼勒克县| 国产欧美日韩精品a在线观看| 九九国产精品无码免费视频| 国产啪视频免费观看视频| 欧美丝袜另类|