<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      港大聯合字節跳動提出JoVA: 聯合自注意力視頻-音頻聯合生成模型

      0
      分享至



      作者介紹:本文第一作者黃小虎同學,目前是香港大學的三年級在讀博士生,導師是韓鍇教授。黃小虎的研究方向是以視頻為中心的領域,包括音視頻生成、視頻理解以及視頻識別。

      視頻 - 音頻聯合生成的研究近期在開源與閉源社區都備受關注,其中,如何生成音視頻對齊的內容是研究的重點。

      近日,來自香港大學和字節跳動的研究團隊提出了一種簡單有效的框架 ——JoVA,它支持視頻和音頻的 Token 在一個 Transformer 的注意力模塊中直接進行跨模態交互。為了解決人物說話時的 “口型 - 語音同步” 問題,JoVA 引入了一個基于面部關鍵點檢測的嘴部區域特定損失 (Mouth-area specific loss)。

      實驗表明,JoVA 只采用了約 190 萬條訓練數據,便在口型同步準確率、語音質量和整體生成保真度上,達到了先進水平。



      • 項目主頁: https://visual-ai.github.io/jova/
      • 論文地址:https://arxiv.org/abs/2512.13677

      一、研究背景與動機

      目前的開源解決方案通常分為兩大類別:一類是 “級聯式”,即先生成視頻再配音,或者先生成語音再驅動視頻生成,這種方式在一定程度上會導致音頻和畫面的割裂;另一類是 “端到端的聯合生成”,試圖同時輸出視頻和音頻。

      如下圖 a, 現有的端到端方法(如 OVi 和 Universe 等),為了實現雙模態對齊,需要在自注意力層 (self-attention) 之外,額外設計融合模塊或跨注意力層 (Cross-attention)。這不僅破壞了 Transformer 架構的簡潔性,還可能阻礙進一步的數據和模態擴展。

      相比之下,JoVA 采用了更加簡潔的設計(如圖 b),直接使用聯合自注意力層 (joint self-attention) 進行兩種模態特征的融合與對齊。它同時承擔了單模態內的建模以及跨模態的融合任務,無需引入任何新的模塊。



      二、方法設計

      1. 架構描述

      JoVA 采用 Waver 作為基礎模型。為了實現音頻生成,JoVA 首先通過復制預訓練視頻主干網絡 (Backbone) 的參數來初始化音頻擴散模型。在特征提取方面,采用了 MMAudio VAE 將原始音頻轉換為聲譜圖潛在表示 (Latent Representation)。

      音頻分支的訓練沿用了與視頻分支相同的流匹配 (Flow Matching) 目標函數。在預訓練階段,視頻和音頻模態是獨立訓練的;而在后續階段,兩者被統一整合進同一個架構中進行并行處理。此外,對于視頻生成,模型支持參考圖像 (Reference Image) 作為條件輸入。該圖像經由視頻 VAE 編碼后,在通道維度上與噪聲視頻潛特征進行拼接。



      2. 音頻 - 視頻 - 文本聯合自注意力層

      為了實現模態間的融合,JoVA 在 Transformer 塊內部采用聯合自注意力機制(Joint Self-Attention)。具體而言,視頻 Token、音頻 Token 以及對應的文本 Token 被拼接在一起,輸入到共享的自注意力層中進行處理。這種設計允許不同模態的 Token 在每一層都進行直接的信息交換,既保留了各自的預訓練知識,又實現了特征融合。為了確保視頻與音頻在時間維度上的精確同步,模型采用了源自 MMAudio 的時間對齊旋轉位置編碼(Temporal-aligned RoPE),在時間維度上同步了兩種模態的位置編碼。

      3. 潛空間嘴部區域感知監督(Mouth-Aware Supervision)

      為了解決人像生成中的唇形同步問題,JoVA 引入了一種針對嘴部區域的增強監督策略。該過程包含三個步驟:

      1. 區域定位:首先在原始視頻幀上進行面部關鍵點檢測,計算出覆蓋嘴部區域的像素級邊界框。

      2. 潛空間映射:將像素空間的邊界框映射到 VAE 的潛空間。這包括空間上的縮放(除以空間下采樣因子 s)和時間上的滑動窗口聚合(根據時間下采樣因子 t 合并窗口內的邊界框),以精確定位潛特征中的嘴部區域。

      3. 加權損失:在訓練目標函數中引入了專門的嘴部損失項。該損失僅對視頻潛特征中的嘴部掩碼區域計算流匹配損失,并通過權重系數進行調節。最終的總損失函數由視頻損失、音頻損失和嘴部區域損失共同構成,從而在不增加推理階段架構復雜度的前提下,強制模型學習細粒度的唇形 - 語音對齊。



      如下圖,我們可以發現,這種映射方式可以很好地在潛空間定位到嘴部區域:



      三、訓練數據集構建

      作者構建了包含三個部分的訓練數據集:Text2Audio(環境音)、Text2Video-Audio(自然場景視聽對)以及 Text2Avatar-Speech(數字人 / 說話人視頻),總共約 1.9M 的訓練樣本。數據標注采用了一套自動化流水線:使用 Tarsier2 生成視頻描述,Audio-flamingo3 生成音頻描述,并利用 Whisper 進行自動語音識別(ASR)以獲取語音文本。

      在實施細節上,采用兩階段訓練策略:先進行語音單模態獨立訓練(80K 步),再進行聯合視聽訓練(50K 步),并在推理時使用了分類器無關引導(Classifier-Free Guidance)以提升生成質量。



      四、實驗結果

      1. SOTA 方法對比

      在 UniAvatar-Bench(作者精選的 100 個樣本)和 Verse-Bench(600 個多樣化樣本)兩個基準上進行了評估。對比對象包括兩類:一是使用真實音頻驅動的視頻生成模型(如 Wan-S2V, Fantasy-Talking),二是聯合視聽生成模型(如 Universe-1, OVI)。

      UniAvatar-Bench 表現:JoVA 在整體性能上表現最佳。

      • 唇形同步(LSE-C):得分為 6.64,不僅優于聯合生成模型 OVI (6.41) 和 Universe-1 (1.62),甚至超過了使用真實音頻驅動的 Wan-S2V (6.43),證明了嘴部監督策略的有效性。
      • 語音與音頻質量:在文本轉語音準確性上,JoVA 取得了最低的詞錯誤率(WER 0.18);在音頻生成指標(FD, KL, CE, CU, PQ)上均取得最佳分數。
      • 視頻質量:在動態程度(MS 0.98)和美學評分(AS 0.47)上均領先。雖然身份一致性(ID 0.78)低于音頻驅動模型,但在聯合生成任務中處于合理范圍。



      Verse-Bench 表現:JoVA 展現了在多樣化場景下的魯棒性。

      • 語音準確性:WER 低至 0.11,驗證了其穩健的語音合成能力。
      • 視聽對齊:LSE-C 得分為 6.51,略低于 OVI (6.61) 但遠高于 Universe (1.62)。
      • 綜合質量:在保持最高視頻動態(MS 0.80)和美學質量(AS 0.48)的同時,音頻生成的一致性(CS, CE)也達到了最優水平。



      模型擴展性與效率分析

      研究進一步對比了基于 Waver-1.6B(總參數量 3.2B)和 Waver-12B(總參數量 24B)主干網絡的 JoVA 模型性能:

      • 小模型的高效性:僅使用 3.2B 參數和 1.9M 訓練數據的 JoVA 模型,其 LSE-C 得分達到 6.20,顯著優于參數量更大(7.1B)且訓練數據更多(6.4M)的 Universe-1 模型(LSE-C 1.62),并與 10.9B 參數的 OVI 模型具備競爭力。
      • 大模型的性能上限:隨著參數量增加至 24B,JoVA 在各項指標上均達到最佳水平(LSE-C 提升至 6.64,WER 降至 0.18)。



      2. 融合實驗對比

      為了驗證各模塊的有效性,作者進行了多項消融實驗:

      嘴部感知損失(Mouth-Aware Loss)的影響:

      • 當權重為 0.0 時,模型無法學習細粒度的唇形對齊(LSE-C 僅為 1.39)。
      • 增加權重至 5.0 時,LSE-C 顯著提升至 6.64,且未損害其他音頻或視頻質量指標。這表明針對嘴部區域的顯式監督對于實現精確同步至關重要。



      時間對齊 RoPE 的影響:

      • 采用時間對齊的 RoPE(視頻和音頻共享時間維度的位置編碼)相比未對齊版本,LSE-C 從 6.58 提升至 6.64。
      • 盡管在音頻分布相似度(FD)上存在輕微折損(0.58 vs 0.69),但該設計顯著增強了幀級的時間對應關系,更利于人像視頻生成。



      聯合自注意力 vs. 交叉注意力:

      • 對比結果顯示,聯合自注意力(Joint Self-Attention) 機制在唇形同步(LSE-C 6.64)和語音準確性(WER 0.18)上均優于交叉注意力變體。
      • 特別是帶線性適配層的交叉注意力方案表現最差(LSE-C 1.63)。這證實了在統一的注意力空間內直接處理多模態 Token,比通過獨立的交叉注意力模塊更能促進特征的有效對齊。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      悲催!孕檢時才發現老婆曾7次流產,老婆矢口否認并報警!

      悲催!孕檢時才發現老婆曾7次流產,老婆矢口否認并報警!

      閑侃閑侃
      2025-12-28 09:37:50
      官宣 58歲日本活化石5年后重返J聯賽:開啟第41個賽季 想踢到80歲

      官宣 58歲日本活化石5年后重返J聯賽:開啟第41個賽季 想踢到80歲

      風過鄉
      2025-12-30 13:01:27
      溢價收購后又剝離子公司,盛龍股份關聯采購激增有何隱情?|讀懂IPO

      溢價收購后又剝離子公司,盛龍股份關聯采購激增有何隱情?|讀懂IPO

      時代投研
      2025-12-29 21:33:59
      成都男子炸4S店最新!1死4傷現場慘烈,知情人曝猛料,都是被逼的

      成都男子炸4S店最新!1死4傷現場慘烈,知情人曝猛料,都是被逼的

      云景侃記
      2025-12-29 14:19:49
      藝人曹西平家中猝然離世,發現時遺體僵硬,干兒子忍痛放棄急救

      藝人曹西平家中猝然離世,發現時遺體僵硬,干兒子忍痛放棄急救

      科學發掘
      2025-12-30 11:40:49
      基恩:加納喬哪點比庫尼亞強了?曼聯賣掉他立刻完成升級

      基恩:加納喬哪點比庫尼亞強了?曼聯賣掉他立刻完成升級

      懂球帝
      2025-12-30 14:07:50
      美媒稱美國首次對委內瑞拉境內目標發動襲擊

      美媒稱美國首次對委內瑞拉境內目標發動襲擊

      新華社
      2025-12-30 10:03:03
      聞泰科技索賠80億美元!

      聞泰科技索賠80億美元!

      中國半導體論壇
      2025-12-29 20:06:07
      老天啊!郭晶晶竟然長這樣,她本人狀態好好啊,線下好美。

      老天啊!郭晶晶竟然長這樣,她本人狀態好好啊,線下好美。

      徐幫陽
      2025-12-30 10:36:24
      俄方稱烏克蘭襲擊普京官邸,中方表態

      俄方稱烏克蘭襲擊普京官邸,中方表態

      澎湃新聞
      2025-12-30 16:52:04
      泡泡瑪特開始五折甩賣,二手平臺上Labubu部分款式跌破原價,部分黃牛公開聲明“暫緩收購Labubu系列”

      泡泡瑪特開始五折甩賣,二手平臺上Labubu部分款式跌破原價,部分黃牛公開聲明“暫緩收購Labubu系列”

      極目新聞
      2025-12-29 19:54:13
      今天,A股漲到3979,做好準備,明天,12月31號,很有可能這樣走

      今天,A股漲到3979,做好準備,明天,12月31號,很有可能這樣走

      有范又有料
      2025-12-30 14:58:56
      懂車帝的交叉軸測試,炸出沒良心車企了?

      懂車帝的交叉軸測試,炸出沒良心車企了?

      差評XPIN
      2025-12-30 00:12:12
      這些離譜謠言該停了:英國沒地鐵?美澳遍地饑民?

      這些離譜謠言該停了:英國沒地鐵?美澳遍地饑民?

      老馬拉車莫少裝
      2025-12-20 07:06:48
      廟小妖風大

      廟小妖風大

      求實處
      2025-12-29 20:35:21
      日本女優天月杏宣布年內引退:不想再出賣自己身體了

      日本女優天月杏宣布年內引退:不想再出賣自己身體了

      隨波蕩漾的漂流瓶
      2025-12-28 16:18:22
      朱元璋逃難到寡婦家,臨走前寡婦害怕懷孕,朱元璋的做法令人敬佩

      朱元璋逃難到寡婦家,臨走前寡婦害怕懷孕,朱元璋的做法令人敬佩

      銘記歷史呀
      2025-12-29 02:30:03
      大跌前的最后出逃機會?主力開始攤牌了!A股,明天歷史或會重演!

      大跌前的最后出逃機會?主力開始攤牌了!A股,明天歷史或會重演!

      股市皆大事
      2025-12-30 12:25:51
      成飛官宣殲-36的名字,太好聽了,出自何處呢?

      成飛官宣殲-36的名字,太好聽了,出自何處呢?

      世家寶
      2025-12-30 16:32:27
      上升8位!曼聯進步冠絕英超,三人晉級難歸,阿莫林擔心B費搶飯碗

      上升8位!曼聯進步冠絕英超,三人晉級難歸,阿莫林擔心B費搶飯碗

      嗨皮看球
      2025-12-30 15:51:56
      2025-12-30 17:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12022文章數 142523關注度
      往期回顧 全部

      科技要聞

      估值150億的智元,開始批量"制造"小獨角獸

      頭條要聞

      "退貨羽絨服口袋里現機票"引發爭議 買家遭網暴后喊冤

      頭條要聞

      "退貨羽絨服口袋里現機票"引發爭議 買家遭網暴后喊冤

      體育要聞

      這個59歲的胖子,還在表演“蝎子擺尾”

      娛樂要聞

      林俊杰官宣文案爭議!女方名字都不提

      財經要聞

      朱光耀:美關稅政策正使WTO名存實亡

      汽車要聞

      標配華為乾崑ADS 4 Pro 華境S明年上半年上市

      態度原創

      教育
      時尚
      藝術
      本地
      軍事航空

      教育要聞

      看完一定有收獲

      她們冬天這樣穿,真的很美!

      藝術要聞

      謝稚柳雪景山水20圖

      本地新聞

      即將過去的2025年,對重慶的影響竟然如此深遠

      軍事要聞

      福建海警艦艇與臺海巡船對峙航行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: yy19影院| 亚洲色大成网站www久久九九| 国产精品无码天天爽视频| 小13箩利洗澡无码视频网站| 日韩A视频| 天天日夜夜| WWW免费视频| 亚洲va综合va国产va中文| 国内视频自拍| 欧产日产国产精品精品| 欧美丰满老妇性猛交| 免费国产女王调教在线视频| 九色人妻在线| 万载县| 色窝视频| 亚洲欧洲一区二区免费| 毛片免费观看天天干天天爽| 国产一区二区精品久久岳| 狠狠色丁香婷婷综合| 蕲春县| 欧美精品久久久久久久久46P| 欧美一线天| 中文成人无字幕乱码精品区| 97久久天天综合色天天综合色hd| 亚洲一区av无码少妇电影| 95国产精品| 欧美福利一区| 两个人xxx性爱视频| 精品自拍视频| 平度市| 中文字幕亚洲综合久久青草| 成人AV免费| 人妖91| 伊人在线亚洲| 尹人香蕉久久99天天拍| 亚洲欧美色综合影院| 玖草视频在线观看| 99精品偷自拍| 精品国产乱码久久久久久1区2区| 麻豆一区二区中文字幕| 日本韩国一级|