網易首頁 > 網易號 > 正文申請入駐

斯坦福大學等機構突破：JavisDiT++實現音視頻同步生成

2026-02-27 22:22:11　來源: 科技行者

北京舉報

分享至

這項由浙江大學、新加坡國立大學、多倫多大學等多所國際知名院校合作完成的研究，發表于2026年的國際學習表征會議（ICLR 2026），論文編號為arXiv:2602.19163v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

當你在刷短視頻時，是否想過一個問題：為什么AI能生成逼真的圖片，也能制作流暢的視頻，甚至能合成自然的音頻，但就是無法做到讓畫面和聲音完美配合？就像看一部配音不同步的電影，總讓人覺得哪里不對勁。這個看似簡單的問題，實際上是人工智能領域的一個巨大挑戰。

想象你是一位電影導演，需要同時指揮攝影師拍攝畫面和音響師錄制聲音，還要確保兩者完美同步。對人類來說，這需要大量的協調和練習。對AI來說，這個挑戰更加復雜，因為它需要理解聲音和畫面之間微妙的關系，比如鳥兒啁啾的聲音應該和翅膀拍打的動作完全吻合，鋼琴的琴鍵按下應該和相應的音符同時出現。

現有的AI系統通常采用"接力賽"的方式：先生成視頻，然后根據視頻內容添加聲音，或者先生成音頻，再根據聲音制作畫面。這種方法就像兩個人分別畫畫和寫字，最后拼在一起，很難保證完美配合。更讓人頭疼的是，即使是最先進的商業AI產品，比如谷歌的Veo3，也能制作出令人驚嘆的有聲視頻，但這些技術往往不對外開源，普通研究者和開發者無法使用和改進。

研究團隊意識到，要解決這個問題，需要一種全新的思路。他們開發了一個名為JavisDiT++的AI系統，這個系統最大的創新在于讓AI"學會"了像人類導演一樣，從一開始就統籌安排聲音和畫面的生成，而不是事后再進行拼接。

更令人興奮的是，這個系統不僅實現了技術突破，還在訓練效率上創造了奇跡。研究團隊僅僅使用了大約100萬個公開的訓練樣本，就讓這個AI系統達到了業界領先水平，在多項評估指標上全面超越了之前的開源方法。這就像用一本薄薄的教材培養出了頂尖的學生，展現了方法的高效性。

這項研究的意義遠不止于技術突破。在短視頻、電影制作、游戲開發和虛擬現實等領域，高質量的有聲視頻生成都有巨大需求。傳統的視頻制作需要大量人力和時間，而這個AI系統可能會徹底改變內容創作的方式，讓普通人也能輕松制作出專業級別的有聲視頻內容。

研究團隊已經將所有代碼、模型和數據集完全公開，這意味著全世界的研究者和開發者都可以在此基礎上繼續改進，推動整個領域的發展。這種開放的態度體現了學術研究的初心，也為AI視頻生成技術的普及奠定了基礎。

一、破解同步難題的核心秘密

要理解JavisDiT++的創新之處，我們需要先明白AI生成有聲視頻時面臨的根本挑戰。這個問題就像讓一個從未見過樂隊演出的人，同時指揮十幾種不同的樂器，還要確保每個音符都與演奏動作完美配合。

傳統的AI系統在處理這個問題時，往往采用"分工合作"的方式。系統內部有專門負責視頻的"部門"和專門負責音頻的"部門"，它們各自獨立工作，然后通過復雜的"溝通機制"來協調。這種設計就像兩家公司合作開發產品，雖然各自都很專業，但協調成本極高，最終效果也往往差強人意。

JavisDiT++采用了一種革命性的設計理念，研究團隊稱之為"模態特異性專家混合"。用更通俗的話來說，這就像建立了一個高效的創作工作室，其中有一個共同的"討論區"，所有創作者都在這里交流想法和靈感，確保大家對項目有共同的理解。但是在具體創作時，視頻創作者有自己專用的工作臺，音頻創作者也有自己的專業設備，這樣既保證了充分的交流，又讓每個人能專注于自己最擅長的工作。

這種設計的巧妙之處在于平衡。系統的"注意力層"就像那個共同的討論區，讓視頻和音頻信息能夠充分交流融合。而"前饋網絡層"則像專業的工作臺，分別為視頻和音頻處理提供專門的優化空間。這樣的安排讓系統既能深度理解跨模態的關系，又能保持單一模態生成的高質量。

研究團隊在對比實驗中發現，這種設計相比傳統的統一處理方式，能顯著提升生成質量。而相比完全獨立的雙流設計，它又大大提高了效率，減少了近三分之一的計算開銷。這種效率提升對于AI系統的實用化至關重要，因為更快的生成速度意味著更好的用戶體驗和更低的使用成本。

更重要的是，這種架構設計具有良好的擴展性。當需要處理更長的視頻或更復雜的音頻時，系統不需要大幅改動，只需要調整相應參數即可。這為未來的功能擴展奠定了堅實基礎，也體現了研究團隊對系統設計的深度思考。

二、時間同步的精確制導系統

在影視制作中，有一個專門的職業叫"同步師"，他們的工作是確保演員的口型與配音完美同步，哪怕幾毫秒的偏差都能被觀眾察覺。對AI來說，這個同步挑戰更加復雜，因為它需要理解聲音和畫面在時間軸上的精確對應關系。

傳統的AI系統處理這個問題時，往往使用一些間接的方法，比如添加額外的"同步檢查器"或使用復雜的"交叉注意力機制"。這些方法就像在兩個獨立運行的時鐘之間搭建復雜的齒輪系統來保持同步，不僅復雜，而且容易出現累積誤差。

JavisDiT++引入了一種名為"時間對齊旋轉位置編碼"的技術，這個技術的核心思想極其巧妙。可以把它想象成給系統中的每個數據片段都貼上了精確的"時間戳標簽"。但與普通標簽不同的是，這些標簽不僅標注了"什么時候"，還通過特殊的編碼方式告訴系統"應該與誰同步"。

具體來說，系統將視頻按幀處理，每一幀都有自己的三維坐標：時間、高度、寬度。音頻則被轉換成類似圖片的頻譜圖形式，也有對應的坐標系統。關鍵的創新在于，系統讓音頻和視頻在時間維度上使用完全相同的坐標系統，就像讓兩個演員按照同一個節拍器來表演，自然就能保持同步。

但這里還有一個精妙的細節處理。為了避免音頻和視頻的位置標簽出現重疊沖突，系統給音頻標簽加上了固定的偏移量。這就像給兩隊演員分配不同顏色的服裝，雖然他們按照同樣的節拍表演，但系統能清楚地區分誰是誰，避免了混亂。

實驗結果證明了這種設計的有效性。與之前需要額外同步機制的方法相比，這種直接的位置編碼方式不僅提高了同步精度，還大大降低了計算復雜度。系統能夠在不增加任何推理時間的情況下，實現更好的音視頻同步效果，這對實際應用來說是巨大的優勢。

更令人驚喜的是，這種編碼策略還能與其他同步技術兼容，為進一步的性能提升留下了空間。雖然研究團隊為了保持系統的簡潔性最終選擇了單獨使用這種方法，但這種兼容性為未來的改進提供了可能性。

三、讓AI學會人類偏好的智能導師系統

如果說前面的技術創新解決了"能不能做"的問題，那么接下來的這項技術就解決了"做得好不好"的問題。就像培養一個藝術家不僅要教會他技法，更要培養他的審美品味，AI系統也需要學會什么樣的有聲視頻才符合人類的喜好。

傳統的AI訓練就像讓學生對著標準答案反復練習，只要結果足夠接近標準答案就算成功。但現實中，人類對視頻質量的判斷是復雜而主觀的，很難用簡單的數學公式來衡量。一個視頻可能在技術指標上表現優秀，但看起來就是不夠自然；另一個視頻的參數可能不夠完美，但就是讓人覺得賞心悅目。

研究團隊開發了一套名為"音視頻直接偏好優化"的訓練方法，這套方法的核心思想是讓AI通過對比學習來理解人類偏好。系統會生成多個版本的有聲視頻，然后通過多個維度的評估來判斷哪個版本更好，再讓AI學會向更好的方向改進。

這個評估系統本身就很有意思。研究團隊沒有依賴人工標注（那樣成本太高且效率太低），而是開發了一套自動化的評估體系。這套體系從三個主要角度來判斷視頻質量：音頻質量、視頻質量，以及音視頻之間的協調性。每個角度都有專門的AI評估工具，就像聘請了多位專業評委來給作品打分。

音頻評估主要關注聲音的清晰度和自然度，視頻評估則關注畫面的流暢性和真實感，而協調性評估則專門檢查聲畫是否同步，內容是否匹配。系統會綜合這三方面的評分，選出表現最好和相對較差的樣本組成"優劣對比對"，然后讓AI學會分辨差異并向優秀樣本學習。

這種訓練方式的效果是顯著的。經過偏好優化訓練的系統，在客觀指標上有了明顯提升，更重要的是，在人類評估者的主觀判斷中也獲得了更高的認可度。實驗顯示，經過這種訓練的系統生成的視頻，在人類評估中有超過70%的概率被認為優于之前的版本。

有趣的是，這種偏好學習不僅提升了生成質量，還增強了系統的穩定性。傳統訓練中，AI系統可能會出現"過擬合"現象，就像學生死記硬背卻不理解原理一樣。而偏好優化訓練讓系統學會了更深層的理解，生成的內容更加穩定可靠。

研究團隊還特別注意到，這種方法的另一個優勢是數據效率。相比需要大量標注數據的傳統方法，偏好優化只需要相對少量的對比樣本就能取得良好效果。這對于推動技術普及和降低應用門檻具有重要意義。

四、超越巨頭的開源奇跡

在AI領域，有一個令人沮喪的現實：最先進的技術往往掌握在幾家大公司手中，普通研究者和開發者只能望而興嘆。谷歌的Veo3雖然能生成令人驚嘆的有聲視頻，但它就像鎖在保險柜里的珍寶，外人無法觸及。這種技術壟斷不僅阻礙了學術進步，也限制了創新應用的發展。

JavisDiT++的出現打破了這種局面，而且是以一種令人震驚的方式。研究團隊僅僅使用了大約100萬個公開可獲得的訓練樣本，就訓練出了一個在多項指標上全面超越現有開源方法的系統。更令人驚訝的是，這個系統在某些方面的表現已經接近甚至超過了部分商業系統的水平。

這種效率的實現得益于研究團隊的巧妙策略。他們采用了三階段的漸進式訓練方法，就像培養一個全才需要循序漸進一樣。第一階段，系統專門學習音頻生成，掌握各種聲音的特征和規律。第二階段，系統開始學習音視頻聯合生成，理解聲音和畫面之間的對應關系。第三階段，系統通過偏好優化進一步提升生成質量，學會更好地滿足人類審美需求。

每個階段都有明確的目標和精心設計的訓練策略。音頻預訓練階段使用了78萬個音頻-文本對，涵蓋了各種類型的聲音，從自然環境音到音樂再到語音。音視頻聯合訓練階段使用了33萬個高質量的音視頻-文本三元組，這些數據經過嚴格篩選，確保質量和多樣性的平衡。偏好優化階段則使用了2.5萬個精心構建的對比樣本。

訓練過程中的另一個創新是參數效率策略。研究團隊沒有簡單粗暴地訓練所有參數，而是采用了"LoRA"技術，只訓練系統中的關鍵部分。這就像裝修房子時只更換必要的部件而保持整體結構不變，既達到了改進效果，又大大降低了計算成本。

實驗結果證明了這種策略的有效性。在標準評估數據集JavisBench上，JavisDiT++在幾乎所有評估指標上都取得了最優成績。在視頻質量方面，系統的FVD指標（衡量視頻真實度的重要標準）達到了141.5，顯著優于之前最好開源方法的194.2。在音頻質量方面，FAD指標達到了5.5，同樣超越了之前的最好結果。

更令人印象深刻的是同步性能的提升。在衡量音視頻時間同步的DeSync指標上，JavisDiT++的得分為0.832，相比之前的最好方法有了顯著改進。這種同步精度的提升對用戶體驗來說至關重要，因為即使細微的不同步也會讓觀看者感到不適。

研究團隊還進行了大量的人類評估實驗。結果顯示，在與之前的主要開源方法JavisDiT和UniVerse-1的對比中，JavisDiT++生成的視頻有超過70%的概率被人類評估者認為更優秀。這種主觀評估的優勢進一步證實了技術改進的實際效果。

五、技術細節的精妙平衡

深入了解JavisDiT++的技術實現，就像欣賞一件精密機械的內部結構，每個組件都恰到好處地發揮著自己的作用。整個系統基于強大的Wan2.1-1.3B-T2V模型構建，這個基礎模型已經具備了出色的文本到視頻生成能力，為音視頻聯合生成提供了堅實的起點。

系統的架構設計體現了"簡單而強大"的哲學。視頻處理部分沿用了成熟的變分自編碼器（VAE）技術，將原始視頻壓縮成更緊湊的表示形式，就像將高清照片壓縮成縮略圖一樣，保留關鍵信息的同時大幅減少計算量。音頻處理則采用了梅爾頻譜圖的方式，將聲音轉換成類似圖片的二維表示，這樣就能用處理圖像的方法來處理聲音。

模態特異性專家混合（MS-MoE）模塊的實現特別巧妙。系統首先讓所有的音頻和視頻標記在共享的注意力層中充分交互，就像讓所有樂手先一起排練找感覺。然后，系統將這些標記分別送入專門的前饋網絡，音頻有音頻的"專業工具"，視頻有視頻的"專業工具"，各自進行深度處理。

這種設計的優勢在實驗中得到了充分驗證。研究團隊對比了三種不同的架構策略：使用LoRA微調的共享模型、全參數微調的共享模型，以及他們提出的MS-MoE方法。結果顯示，MS-MoE在保持視頻生成質量的同時，顯著提升了音頻生成能力，同時還改善了音視頻同步效果。

時間對齊的位置編碼實現也頗具匠心。對于視頻幀，系統保持原有的三維位置編碼：時間、高度、寬度。對于音頻的每個時頻點，系統首先計算它對應的視頻時間點，然后在另外兩個維度上加上偏移量以避免與視頻位置重疊。這個看似簡單的策略，實際上解決了一個困擾研究者很久的同步問題。

研究團隊還進行了詳細的消融實驗來驗證各個組件的貢獻。他們測試了四種不同的音頻位置編碼策略：完全獨立編碼、插值對齊、交錯對齊，以及交錯加偏移。結果表明，交錯加偏移的策略（也就是最終采用的方法）在各個指標上都表現最佳，既保證了時間同步，又避免了位置沖突。

偏好優化的實現細節同樣經過了精心設計。系統使用多個專業的評估模型：VideoAlign負責視頻質量評估，AudioBox負責音頻質量評估，ImageBind負責跨模態語義對齊評估，SynchFormer負責時間同步評估。這些評估結果經過歸一化處理后綜合成最終的排序信號。

訓練過程采用了動態批處理策略，能夠處理不同長度和分辨率的視頻樣本。系統支持2-5秒的視頻長度和240p-480p的分辨率范圍，能夠適應不同的應用場景需求。推理時，整個生成過程只需要約1分4秒，相比其他方法大大提升了效率。

六、實驗驗證與性能突破

科學研究的價值最終要通過嚴格的實驗驗證來體現。研究團隊設計了一套全面的評估體系，從多個角度檢驗JavisDiT++的性能表現。這套評估體系就像給運動員進行全面的體能測試，不僅要看單項成績，更要看綜合表現。

評估使用的JavisBench數據集包含超過1萬個多樣化的文本提示，涵蓋了自然場景、人物活動、動物行為、音樂演奏等各種類型。每個提示都要求生成4秒鐘、240p分辨率的有聲視頻，這個規格既能充分展示系統能力，又保證了評估的效率和公平性。

性能對比的結果令人印象深刻。在視頻質量的核心指標FVD上，JavisDiT++達到了141.5分，相比之前最好的開源方法UniVerse-1的194.2分有了顯著提升，分數越低表示生成的視頻越接近真實視頻。在音頻質量的FAD指標上，系統得分5.5分，同樣優于所有對比方法。

更重要的是跨模態一致性的提升。在衡量文本-視頻語義匹配的TV-IB指標上，JavisDiT++得分0.282，在文本-音頻匹配的TA-IB指標上得分0.164，這些數字表明系統生成的內容與輸入文本描述高度一致。音視頻語義對齊的AV-IB指標達到0.198，證明生成的聲音和畫面內容協調統一。

同步性能的突破尤為顯著。在專門衡量時間同步的DeSync指標上（分數越低越好），JavisDiT++達到0.832分，相比其他方法有明顯優勢。這種同步精度的提升意味著觀看者不會感受到聲畫不協調的違和感，觀看體驗更加自然流暢。

研究團隊還進行了詳盡的消融研究，系統性地驗證了各個技術組件的貢獻。關于架構設計的實驗顯示，MS-MoE相比傳統的共享架構，在保持視頻生成質量的同時，大幅提升了音頻生成效果。關于位置編碼的實驗證實，時間對齊策略相比其他方案能更好地實現音視頻同步。

偏好優化的效果在人類評估中得到了進一步驗證。研究團隊招募了專業評估者，對比JavisDiT++生成的視頻與其他方法的結果。在與JavisDiT的對比中，JavisDiT++有74%的概率被認為更優秀；在與UniVerse-1的對比中，這個比例達到了74.7%。

訓練數據的質量和數量也經過了專門研究。團隊對比了使用不同質量和規模數據集的訓練效果，發現數據質量和多樣性同樣重要：單純增加低質量數據并不能提升性能，而高質量但數量不足的數據也無法充分發揮系統潛力。最終采用的33萬中等質量訓練樣本在質量和多樣性之間取得了最佳平衡。

計算效率的優勢同樣值得關注。JavisDiT++的推理時間僅為1分4秒，相比JavisDiT的3分55秒和UniVerse-1的1分42秒都有明顯優勢。這種效率提升對實際應用具有重要價值，意味著用戶能夠更快地獲得生成結果，系統能夠服務更多用戶。

七、開源精神與未來展望

JavisDiT++的發布不僅僅是一項技術突破，更代表了開源精神在AI領域的重要勝利。在當今AI發展越來越依賴大公司巨額投入的背景下，這個項目證明了學術界依然能夠通過巧妙的方法和開放合作創造出世界領先的成果。

研究團隊將所有代碼、預訓練模型權重和處理后的數據集完全開放，任何人都可以免費獲取和使用。這種開放態度打破了技術壁壘，讓全世界的研究者和開發者都能在此基礎上繼續創新。相比那些被嚴密保護的商業技術，這種開放模式能夠激發更多創意，推動技術更快發展。

項目的技術路線也為未來的改進指明了方向。當前版本主要支持2-5秒的短視頻生成，但架構設計已經為擴展到更長時間做好了準備。分辨率方面，現在支持240p-480p，隨著計算資源的改善和算法的優化，擴展到更高分辨率也是水到渠成的事情。

更令人期待的是跨模態生成能力的擴展。目前系統主要處理文本到音視頻的生成，但同樣的架構原理可以擴展到音頻到視頻、視頻到音頻，甚至圖像加音頻到視頻等更多場景。這種擴展將為內容創作帶來更多可能性，讓創作者能夠用更靈活的方式表達創意。

技術的實際應用前景同樣廣闊。在教育領域，這種技術能夠幫助制作生動的教學視頻，讓抽象概念變得形象具體。在娛樂產業，它能夠降低視頻制作的門檻，讓更多創作者能夠實現自己的想法。在商業應用中，它能夠幫助企業快速制作營銷視頻，提高宣傳效率。

當然，技術的發展也伴隨著挑戰和責任。高質量的AI生成內容可能被惡意使用，制作虛假信息或深度偽造內容。研究團隊在論文中也討論了這些潛在風險，并呼吁建立相應的檢測和防護機制。技術本身是中性的，關鍵在于如何使用。

從研究方法論的角度，JavisDiT++展示了"少即是多"的設計哲學。相比那些復雜龐大的系統，簡潔而高效的設計往往更具可持續性和可擴展性。這種方法不僅降低了技術門檻，也為后續的改進和優化留下了充足空間。

研究團隊的國際合作模式也值得稱道。這個項目匯集了浙江大學、新加坡國立大學、多倫多大學等多所知名院校的研究力量，體現了學術合作的力量。不同文化背景和專業特長的研究者協同工作，往往能夠產生意想不到的創新火花。

展望未來，隨著計算能力的持續提升和算法的不斷優化，我們有理由相信AI生成的有聲視頻將變得越來越逼真，應用場景也會越來越廣泛。JavisDiT++作為這個領域的重要里程碑，不僅推動了技術進步，更為后續研究奠定了堅實基礎。

歸根結底，這項研究的最大價值或許不在于創造了多么驚艷的技術演示，而在于為普通人打開了創意表達的新大門。當生成高質量有聲視頻變得像寫文章一樣簡單時，我們的表達方式將變得更加豐富多彩，創意的邊界也將被進一步拓展。這種技術民主化的意義，遠比單純的技術突破更加深遠。

Q&A

Q1：JavisDiT++和現有的AI視頻生成工具有什么區別？

A：JavisDiT++的最大區別是能夠同時生成聲音和畫面，而且兩者完美同步。現有的AI工具要么只能生成無聲視頻，要么需要先生成視頻再配音，很難保證同步效果。JavisDiT++從一開始就統籌安排聲音和畫面的生成，就像一個熟練的導演能同時指揮攝影和錄音一樣，確保最終效果的協調統一。

Q2：普通人可以使用JavisDiT++來制作視頻嗎？

A：可以的，而且這正是研究團隊的目標之一。JavisDiT++是完全開源的項目，所有代碼和模型都可以免費獲取。雖然目前還需要一定的技術基礎來部署和使用，但隨著技術的發展和社區的完善，相信很快就會有更友好的用戶界面出現，讓普通創作者也能輕松使用這項技術制作專業級的有聲視頻內容。

Q3：JavisDiT++生成的視頻質量能達到什么水平？

A：根據研究團隊的測試結果，JavisDiT++在多項客觀指標上都超越了之前的開源方法，在人類評估中有超過70%的概率被認為優于現有技術。雖然目前還主要支持短時長、中等分辨率的視頻，但生成的內容在視覺效果、音頻質量和同步精度方面都達到了很高水準。隨著技術的持續優化，質量還會進一步提升。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.