網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

蘋(píng)果聯(lián)合研發(fā)AI模型VSSFlow 可從靜音視頻生成聲音與語(yǔ)音

2026-02-10 00:20:48　來(lái)源: 龍劍秀南

上海舉報(bào)

分享至

蘋(píng)果公司與中國(guó)人民大學(xué)研究人員合作開(kāi)發(fā)了一款名為VSSFlow的人工智能模型，該成果于2026年2月9日由9to5Mac披露。該模型能夠從無(wú)聲視頻中同步生成環(huán)境音效和人類語(yǔ)音，實(shí)現(xiàn)聲音與語(yǔ)音的統(tǒng)一合成。

VSSFlow采用創(chuàng)新的架構(gòu)設(shè)計(jì)，解決了傳統(tǒng)模型在語(yǔ)音與非語(yǔ)音聲音生成上的割裂問(wèn)題。以往多數(shù)視頻轉(zhuǎn)聲音模型難以準(zhǔn)確生成清晰語(yǔ)音，而文本轉(zhuǎn)語(yǔ)音系統(tǒng)又無(wú)法處理背景音效。VSSFlow通過(guò)整合視頻畫(huà)面與文字轉(zhuǎn)錄信息，在一個(gè)10層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中同時(shí)處理兩類任務(wù)，實(shí)現(xiàn)了端到端的聯(lián)合訓(xùn)練。

研究團(tuán)隊(duì)發(fā)現(xiàn)，這種聯(lián)合訓(xùn)練方式不僅沒(méi)有導(dǎo)致任務(wù)間相互干擾，反而產(chǎn)生了“互促效應(yīng)”——語(yǔ)音訓(xùn)練提升了音效生成質(zhì)量，音效訓(xùn)練也增強(qiáng)了語(yǔ)音自然度。模型以每秒10幀的速度提取視頻視覺(jué)特征，并結(jié)合說(shuō)話內(nèi)容的文字轉(zhuǎn)錄，指導(dǎo)音頻從隨機(jī)噪聲逐步重構(gòu)為逼真聲音。

為使模型能同時(shí)輸出語(yǔ)音與背景音，研究人員使用大量合成數(shù)據(jù)對(duì)已訓(xùn)練好的模型進(jìn)行微調(diào)，使其學(xué)會(huì)在同一音頻流中融合兩者。測(cè)試顯示，VSSFlow在語(yǔ)音和音效生成方面均達(dá)到或優(yōu)于專用模型的表現(xiàn)水平。

目前，VSSFlow的代碼已在GitHub開(kāi)源，模型權(quán)重正在準(zhǔn)備公開(kāi)發(fā)布，并計(jì)劃提供在線推理演示。研究團(tuán)隊(duì)指出，未來(lái)挑戰(zhàn)包括高質(zhì)量多模態(tài)數(shù)據(jù)稀缺以及如何在保持語(yǔ)音細(xì)節(jié)的同時(shí)優(yōu)化聲音表征效率。相關(guān)論文《VSSFlow: 通過(guò)聯(lián)合學(xué)習(xí)統(tǒng)一視頻條件下的聲音與語(yǔ)音生成》詳細(xì)介紹了該項(xiàng)技術(shù)。

參考鏈接:
https://9to5mac.com/2026/02/09/new-apple-backed-ai-model-can-generate-sound-and-speech-from-silent-videos/

聲明：內(nèi)容由AI生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.