![]()
蘋(píng)果公司與中國(guó)人民大學(xué)研究人員合作開(kāi)發(fā)了一款名為VSSFlow的人工智能模型,該成果于2026年2月9日由9to5Mac披露。該模型能夠從無(wú)聲視頻中同步生成環(huán)境音效和人類語(yǔ)音,實(shí)現(xiàn)聲音與語(yǔ)音的統(tǒng)一合成。
VSSFlow采用創(chuàng)新的架構(gòu)設(shè)計(jì),解決了傳統(tǒng)模型在語(yǔ)音與非語(yǔ)音聲音生成上的割裂問(wèn)題。以往多數(shù)視頻轉(zhuǎn)聲音模型難以準(zhǔn)確生成清晰語(yǔ)音,而文本轉(zhuǎn)語(yǔ)音系統(tǒng)又無(wú)法處理背景音效。VSSFlow通過(guò)整合視頻畫(huà)面與文字轉(zhuǎn)錄信息,在一個(gè)10層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中同時(shí)處理兩類任務(wù),實(shí)現(xiàn)了端到端的聯(lián)合訓(xùn)練。
研究團(tuán)隊(duì)發(fā)現(xiàn),這種聯(lián)合訓(xùn)練方式不僅沒(méi)有導(dǎo)致任務(wù)間相互干擾,反而產(chǎn)生了“互促效應(yīng)”——語(yǔ)音訓(xùn)練提升了音效生成質(zhì)量,音效訓(xùn)練也增強(qiáng)了語(yǔ)音自然度。模型以每秒10幀的速度提取視頻視覺(jué)特征,并結(jié)合說(shuō)話內(nèi)容的文字轉(zhuǎn)錄,指導(dǎo)音頻從隨機(jī)噪聲逐步重構(gòu)為逼真聲音。
為使模型能同時(shí)輸出語(yǔ)音與背景音,研究人員使用大量合成數(shù)據(jù)對(duì)已訓(xùn)練好的模型進(jìn)行微調(diào),使其學(xué)會(huì)在同一音頻流中融合兩者。測(cè)試顯示,VSSFlow在語(yǔ)音和音效生成方面均達(dá)到或優(yōu)于專用模型的表現(xiàn)水平。
目前,VSSFlow的代碼已在GitHub開(kāi)源,模型權(quán)重正在準(zhǔn)備公開(kāi)發(fā)布,并計(jì)劃提供在線推理演示。研究團(tuán)隊(duì)指出,未來(lái)挑戰(zhàn)包括高質(zhì)量多模態(tài)數(shù)據(jù)稀缺以及如何在保持語(yǔ)音細(xì)節(jié)的同時(shí)優(yōu)化聲音表征效率。相關(guān)論文《VSSFlow: 通過(guò)聯(lián)合學(xué)習(xí)統(tǒng)一視頻條件下的聲音與語(yǔ)音生成》詳細(xì)介紹了該項(xiàng)技術(shù)。
參考鏈接:
https://9to5mac.com/2026/02/09/new-apple-backed-ai-model-can-generate-sound-and-speech-from-silent-videos/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.