品玩2月10日訊,據 9to5Mac 報道,Apple三位研究人員與中國人民大學六位學者共同開發新型AI模型VSSFlow,首次在單一系統中實現從無聲視頻同步生成環境音效與語音對話。該模型采用10層架構,融合視頻幀(10fps)與文本轉音素序列,通過流匹配技術從噪聲重建高質量音頻。
研究發現,語音與音效的聯合訓練不僅未相互干擾,反而產生“互促提升”效應。為實現音畫同步輸出,團隊進一步基于合成混合數據對模型進行微調。
實驗表明,VSSFlow在音效與語音任務上均達到業界領先水平。項目代碼已開源,模型權重及推理演示亦將陸續開放,旨在推動視頻條件音頻生成技術發展。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.