![]()
編輯|陳萍、Panda
繼 SAM(Segment Anything Model)、SAM 3D 后,Meta 又有了新動作。
深夜,Meta 放出音頻分割模型SAM Audio,其通過多模態提示(無論是文本、視覺,還是標注時間片段),讓人們能夠輕松地從復雜的音頻混合中分離出任意聲音,從而徹底改變音頻處理方式。
SAM Audio 的核心是Perception Encoder Audiovisual(PE-AV),這是推動其實現業界領先性能的技術引擎。
PE-AV 基于 Meta 今年早些時候開源發布的 Perception Encoder 模型,能夠支持更先進的計算機視覺系統,幫助人們完成日常任務,其中就包括聲音檢測。
你可以把 PE-AV 想象成幫助 SAM Audio 運作的耳朵,而 SAM Audio 則是完成音頻分割任務的大腦。這兩者的結合帶來了許多令人興奮的應用場景。
設想一下:一段樂隊演出的錄像,只需在畫面中點擊一下吉他,就能單獨分離出吉他的聲音。SAM Audio 還可以通過文本提示進行音頻分離,比如從戶外拍攝的視頻中濾除嘈雜的交通噪聲。此外,Meta 業內首創的時間跨度提示(span prompts),可以幫助人們一次性解決整段音頻中的問題,例如在整期播客錄音中去除持續出現的狗叫聲等噪音。
![]()
Meta 表示,他們正在利用這些技術進展來構建下一代創意媒體工具。相關團隊看到了大量潛在的應用場景,包括音頻清理、背景噪聲移除,以及其他能夠幫助用戶提升創造力的工具。此次,Meta 向社區開放了 SAM Audio 和 PE-AV,并同時發布了兩篇研究論文,分別深入介紹了這兩個模型的技術細節。此外,Meta 還發布了:
- SAM Audio-Bench:首個真實環境(in-the-wild)的音頻分離基準;
- SAM Audio Judge:首個用于音頻分離的自動評測模型。
Meta 還將上述所有成果整合進 Segment Anything Playground,這是一個全新的平臺,任何人都可以在其中體驗其最新模型。
![]()
地址:https://aidemos.meta.com/segment-anything
從即日起,用戶可以從平臺提供的音頻和視頻素材庫中進行選擇,或上傳自己的內容,以探索 SAM Audio 的能力。Meta 表示,他們期待繼續圍繞 SAM 展開討論 —— 而這一次,也將首次聽到用戶使用這些突破性新模型所創作出的內容。
用于音頻分割的統一多模態提示模型
在此之前,音頻分割和編輯一直是一個較為割裂的領域,市面上存在著多種只針對單一用途的工具。作為一個統一模型,SAM Audio 首次支持多種交互方式,這些方式與人們自然理解和思考聲音的方式高度契合,并在多項任務上實現了業界領先的性能,包括在文本提示和視覺提示條件下的樂器、人聲以及通用聲音分離。
SAM Audio 能夠在多樣且真實的應用場景中穩定運行,支持使用文本、視覺以及時間維度的線索進行音頻分割。這種方法為用戶提供了對音頻分離過程更精確、更直觀的控制能力。
該模型提供了三種音頻分割方式,這些方式既可以單獨使用,也可以靈活組合,以實現所需的分割效果:
- 文本提示:輸入「狗叫聲」或「歌唱聲」等描述,即可提取對應的特定聲音。
- 視覺提示:在視頻中點擊正在說話的人或發聲的物體,即可分離其對應的音頻。
- 時間跨度提示(Span Prompting):業內首創的方法,允許用戶標記目標聲音出現的時間片段,從而實現更精確的音頻分割。
![]()
- SAM Audio 論文地址:https://ai.meta.com/research/publications/sam-audio-segment-anything-in-audio/
- 代碼地址:https://github.com/facebookresearch/sam-audio
模型架構
從核心技術上看,SAM Audio 采用了一種基于流匹配擴散 Transformer 的生成式建模框架。該架構接收一段混合音頻以及一個或多個提示信息,將它們編碼為共享表示,并生成目標音軌與剩余音軌。
![]()
在生成式建模框架之外,研究團隊還為 SAM Audio 構建了一套完整的數據引擎,用于解決大規模、高質量音頻分離數據難以獲取的問題。該數據引擎融合了先進的音頻混合技術、自動化的多模態提示生成方法,以及穩健的偽標簽(pseudo-labeling)pipeline,從而生成貼近真實應用場景的訓練數據,用于提升模型在現實世界中的表現。
![]()
該模型基于這一多樣化的數據集進行訓練,數據集涵蓋了真實與合成的混合音頻,內容橫跨語音、音樂以及各類通用聲音事件。先進的音頻數據合成策略進一步提升了模型的魯棒性,確保其在各種復雜環境中都能保持穩定、可靠的表現。
感知編碼器(視聽版)
第二個模型 PE-AV 是支撐 SAM Audio 效果表現的核心引擎。它為多個關鍵組件提供能力支持,包括主字幕生成模型以及 SAM Audio Judge(用于音頻分離的自動評測模型)。
![]()
- PE-AV 論文地址:https://ai.meta.com/research/publications/pushing-the-frontier-of-audiovisual-perception-with-large-scale-multimodal-correspondence-learning/
- 代碼地址:https://github.com/facebookresearch/perception_models
PE-AV 構建于 Meta Perception Encoder 之上,這是 Meta 于今年 4 月發布的一個開源模型。在此基礎上,PE-AV 將先進的計算機視覺能力擴展到了音頻領域。正如團隊此前在 SAM 3 中將該模型適配用于目標檢測一樣,這一次又進一步擴展了其框架,使其能夠對聲音進行編碼,從而支持 SAM Audio 對復雜音頻混合的分離,并適應那些視覺上下文同樣重要的真實世界應用場景。
![]()
通過提取逐幀級別的視頻特征并將其與音頻表示進行對齊,系統能夠融合視聽信息并為其加上精確的時間標注。這種設計使 SAM Audio 能夠準確分離那些在視覺上有明確對應的聲源,例如畫面中的說話者或正在演奏的樂器,同時也可以結合場景上下文,對畫面外發生的聲音事件進行推斷。
PE-AV 通過在精確的時間點上對齊視頻幀與音頻,提供了穩健且語義信息豐富的特征表示。這種時間對齊機制對于將所見與所聞進行匹配至關重要,是實現高精度多模態音頻分離的基礎。如果缺少這一能力,模型將無法獲得足夠細粒度的視覺理解,從而難以實現靈活且符合人類感知的音頻分割效果。
![]()
從技術層面來看,PE-AV 融合了多種開源組件和前沿研究成果。除 Meta 的 Perception Encoder 之外,該模型還使用 PyTorchVideo 進行高效的視頻處理,利用 FAISS 實現大規模語義搜索,并引入了對比學習框架來提升多模態表示能力。
PE-AV 基于超過 1 億條視頻進行訓練,采用大規模多模態對比學習方法,訓練數據來自開放數據集以及合成字幕生成流水線,從而確保了數據覆蓋的廣泛性和模型的強泛化能力。這些要素共同構建了一個靈活且高性能的基礎架構,能夠支持文本、視覺和時間維度的提示方式,適用于多種音頻分離與理解任務。
SAM Audio Judge
Meta 還發布了SAM Audio Judge,這是一套全新的評測框架與模型,旨在以更加貼近人類感知方式來評估音頻分割質量。與傳統依賴參考音軌進行對比的評測指標不同,這些指標往往難以捕捉人類真實聽感中的細微差別,SAM Audio Judge 提供了一種無需參考音頻的客觀評測方式,從感知層面對分割后的音頻進行評價。
用戶可以借助 SAM Audio Judge,在音樂、語音以及音效等不同場景下,對音頻分離模型進行評測和比較,從而深入了解輸出質量以及音頻分離任務本身的內在難度。SAM Audio Judge 的構建始于對 9 個感知維度的定義,其中包括召回率(recall)、精確度(precision)、忠實度(faithfulness)和整體質量(overall quality)等。隨后,研究團隊依據詳細的標注規范,采用五分制量表收集了大量人工評分數據。
在模型設計上,SAM Audio Judge 結合了先進的音頻與文本編碼器、Transformer 主干網絡,以及一種獨特的預訓練策略,用于提升模型判斷輸出是否符合文本提示的能力。感知對齊的評測標準、嚴謹的數據采集流程與創新的模型架構相結合,為推動音頻分離領域的發展提供了有力支撐。
SAM Audio-Bench
此外,為了在不同任務之間對模型性能進行一致且有意義的評估,該團隊還構建了一個新基準:SAM Audio-Bench。
這是一個全面的音頻分離基準,覆蓋了所有主要音頻領域。包括語音、音樂和通用音效。同時也覆蓋了文本、視覺以及時間段提示等多種提示類型。
該團隊表示:「該基準能夠對分離模型進行公平評測。從而確保該領域的進展是可衡量的。并且與日常使用場景密切相關。」
該團隊表示,這種方法可確保 SAM Audio-Bench 更加真實且更具靈活性。它支持從語音和音樂分離,到樂器以及通用聲音提取等多種任務。所有能力都統一在一個框架之中。
![]()
SAM Audio-Bench 還率先引入了無參考評估(reference-free evaluation)方式。
這使得在不需要孤立參考音軌的情況下,也可以評估音頻分離效果。它結合了人工聽感測試與 SAM Audio Judge 模型。即使原始音軌不可用,也能提供可靠的評估結果。
通過融合真實世界音頻、多模態提示,以及對不同聲音領域的全面覆蓋,可以說 SAM Audio-Bench 為音頻分離系統的測試樹立了新標準。這一標準能更好地反映模型在實驗室之外的實際使用方式。
結果
SAM Audio 在音頻分離技術上取得了顯著進展。它在多種基準和任務上超越了此前的最先進模型。
該模型不僅在通用音頻分離方面顯著領先于以往工作,還在所有音頻類別上達到了最佳領域專用模型的性能水平。這些類別包括語音、音樂以及通用聲音。
其多模態提示機制支持文本、視覺和點擊式輸入。這使得模型能夠進行靈活、開放域的音頻分割。因此既適用于真實環境中的應用,也適用于專業音頻場景。
![]()
性能評估表明,SAM Audio 在各類模態特定任務中均達到了 SOTA 水平。
混合模態提示方式表現尤為突出。例如將文本與時間段提示結合使用。其效果優于單一模態的方法。
值得注意的是,該模型的運行速度快于實時處理。實時因子約為 0.7 (RTF ≈ 0.7)。在 5 億到 30 億參數規模下,都能高效地進行大規模音頻處理。
盡管 SAM Audio 在質量和效率方面樹立了新標準,但它仍存在一些局限。
- 目前不支持以音頻本身作為提示。
- 在沒有任何提示的情況下進行完整音頻分離,也不在其能力范圍內。
- 在高度相似的音頻事件之間進行分離仍然具有挑戰性。例如從合唱中分離出單一歌手,或從交響樂中分離出某一種樂器。
展望:音頻 AI 的未來
該 Meta 團隊表示,SAM Audio 屬于 Segment Anything 模型家族,這次也是將音頻能力引入了該系列模型。「我們相信 SAM Audio 是目前綜合表現最強的音頻分離模型。這種統一的方法也為理解復雜聲學環境提供了新的可能性。并且能夠跨多種模態,對自然提示作出響應。」
此外,Meta 還宣布與美國最大的助聽器制造商 Starkey 以及一家面向殘障創始人的領先創業加速器 2gether-International 建立了合作關系。這兩個合作伙伴都在探索,像 SAM Audio 這樣的模型可以如何進一步推動無障礙技術的發展。
Meta 表示:「這種音頻工具的普及推廣,是邁向更易用、更具創造力、更加包容的 AI 的一步。具備音頻感知能力的 AI 未來才剛剛開始。我們期待并支持未來涌現出的創新與發現。」
https://ai.meta.com/blog/sam-audio/
https://x.com/AIatMeta/status/2000980784425931067
文章視頻鏈接:
https://mp.weixin.qq.com/s/-4fkFz0cV5iqGl_4sJ1c3g
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.