網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Meta推出SAM Audio：AI實(shí)現(xiàn)精準(zhǔn)聲音對(duì)象分離

2025-12-26 18:20:01　來(lái)源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

想象一下，你正在觀看一段嘈雜的視頻，里面有人在說(shuō)話、狗在叫、還有背景音樂(lè)在播放。現(xiàn)在，如果你只想聽(tīng)到其中狗叫的聲音，該怎么辦？過(guò)去你可能需要專(zhuān)業(yè)的音頻編輯軟件和復(fù)雜的操作。但現(xiàn)在，Meta公司的研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)名為SAM Audio的AI系統(tǒng)，你只需要說(shuō)一句"狗叫聲"，它就能自動(dòng)從復(fù)雜的聲音混合物中提取出純凈的狗叫聲，就像用篩子從沙子里篩出金子一樣神奇。

這項(xiàng)突破性研究由Meta超級(jí)智能實(shí)驗(yàn)室的包文石、Andros Tjandra、John Hoffman等眾多研究人員共同完成，發(fā)表于2025年12月23日，論文編號(hào)為arXiv:2512.18099v1。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文，同時(shí)研究團(tuán)隊(duì)還提供了在線演示和開(kāi)源代碼。

要理解SAM Audio的重要意義，我們可以把聲音分離比作廚師從一鍋大雜燴中分離出不同食材的過(guò)程。傳統(tǒng)的聲音分離技術(shù)就像是只會(huì)做固定菜譜的廚師，比如專(zhuān)門(mén)分離人聲和背景音樂(lè)的工具，或者專(zhuān)門(mén)分離不同樂(lè)器的軟件。這些工具雖然在特定任務(wù)上表現(xiàn)不錯(cuò)，但一旦遇到菜譜之外的要求就束手無(wú)策。如果你想要提取一種它們從未見(jiàn)過(guò)的聲音類(lèi)型，就像要求一個(gè)只會(huì)做中餐的廚師突然做法國(guó)菜一樣困難。

更重要的是，現(xiàn)有技術(shù)通常只支持單一的"點(diǎn)菜"方式。有些只能通過(guò)文字描述來(lái)指定目標(biāo)聲音，有些只能通過(guò)視覺(jué)選擇，還有些壓根不支持用戶(hù)自定義。這就像餐廳要么只能看圖點(diǎn)菜，要么只能口述點(diǎn)菜，缺乏靈活性。而SAM Audio的革命性在于，它就像一位全能廚師，不僅能處理各種類(lèi)型的"食材"（聲音），還支持多種"點(diǎn)菜"方式——你可以用文字描述想要的聲音，可以在視頻中直接指出發(fā)聲的物體或人物，甚至可以指定時(shí)間段來(lái)告訴它什么時(shí)候有你想要的聲音。

讓我們深入了解這位"全能廚師"是如何工作的。SAM Audio基于一種叫做擴(kuò)散變換器的深度學(xué)習(xí)架構(gòu)，這聽(tīng)起來(lái)很復(fù)雜，但可以把它想象成一個(gè)非常精密的聲音處理工廠。這個(gè)工廠的核心是使用流匹配技術(shù)進(jìn)行訓(xùn)練，簡(jiǎn)單來(lái)說(shuō)就是教會(huì)AI如何從噪聲中逐步"雕刻"出目標(biāo)聲音，就像雕塑家從大理石中雕刻出精美雕像一樣。整個(gè)過(guò)程是漸進(jìn)式的：AI首先生成一個(gè)粗糙的聲音輪廓，然后不斷細(xì)化，最終得到精確的目標(biāo)聲音。

這個(gè)系統(tǒng)的獨(dú)特之處在于它的多模態(tài)理解能力。當(dāng)你給它一個(gè)文字描述，比如"鋼琴演奏"，系統(tǒng)會(huì)調(diào)用一個(gè)專(zhuān)門(mén)的文本編碼器來(lái)理解這個(gè)描述。當(dāng)你在視頻中點(diǎn)擊某個(gè)區(qū)域時(shí)，系統(tǒng)會(huì)使用SAM 2視覺(jué)編碼器來(lái)分析這個(gè)視覺(jué)區(qū)域?qū)?yīng)什么聲音。最有趣的是，研究團(tuán)隊(duì)還創(chuàng)新性地引入了"時(shí)間段提示"功能，你可以直接在音頻波形上標(biāo)記出目標(biāo)聲音出現(xiàn)的時(shí)間段，系統(tǒng)就能根據(jù)這個(gè)時(shí)間信息來(lái)提取聲音。

為了訓(xùn)練這個(gè)全能的聲音分離系統(tǒng)，研究團(tuán)隊(duì)面臨著巨大的數(shù)據(jù)挑戰(zhàn)。真實(shí)世界中很難找到既有復(fù)雜聲音混合，又有單獨(dú)分離出的純凈聲音的數(shù)據(jù)。這就像要訓(xùn)練一個(gè)廚師，你不僅需要各種大雜燴，還需要知道每種食材單獨(dú)是什么味道。為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)采用了三種巧妙的數(shù)據(jù)構(gòu)造策略。

第一種策略是使用完全真實(shí)的數(shù)據(jù)三元組。在音樂(lè)和語(yǔ)音領(lǐng)域，他們找到了一些高質(zhì)量的多軌錄音數(shù)據(jù)。比如在錄音棚錄制音樂(lè)時(shí)，每個(gè)樂(lè)器都會(huì)單獨(dú)錄制，最后混合成完整的歌曲。研究團(tuán)隊(duì)就利用這種數(shù)據(jù)，將各種樂(lè)器聲音重新組合，創(chuàng)造出不同的混合方案，讓AI學(xué)會(huì)如何從混合音中提取特定樂(lè)器的聲音。類(lèi)似地，在對(duì)話數(shù)據(jù)中，他們使用了包含兩個(gè)說(shuō)話者獨(dú)立錄音軌道的對(duì)話數(shù)據(jù)，總計(jì)超過(guò)2萬(wàn)小時(shí)，讓AI學(xué)會(huì)分離不同說(shuō)話者的聲音。

第二種策略是合成混合音頻。由于真實(shí)數(shù)據(jù)稀缺，研究團(tuán)隊(duì)開(kāi)始"人工制作大雜燴"。他們收集了大量單一類(lèi)型的音頻，比如純凈的音樂(lè)錄音、清晰的語(yǔ)音錄音和各種聲音效果，然后將它們隨機(jī)組合。這就像一個(gè)廚師拿著各種新鮮食材，按照不同的配方混合，創(chuàng)造出各種口味的"聲音大雜燴"。為了確保訓(xùn)練效果，他們還會(huì)調(diào)整不同聲音的音量比例，模擬真實(shí)環(huán)境中的各種情況。

第三種策略最為巧妙，叫做偽標(biāo)簽數(shù)據(jù)引擎。研究團(tuán)隊(duì)發(fā)現(xiàn)，簡(jiǎn)單的隨機(jī)混合往往產(chǎn)生不自然的組合，比如將體育場(chǎng)的歡呼聲和森林中的鳥(niǎo)鳴混合在一起，這種組合在現(xiàn)實(shí)中幾乎不可能出現(xiàn)。為了解決這個(gè)問(wèn)題，他們采用了一種"自舉"方法：首先用前兩種數(shù)據(jù)訓(xùn)練出一個(gè)初級(jí)版本的SAM Audio，然后用這個(gè)初級(jí)版本來(lái)分析真實(shí)世界的復(fù)雜音頻，自動(dòng)生成更多訓(xùn)練數(shù)據(jù)。這個(gè)過(guò)程就像讓學(xué)徒廚師先學(xué)會(huì)基本功，然后讓他們?nèi)シ治龈鞣N現(xiàn)實(shí)中的復(fù)雜菜譜，從中學(xué)習(xí)更高級(jí)的搭配規(guī)律。

為了確保偽標(biāo)簽數(shù)據(jù)的質(zhì)量，研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的篩選機(jī)制。他們使用CLAP模型來(lái)檢查文本描述和音頻內(nèi)容的匹配度，使用美學(xué)評(píng)估模型來(lái)判斷音頻的清晰程度，還會(huì)自動(dòng)檢測(cè)過(guò)于安靜的輸出。只有同時(shí)通過(guò)所有質(zhì)量檢查的數(shù)據(jù)才會(huì)被納入最終的訓(xùn)練集。這種多重篩選就像質(zhì)檢員在生產(chǎn)線上層層把關(guān)，確保每個(gè)產(chǎn)品都符合標(biāo)準(zhǔn)。

在模型架構(gòu)設(shè)計(jì)上，SAM Audio采用了當(dāng)前最先進(jìn)的擴(kuò)散變換器技術(shù)。整個(gè)系統(tǒng)可以想象成一個(gè)精密的聲音工廠，包含多個(gè)專(zhuān)門(mén)的處理車(chē)間。音頻編碼車(chē)間負(fù)責(zé)將輸入的聲音轉(zhuǎn)換成AI能夠理解的數(shù)字表示，這里使用的是DAC-VAE編碼器，它能夠?qū)⒁纛l壓縮成每秒25幀的緊湊表示，既保持了音質(zhì)又減少了計(jì)算負(fù)擔(dān)。文本編碼車(chē)間使用T5文本編碼器來(lái)理解用戶(hù)的文字描述。視覺(jué)編碼車(chē)間則采用了最新的PE視覺(jué)編碼器，這比傳統(tǒng)的CLIP編碼器更擅長(zhǎng)理解動(dòng)作和場(chǎng)景上下文。

最創(chuàng)新的是時(shí)間段編碼車(chē)間的設(shè)計(jì)。研究團(tuán)隊(duì)將時(shí)間段信息轉(zhuǎn)換成類(lèi)似文字序列的表示方法，每個(gè)時(shí)間點(diǎn)被標(biāo)記為"活躍"或"靜默"，就像制作音樂(lè)樂(lè)譜一樣，標(biāo)記出每個(gè)音符出現(xiàn)的時(shí)間點(diǎn)。這種設(shè)計(jì)使得AI能夠精確理解用戶(hù)指定的時(shí)間信息，實(shí)現(xiàn)frame級(jí)別的精確控制。

在訓(xùn)練過(guò)程中，SAM Audio不僅學(xué)會(huì)分離目標(biāo)聲音，還同時(shí)學(xué)會(huì)生成剩余聲音。這意味著它能夠輸出兩個(gè)音軌：一個(gè)包含你想要的聲音，另一個(gè)包含所有其他聲音。這種設(shè)計(jì)使得該系統(tǒng)既可以用來(lái)提取聲音，也可以用來(lái)去除不想要的聲音，就像一把雙刃劍，正反兩面都能使用。

為了提高訓(xùn)練效果，研究團(tuán)隊(duì)還引入了一個(gè)巧妙的輔助訓(xùn)練機(jī)制。除了主要的聲音生成任務(wù)，系統(tǒng)還需要學(xué)會(huì)識(shí)別聲音事件。他們使用了一個(gè)專(zhuān)門(mén)的音頻事件檢測(cè)模型作為"老師"，讓SAM Audio的內(nèi)部表示盡可能接近這個(gè)老師模型的理解。這就像讓學(xué)生不僅要會(huì)做題，還要理解解題思路，從而獲得更深層的理解能力。

在實(shí)際應(yīng)用中，SAM Audio展現(xiàn)出了驚人的靈活性。當(dāng)用戶(hù)只提供文字描述時(shí)，系統(tǒng)還會(huì)自動(dòng)預(yù)測(cè)相應(yīng)的時(shí)間段信息來(lái)增強(qiáng)分離效果。這個(gè)預(yù)測(cè)功能使用了PEA-Frame模型，它能夠分析音頻并自動(dòng)標(biāo)出指定聲音出現(xiàn)的時(shí)間段。這就像一個(gè)經(jīng)驗(yàn)豐富的音響師，即使你只說(shuō)了想要什么聲音，他也能自動(dòng)判斷出這個(gè)聲音最可能在什么時(shí)候出現(xiàn)，從而做出更精確的調(diào)整。

對(duì)于超長(zhǎng)音頻的處理，研究團(tuán)隊(duì)采用了多重?cái)U(kuò)散技術(shù)。傳統(tǒng)方法處理長(zhǎng)音頻時(shí)，要么因?yàn)閮?nèi)存限制無(wú)法處理，要么將音頻切成片段獨(dú)立處理，導(dǎo)致片段之間出現(xiàn)不連續(xù)的問(wèn)題。SAM Audio的解決方案更加優(yōu)雅，它將長(zhǎng)音頻分成重疊的窗口，每個(gè)窗口都能看到相鄰窗口的一部分內(nèi)容。在每個(gè)處理步驟中，系統(tǒng)會(huì)綜合所有窗口的信息，確保最終結(jié)果的連貫性。這就像多個(gè)工人協(xié)同完成一項(xiàng)長(zhǎng)工序，每個(gè)人負(fù)責(zé)一段，但大家會(huì)互相溝通，確保整體工作的一致性。

為了驗(yàn)證SAM Audio的性能，研究團(tuán)隊(duì)面臨著另一個(gè)挑戰(zhàn)：如何公平地評(píng)估聲音分離效果。傳統(tǒng)的評(píng)估方法主要依賴(lài)信噪比等技術(shù)指標(biāo)，但這些指標(biāo)往往與人類(lèi)的聽(tīng)覺(jué)感受不一致。兩個(gè)在技術(shù)指標(biāo)上相似的音頻在實(shí)際聽(tīng)起來(lái)可能差別很大，就像兩道菜的營(yíng)養(yǎng)成分相同，但口味完全不同。

為了解決這個(gè)評(píng)估難題，研究團(tuán)隊(duì)開(kāi)發(fā)了兩個(gè)重要工具。首先是SAM Audio-Bench，這是一個(gè)全面的測(cè)試基準(zhǔn)，包含了來(lái)自真實(shí)世界的各種音頻和視頻數(shù)據(jù)，涵蓋語(yǔ)音、音樂(lè)和一般聲音效果等多個(gè)領(lǐng)域。與以往主要使用合成數(shù)據(jù)的測(cè)試集不同，這個(gè)基準(zhǔn)使用的都是真實(shí)環(huán)境錄制的音頻，更能反映實(shí)際使用場(chǎng)景的復(fù)雜性。每個(gè)測(cè)試樣本都有人工標(biāo)注的多模態(tài)提示，包括文字描述、視覺(jué)標(biāo)記和時(shí)間段標(biāo)記，使得可以全面測(cè)試模型的各種能力。

更重要的是，研究團(tuán)隊(duì)開(kāi)發(fā)了SAM Audio Judge，這是一個(gè)能夠自動(dòng)評(píng)估聲音分離質(zhì)量的AI評(píng)判員。這個(gè)評(píng)判員經(jīng)過(guò)大量人類(lèi)評(píng)估數(shù)據(jù)的訓(xùn)練，學(xué)會(huì)了從多個(gè)維度評(píng)估分離效果：召回率衡量目標(biāo)聲音是否被完整提取，精確度衡量是否混入了不相關(guān)的聲音，保真度衡量分離出的聲音與原始聲音的相似程度。最令人印象深刻的是，這個(gè)AI評(píng)判員與人類(lèi)評(píng)估的相關(guān)性達(dá)到了0.88，遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)技術(shù)指標(biāo)的0.49。這意味著AI評(píng)判員的判斷已經(jīng)非常接近人類(lèi)的感受。

在大規(guī)模實(shí)驗(yàn)中，SAM Audio展現(xiàn)出了全面超越現(xiàn)有技術(shù)的性能。在一般聲音事件分離任務(wù)中，它比目前最好的公開(kāi)模型SoloAudio的勝率高出約36%。在專(zhuān)業(yè)領(lǐng)域表現(xiàn)更加出色，比如在樂(lè)器分離任務(wù)中，即使與專(zhuān)門(mén)針對(duì)音樂(lè)設(shè)計(jì)的Demucs系統(tǒng)相比，SAM Audio的勝率仍然達(dá)到17.6%。在說(shuō)話者分離任務(wù)中，相比專(zhuān)業(yè)的AudioShake系統(tǒng)，SAM Audio的整體質(zhì)量評(píng)分提高了近4%，勝率高達(dá)39%。

特別值得一提的是視覺(jué)提示功能的表現(xiàn)。雖然視覺(jué)引導(dǎo)的聲音分離技術(shù)相對(duì)較少被研究，但SAM Audio在這方面同樣表現(xiàn)出色。相比現(xiàn)有的DAVIS-Flow系統(tǒng)，SAM Audio在不同任務(wù)中的勝率從5%到48%不等。研究團(tuán)隊(duì)發(fā)現(xiàn)，視覺(jué)提示在某些特定場(chǎng)景中特別有用，比如在多人對(duì)話的視頻中，當(dāng)你想分離某個(gè)特定說(shuō)話者的聲音時(shí)，文字描述"男性說(shuō)話"可能無(wú)法區(qū)分兩個(gè)男性說(shuō)話者，但點(diǎn)擊視頻中的特定人物就能精確指定目標(biāo)。

時(shí)間段提示功能的引入更是展現(xiàn)了研究團(tuán)隊(duì)的創(chuàng)新思維。在復(fù)雜的聲音環(huán)境中，有時(shí)候文字描述很難精確表達(dá)想要的聲音，比如電影配樂(lè)中的某個(gè)特定音效。通過(guò)標(biāo)記時(shí)間段，用戶(hù)可以告訴系統(tǒng)"我想要第3到5秒之間出現(xiàn)的那個(gè)聲音"，系統(tǒng)就能根據(jù)時(shí)間定位來(lái)提取目標(biāo)聲音。實(shí)驗(yàn)結(jié)果顯示，將文字描述和時(shí)間段提示結(jié)合使用，能夠在各個(gè)領(lǐng)域都帶來(lái)12.9%到39.0%的性能提升。

研究團(tuán)隊(duì)還深入分析了不同提示方式的特點(diǎn)和適用場(chǎng)景。文字提示具有最好的可訪問(wèn)性，用戶(hù)只需要簡(jiǎn)單描述就能使用，而且由于有大量高質(zhì)量的文字-音頻訓(xùn)練數(shù)據(jù)，文字提示通常能達(dá)到最好的分離效果。視覺(jué)提示則擅長(zhǎng)處理模糊場(chǎng)景，當(dāng)同一類(lèi)型的聲音有多個(gè)來(lái)源時(shí)，視覺(jué)定位能夠提供實(shí)例級(jí)別的區(qū)分。時(shí)間段提示最適合處理瞬時(shí)性強(qiáng)的聲音事件，比如門(mén)關(guān)上的聲音、狗叫聲等，這類(lèi)聲音的時(shí)間定位信息非常有價(jià)值。

在模型規(guī)模的研究中，團(tuán)隊(duì)訓(xùn)練了三個(gè)不同大小的版本：5億、10億和30億參數(shù)。就像不同馬力的發(fā)動(dòng)機(jī)一樣，更大的模型在處理復(fù)雜任務(wù)時(shí)表現(xiàn)更好，特別是在專(zhuān)業(yè)領(lǐng)域如樂(lè)器分離中，30億參數(shù)的模型比10億參數(shù)版本的勝率高出23%。但在一些基礎(chǔ)任務(wù)中，較小的模型也能達(dá)到相當(dāng)不錯(cuò)的效果，這為不同應(yīng)用場(chǎng)景提供了靈活的選擇空間。

系統(tǒng)的實(shí)時(shí)性能也經(jīng)過(guò)了精心優(yōu)化。對(duì)于10秒的音頻，SAM Audio在單張A100 GPU上大約需要7.3秒完成處理，其中包括模型計(jì)算、時(shí)間段預(yù)測(cè)和結(jié)果優(yōu)化等所有步驟。雖然還不能做到實(shí)時(shí)處理，但對(duì)于大多數(shù)實(shí)際應(yīng)用已經(jīng)足夠快。更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)即使將計(jì)算步驟從16步減少到2步，系統(tǒng)仍然能保持令人滿意的分離效果，這為需要快速處理的應(yīng)用場(chǎng)景提供了可能。

在長(zhǎng)音頻處理方面，SAM Audio采用了多重?cái)U(kuò)散技術(shù)。傳統(tǒng)的分塊處理方法會(huì)在塊與塊之間產(chǎn)生明顯的不連續(xù)性，聽(tīng)起來(lái)就像拼接的錄音帶。SAM Audio的方法更像是多個(gè)畫(huà)家同時(shí)在一幅長(zhǎng)卷上作畫(huà)，每個(gè)畫(huà)家負(fù)責(zé)一段，但他們會(huì)時(shí)刻關(guān)注相鄰區(qū)域的筆觸，確保整體畫(huà)面的和諧統(tǒng)一。實(shí)驗(yàn)結(jié)果證明，這種方法比簡(jiǎn)單分塊處理的效果提升明顯，音頻的連貫性和整體質(zhì)量都得到了保證。

研究團(tuán)隊(duì)還深入研究了聲音分離任務(wù)的內(nèi)在難度。他們發(fā)現(xiàn)，分離任務(wù)的難度主要取決于幾個(gè)因素：混合音中非目標(biāo)聲音的數(shù)量、目標(biāo)聲音與非目標(biāo)聲音的重疊程度、目標(biāo)聲音的相對(duì)音量，以及非目標(biāo)聲音與目標(biāo)聲音的相似程度。基于這些因素，他們建立了一個(gè)自動(dòng)難度評(píng)估系統(tǒng)，能夠預(yù)測(cè)某個(gè)分離任務(wù)對(duì)人類(lèi)來(lái)說(shuō)有多困難。實(shí)驗(yàn)證實(shí)，隨著任務(wù)難度的增加，人類(lèi)評(píng)估者給出的分離質(zhì)量評(píng)分確實(shí)單調(diào)遞減，驗(yàn)證了這個(gè)難度評(píng)估系統(tǒng)的有效性。

在商業(yè)模型的對(duì)比中，SAM Audio不僅超越了所有開(kāi)源模型，甚至在多數(shù)任務(wù)中超過(guò)了商業(yè)化的專(zhuān)業(yè)音頻處理服務(wù)。比如在語(yǔ)音增強(qiáng)任務(wù)中，SAM Audio的表現(xiàn)超過(guò)了AudioShake、MoisesAI等知名商業(yè)產(chǎn)品。在音樂(lè)分離任務(wù)中，它也明顯優(yōu)于專(zhuān)業(yè)音頻制作工具。這種全面的性能優(yōu)勢(shì)證明了統(tǒng)一訓(xùn)練方法的威力：通過(guò)在大規(guī)模多樣化數(shù)據(jù)上統(tǒng)一訓(xùn)練，單一模型能夠在多個(gè)專(zhuān)業(yè)領(lǐng)域都達(dá)到或超越專(zhuān)門(mén)為該領(lǐng)域設(shè)計(jì)的系統(tǒng)。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)了SAM Audio Judge評(píng)估系統(tǒng)的價(jià)值。傳統(tǒng)的音頻分離評(píng)估主要依賴(lài)技術(shù)指標(biāo)，但這些指標(biāo)往往與人類(lèi)的主觀感受脫節(jié)。SAM Audio Judge通過(guò)學(xué)習(xí)大量人類(lèi)評(píng)估數(shù)據(jù)，能夠更準(zhǔn)確地預(yù)測(cè)人類(lèi)對(duì)分離效果的滿意度。這個(gè)評(píng)估系統(tǒng)本身就是一個(gè)重要貢獻(xiàn)，可以幫助其他研究者更好地評(píng)估和比較不同的聲音分離方法。

整個(gè)研究還揭示了一些有趣的發(fā)現(xiàn)。比如，視覺(jué)提示雖然在某些場(chǎng)景中非常有用，但總體效果不如文字提示，主要原因是視覺(jué)訓(xùn)練數(shù)據(jù)相對(duì)較少且質(zhì)量參差不齊，而且視覺(jué)區(qū)域往往比文字描述更加模糊。一個(gè)人的視覺(jué)區(qū)域可能對(duì)應(yīng)多種不同的聲音，而"男性說(shuō)話"這樣的文字描述則相對(duì)明確。

另一個(gè)重要發(fā)現(xiàn)是時(shí)間段預(yù)測(cè)的有效性。即使是自動(dòng)預(yù)測(cè)的時(shí)間段信息，而非人工標(biāo)注的準(zhǔn)確時(shí)間段，也能顯著提升分離效果。這意味著用戶(hù)在實(shí)際使用時(shí)，即使只提供文字描述，系統(tǒng)也能自動(dòng)增強(qiáng)處理效果，無(wú)需額外的人工標(biāo)注工作。

SAM Audio的成功不僅在于其技術(shù)先進(jìn)性，更在于其實(shí)用性和通用性。無(wú)論是專(zhuān)業(yè)音頻制作人員需要從復(fù)雜混音中提取特定樂(lè)器，還是普通用戶(hù)想要從嘈雜視頻中提取清晰對(duì)話，或者研究人員需要分析野外錄音中的特定聲音事件，SAM Audio都能提供統(tǒng)一的解決方案。這種"一站式"服務(wù)的價(jià)值在于降低了使用門(mén)檻，用戶(hù)無(wú)需學(xué)習(xí)多個(gè)不同的專(zhuān)業(yè)工具，只需要掌握一個(gè)系統(tǒng)就能處理各種聲音分離需求。

當(dāng)然，這項(xiàng)研究也坦誠(chéng)地指出了現(xiàn)有的局限性。視覺(jué)提示的效果仍然明顯低于文字提示，主要原因是缺乏足夠的高質(zhì)量音視頻對(duì)應(yīng)訓(xùn)練數(shù)據(jù)。一般聲音效果的分離仍然比專(zhuān)業(yè)領(lǐng)域如語(yǔ)音或音樂(lè)更具挑戰(zhàn)性，因?yàn)槁曇粜Ч?lèi)型更加多樣化，邊界更加模糊。這些限制為未來(lái)的研究指明了方向，需要更強(qiáng)的音視頻對(duì)應(yīng)學(xué)習(xí)和更好的復(fù)雜多源聲音場(chǎng)景建模技術(shù)。

研究團(tuán)隊(duì)在論文中還詳細(xì)描述了訓(xùn)練的具體配置。他們使用了兩階段訓(xùn)練策略：首先在大規(guī)模通用視頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，建立基礎(chǔ)的聲音分離能力，然后在精選的高質(zhì)量數(shù)據(jù)上進(jìn)行微調(diào)，提升在專(zhuān)業(yè)領(lǐng)域的表現(xiàn)。預(yù)訓(xùn)練階段使用了有效批量大小為1024的設(shè)置，訓(xùn)練50萬(wàn)次更新。微調(diào)階段則采用了變長(zhǎng)批處理技術(shù)，根據(jù)模型大小調(diào)整每批的token數(shù)量，訓(xùn)練30萬(wàn)次更新。整個(gè)訓(xùn)練過(guò)程使用了全分片數(shù)據(jù)并行來(lái)適應(yīng)模型規(guī)模，確保訓(xùn)練效率。

推理時(shí)，系統(tǒng)使用16步的中點(diǎn)ODE求解器，不需要分類(lèi)器自由引導(dǎo)就能達(dá)到很好的效果。為了進(jìn)一步提升輸出質(zhì)量，系統(tǒng)還會(huì)生成8個(gè)候選結(jié)果，然后使用SAM Audio Judge和CLAP分?jǐn)?shù)的線性組合來(lái)選擇最佳輸出。這種候選重排序機(jī)制能夠顯著提高最終分離效果的質(zhì)量和穩(wěn)定性。

這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。在教育領(lǐng)域，SAM Audio可以幫助語(yǔ)言學(xué)習(xí)者從嘈雜環(huán)境中提取清晰的目標(biāo)語(yǔ)音，或者幫助音樂(lè)學(xué)習(xí)者從復(fù)雜樂(lè)曲中分離出特定樂(lè)器進(jìn)行學(xué)習(xí)。在輔助技術(shù)領(lǐng)域，它可以為聽(tīng)力輔助設(shè)備提供更好的聲音分離功能，幫助用戶(hù)在嘈雜環(huán)境中專(zhuān)注于重要聲音。在內(nèi)容創(chuàng)作領(lǐng)域，它為音頻編輯、播客制作、視頻后期等提供了強(qiáng)大的工具。

研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了開(kāi)放科學(xué)的重要性。他們不僅發(fā)布了模型代碼和演示系統(tǒng)，還公開(kāi)了完整的訓(xùn)練數(shù)據(jù)構(gòu)建流程和評(píng)估基準(zhǔn)。這種開(kāi)放性將極大促進(jìn)整個(gè)領(lǐng)域的發(fā)展，讓更多研究者能夠基于這項(xiàng)工作繼續(xù)創(chuàng)新。SAM Audio-Bench作為統(tǒng)一的評(píng)估標(biāo)準(zhǔn)，也將有助于未來(lái)不同方法之間的公平比較。

從技術(shù)發(fā)展的角度看，SAM Audio代表了AI聲音理解能力的一個(gè)重要里程碑。它不僅展示了大模型在音頻領(lǐng)域的潛力，更重要的是證明了多模態(tài)統(tǒng)一訓(xùn)練的有效性。通過(guò)同時(shí)學(xué)習(xí)文字、視覺(jué)和時(shí)間信息，AI系統(tǒng)獲得了更加全面和靈活的聲音理解能力，這為構(gòu)建真正智能的多模態(tài)AI系統(tǒng)奠定了重要基礎(chǔ)。

說(shuō)到底，SAM Audio的真正價(jià)值在于它將復(fù)雜的專(zhuān)業(yè)音頻處理技術(shù)變成了普通人都能輕松使用的工具。就像智能手機(jī)將復(fù)雜的通信技術(shù)變成日常工具一樣，SAM Audio有望將聲音分離從專(zhuān)業(yè)音頻制作的小眾領(lǐng)域擴(kuò)展到每個(gè)人的日常生活中。無(wú)論你是想從家庭錄像中提取孩子的笑聲，還是想從演唱會(huì)錄音中分離出特定樂(lè)器的演奏，SAM Audio都能夠理解你的需求并提供高質(zhì)量的結(jié)果。這種技術(shù)的普及化將為聲音處理領(lǐng)域帶來(lái)革命性的變化，讓每個(gè)人都能成為自己的聲音魔法師。

Q&A

Q1：SAM Audio是什么？

A：SAM Audio是Meta公司開(kāi)發(fā)的AI聲音分離系統(tǒng)，它能夠從復(fù)雜的聲音混合物中提取用戶(hù)想要的任何特定聲音。用戶(hù)可以通過(guò)文字描述、視頻中的視覺(jué)選擇或時(shí)間段標(biāo)記來(lái)指定目標(biāo)聲音，系統(tǒng)會(huì)自動(dòng)分離出純凈的目標(biāo)音軌和剩余音軌。

Q2：SAM Audio相比現(xiàn)有聲音分離工具有什么優(yōu)勢(shì)？

A：SAM Audio的最大優(yōu)勢(shì)是統(tǒng)一性和靈活性。傳統(tǒng)工具通常只能處理固定類(lèi)型的聲音分離，比如專(zhuān)門(mén)分離人聲和音樂(lè)，而SAM Audio可以分離任何類(lèi)型的聲音。更重要的是，它支持三種提示方式的任意組合使用，在各個(gè)專(zhuān)業(yè)領(lǐng)域都達(dá)到了超越專(zhuān)門(mén)系統(tǒng)的性能。

Q3：普通用戶(hù)如何使用SAM Audio？

A：目前用戶(hù)可以通過(guò)Meta提供的在線演示體驗(yàn)SAM Audio，研究團(tuán)隊(duì)還開(kāi)源了代碼供開(kāi)發(fā)者使用。對(duì)于10秒音頻，系統(tǒng)需要約7秒處理時(shí)間。用戶(hù)只需上傳音頻或視頻文件，然后通過(guò)文字描述、點(diǎn)擊視覺(jué)區(qū)域或標(biāo)記時(shí)間段的方式指定想要提取的聲音即可。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.