![]()
想象一下,你正在觀看一段嘈雜的視頻,里面有人在說(shuō)話、狗在叫、還有背景音樂(lè)在播放。現(xiàn)在,如果你只想聽(tīng)到其中狗叫的聲音,該怎么辦?過(guò)去你可能需要專(zhuān)業(yè)的音頻編輯軟件和復(fù)雜的操作。但現(xiàn)在,Meta公司的研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)名為SAM Audio的AI系統(tǒng),你只需要說(shuō)一句"狗叫聲",它就能自動(dòng)從復(fù)雜的聲音混合物中提取出純凈的狗叫聲,就像用篩子從沙子里篩出金子一樣神奇。
這項(xiàng)突破性研究由Meta超級(jí)智能實(shí)驗(yàn)室的包文石、Andros Tjandra、John Hoffman等眾多研究人員共同完成,發(fā)表于2025年12月23日,論文編號(hào)為arXiv:2512.18099v1。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文,同時(shí)研究團(tuán)隊(duì)還提供了在線演示和開(kāi)源代碼。
要理解SAM Audio的重要意義,我們可以把聲音分離比作廚師從一鍋大雜燴中分離出不同食材的過(guò)程。傳統(tǒng)的聲音分離技術(shù)就像是只會(huì)做固定菜譜的廚師,比如專(zhuān)門(mén)分離人聲和背景音樂(lè)的工具,或者專(zhuān)門(mén)分離不同樂(lè)器的軟件。這些工具雖然在特定任務(wù)上表現(xiàn)不錯(cuò),但一旦遇到菜譜之外的要求就束手無(wú)策。如果你想要提取一種它們從未見(jiàn)過(guò)的聲音類(lèi)型,就像要求一個(gè)只會(huì)做中餐的廚師突然做法國(guó)菜一樣困難。
更重要的是,現(xiàn)有技術(shù)通常只支持單一的"點(diǎn)菜"方式。有些只能通過(guò)文字描述來(lái)指定目標(biāo)聲音,有些只能通過(guò)視覺(jué)選擇,還有些壓根不支持用戶(hù)自定義。這就像餐廳要么只能看圖點(diǎn)菜,要么只能口述點(diǎn)菜,缺乏靈活性。而SAM Audio的革命性在于,它就像一位全能廚師,不僅能處理各種類(lèi)型的"食材"(聲音),還支持多種"點(diǎn)菜"方式——你可以用文字描述想要的聲音,可以在視頻中直接指出發(fā)聲的物體或人物,甚至可以指定時(shí)間段來(lái)告訴它什么時(shí)候有你想要的聲音。
讓我們深入了解這位"全能廚師"是如何工作的。SAM Audio基于一種叫做擴(kuò)散變換器的深度學(xué)習(xí)架構(gòu),這聽(tīng)起來(lái)很復(fù)雜,但可以把它想象成一個(gè)非常精密的聲音處理工廠。這個(gè)工廠的核心是使用流匹配技術(shù)進(jìn)行訓(xùn)練,簡(jiǎn)單來(lái)說(shuō)就是教會(huì)AI如何從噪聲中逐步"雕刻"出目標(biāo)聲音,就像雕塑家從大理石中雕刻出精美雕像一樣。整個(gè)過(guò)程是漸進(jìn)式的:AI首先生成一個(gè)粗糙的聲音輪廓,然后不斷細(xì)化,最終得到精確的目標(biāo)聲音。
這個(gè)系統(tǒng)的獨(dú)特之處在于它的多模態(tài)理解能力。當(dāng)你給它一個(gè)文字描述,比如"鋼琴演奏",系統(tǒng)會(huì)調(diào)用一個(gè)專(zhuān)門(mén)的文本編碼器來(lái)理解這個(gè)描述。當(dāng)你在視頻中點(diǎn)擊某個(gè)區(qū)域時(shí),系統(tǒng)會(huì)使用SAM 2視覺(jué)編碼器來(lái)分析這個(gè)視覺(jué)區(qū)域?qū)?yīng)什么聲音。最有趣的是,研究團(tuán)隊(duì)還創(chuàng)新性地引入了"時(shí)間段提示"功能,你可以直接在音頻波形上標(biāo)記出目標(biāo)聲音出現(xiàn)的時(shí)間段,系統(tǒng)就能根據(jù)這個(gè)時(shí)間信息來(lái)提取聲音。
為了訓(xùn)練這個(gè)全能的聲音分離系統(tǒng),研究團(tuán)隊(duì)面臨著巨大的數(shù)據(jù)挑戰(zhàn)。真實(shí)世界中很難找到既有復(fù)雜聲音混合,又有單獨(dú)分離出的純凈聲音的數(shù)據(jù)。這就像要訓(xùn)練一個(gè)廚師,你不僅需要各種大雜燴,還需要知道每種食材單獨(dú)是什么味道。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)采用了三種巧妙的數(shù)據(jù)構(gòu)造策略。
第一種策略是使用完全真實(shí)的數(shù)據(jù)三元組。在音樂(lè)和語(yǔ)音領(lǐng)域,他們找到了一些高質(zhì)量的多軌錄音數(shù)據(jù)。比如在錄音棚錄制音樂(lè)時(shí),每個(gè)樂(lè)器都會(huì)單獨(dú)錄制,最后混合成完整的歌曲。研究團(tuán)隊(duì)就利用這種數(shù)據(jù),將各種樂(lè)器聲音重新組合,創(chuàng)造出不同的混合方案,讓AI學(xué)會(huì)如何從混合音中提取特定樂(lè)器的聲音。類(lèi)似地,在對(duì)話數(shù)據(jù)中,他們使用了包含兩個(gè)說(shuō)話者獨(dú)立錄音軌道的對(duì)話數(shù)據(jù),總計(jì)超過(guò)2萬(wàn)小時(shí),讓AI學(xué)會(huì)分離不同說(shuō)話者的聲音。
第二種策略是合成混合音頻。由于真實(shí)數(shù)據(jù)稀缺,研究團(tuán)隊(duì)開(kāi)始"人工制作大雜燴"。他們收集了大量單一類(lèi)型的音頻,比如純凈的音樂(lè)錄音、清晰的語(yǔ)音錄音和各種聲音效果,然后將它們隨機(jī)組合。這就像一個(gè)廚師拿著各種新鮮食材,按照不同的配方混合,創(chuàng)造出各種口味的"聲音大雜燴"。為了確保訓(xùn)練效果,他們還會(huì)調(diào)整不同聲音的音量比例,模擬真實(shí)環(huán)境中的各種情況。
第三種策略最為巧妙,叫做偽標(biāo)簽數(shù)據(jù)引擎。研究團(tuán)隊(duì)發(fā)現(xiàn),簡(jiǎn)單的隨機(jī)混合往往產(chǎn)生不自然的組合,比如將體育場(chǎng)的歡呼聲和森林中的鳥(niǎo)鳴混合在一起,這種組合在現(xiàn)實(shí)中幾乎不可能出現(xiàn)。為了解決這個(gè)問(wèn)題,他們采用了一種"自舉"方法:首先用前兩種數(shù)據(jù)訓(xùn)練出一個(gè)初級(jí)版本的SAM Audio,然后用這個(gè)初級(jí)版本來(lái)分析真實(shí)世界的復(fù)雜音頻,自動(dòng)生成更多訓(xùn)練數(shù)據(jù)。這個(gè)過(guò)程就像讓學(xué)徒廚師先學(xué)會(huì)基本功,然后讓他們?nèi)シ治龈鞣N現(xiàn)實(shí)中的復(fù)雜菜譜,從中學(xué)習(xí)更高級(jí)的搭配規(guī)律。
為了確保偽標(biāo)簽數(shù)據(jù)的質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的篩選機(jī)制。他們使用CLAP模型來(lái)檢查文本描述和音頻內(nèi)容的匹配度,使用美學(xué)評(píng)估模型來(lái)判斷音頻的清晰程度,還會(huì)自動(dòng)檢測(cè)過(guò)于安靜的輸出。只有同時(shí)通過(guò)所有質(zhì)量檢查的數(shù)據(jù)才會(huì)被納入最終的訓(xùn)練集。這種多重篩選就像質(zhì)檢員在生產(chǎn)線上層層把關(guān),確保每個(gè)產(chǎn)品都符合標(biāo)準(zhǔn)。
在模型架構(gòu)設(shè)計(jì)上,SAM Audio采用了當(dāng)前最先進(jìn)的擴(kuò)散變換器技術(shù)。整個(gè)系統(tǒng)可以想象成一個(gè)精密的聲音工廠,包含多個(gè)專(zhuān)門(mén)的處理車(chē)間。音頻編碼車(chē)間負(fù)責(zé)將輸入的聲音轉(zhuǎn)換成AI能夠理解的數(shù)字表示,這里使用的是DAC-VAE編碼器,它能夠?qū)⒁纛l壓縮成每秒25幀的緊湊表示,既保持了音質(zhì)又減少了計(jì)算負(fù)擔(dān)。文本編碼車(chē)間使用T5文本編碼器來(lái)理解用戶(hù)的文字描述。視覺(jué)編碼車(chē)間則采用了最新的PE視覺(jué)編碼器,這比傳統(tǒng)的CLIP編碼器更擅長(zhǎng)理解動(dòng)作和場(chǎng)景上下文。
最創(chuàng)新的是時(shí)間段編碼車(chē)間的設(shè)計(jì)。研究團(tuán)隊(duì)將時(shí)間段信息轉(zhuǎn)換成類(lèi)似文字序列的表示方法,每個(gè)時(shí)間點(diǎn)被標(biāo)記為"活躍"或"靜默",就像制作音樂(lè)樂(lè)譜一樣,標(biāo)記出每個(gè)音符出現(xiàn)的時(shí)間點(diǎn)。這種設(shè)計(jì)使得AI能夠精確理解用戶(hù)指定的時(shí)間信息,實(shí)現(xiàn)frame級(jí)別的精確控制。
在訓(xùn)練過(guò)程中,SAM Audio不僅學(xué)會(huì)分離目標(biāo)聲音,還同時(shí)學(xué)會(huì)生成剩余聲音。這意味著它能夠輸出兩個(gè)音軌:一個(gè)包含你想要的聲音,另一個(gè)包含所有其他聲音。這種設(shè)計(jì)使得該系統(tǒng)既可以用來(lái)提取聲音,也可以用來(lái)去除不想要的聲音,就像一把雙刃劍,正反兩面都能使用。
為了提高訓(xùn)練效果,研究團(tuán)隊(duì)還引入了一個(gè)巧妙的輔助訓(xùn)練機(jī)制。除了主要的聲音生成任務(wù),系統(tǒng)還需要學(xué)會(huì)識(shí)別聲音事件。他們使用了一個(gè)專(zhuān)門(mén)的音頻事件檢測(cè)模型作為"老師",讓SAM Audio的內(nèi)部表示盡可能接近這個(gè)老師模型的理解。這就像讓學(xué)生不僅要會(huì)做題,還要理解解題思路,從而獲得更深層的理解能力。
在實(shí)際應(yīng)用中,SAM Audio展現(xiàn)出了驚人的靈活性。當(dāng)用戶(hù)只提供文字描述時(shí),系統(tǒng)還會(huì)自動(dòng)預(yù)測(cè)相應(yīng)的時(shí)間段信息來(lái)增強(qiáng)分離效果。這個(gè)預(yù)測(cè)功能使用了PEA-Frame模型,它能夠分析音頻并自動(dòng)標(biāo)出指定聲音出現(xiàn)的時(shí)間段。這就像一個(gè)經(jīng)驗(yàn)豐富的音響師,即使你只說(shuō)了想要什么聲音,他也能自動(dòng)判斷出這個(gè)聲音最可能在什么時(shí)候出現(xiàn),從而做出更精確的調(diào)整。
對(duì)于超長(zhǎng)音頻的處理,研究團(tuán)隊(duì)采用了多重?cái)U(kuò)散技術(shù)。傳統(tǒng)方法處理長(zhǎng)音頻時(shí),要么因?yàn)閮?nèi)存限制無(wú)法處理,要么將音頻切成片段獨(dú)立處理,導(dǎo)致片段之間出現(xiàn)不連續(xù)的問(wèn)題。SAM Audio的解決方案更加優(yōu)雅,它將長(zhǎng)音頻分成重疊的窗口,每個(gè)窗口都能看到相鄰窗口的一部分內(nèi)容。在每個(gè)處理步驟中,系統(tǒng)會(huì)綜合所有窗口的信息,確保最終結(jié)果的連貫性。這就像多個(gè)工人協(xié)同完成一項(xiàng)長(zhǎng)工序,每個(gè)人負(fù)責(zé)一段,但大家會(huì)互相溝通,確保整體工作的一致性。
為了驗(yàn)證SAM Audio的性能,研究團(tuán)隊(duì)面臨著另一個(gè)挑戰(zhàn):如何公平地評(píng)估聲音分離效果。傳統(tǒng)的評(píng)估方法主要依賴(lài)信噪比等技術(shù)指標(biāo),但這些指標(biāo)往往與人類(lèi)的聽(tīng)覺(jué)感受不一致。兩個(gè)在技術(shù)指標(biāo)上相似的音頻在實(shí)際聽(tīng)起來(lái)可能差別很大,就像兩道菜的營(yíng)養(yǎng)成分相同,但口味完全不同。
為了解決這個(gè)評(píng)估難題,研究團(tuán)隊(duì)開(kāi)發(fā)了兩個(gè)重要工具。首先是SAM Audio-Bench,這是一個(gè)全面的測(cè)試基準(zhǔn),包含了來(lái)自真實(shí)世界的各種音頻和視頻數(shù)據(jù),涵蓋語(yǔ)音、音樂(lè)和一般聲音效果等多個(gè)領(lǐng)域。與以往主要使用合成數(shù)據(jù)的測(cè)試集不同,這個(gè)基準(zhǔn)使用的都是真實(shí)環(huán)境錄制的音頻,更能反映實(shí)際使用場(chǎng)景的復(fù)雜性。每個(gè)測(cè)試樣本都有人工標(biāo)注的多模態(tài)提示,包括文字描述、視覺(jué)標(biāo)記和時(shí)間段標(biāo)記,使得可以全面測(cè)試模型的各種能力。
更重要的是,研究團(tuán)隊(duì)開(kāi)發(fā)了SAM Audio Judge,這是一個(gè)能夠自動(dòng)評(píng)估聲音分離質(zhì)量的AI評(píng)判員。這個(gè)評(píng)判員經(jīng)過(guò)大量人類(lèi)評(píng)估數(shù)據(jù)的訓(xùn)練,學(xué)會(huì)了從多個(gè)維度評(píng)估分離效果:召回率衡量目標(biāo)聲音是否被完整提取,精確度衡量是否混入了不相關(guān)的聲音,保真度衡量分離出的聲音與原始聲音的相似程度。最令人印象深刻的是,這個(gè)AI評(píng)判員與人類(lèi)評(píng)估的相關(guān)性達(dá)到了0.88,遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)技術(shù)指標(biāo)的0.49。這意味著AI評(píng)判員的判斷已經(jīng)非常接近人類(lèi)的感受。
在大規(guī)模實(shí)驗(yàn)中,SAM Audio展現(xiàn)出了全面超越現(xiàn)有技術(shù)的性能。在一般聲音事件分離任務(wù)中,它比目前最好的公開(kāi)模型SoloAudio的勝率高出約36%。在專(zhuān)業(yè)領(lǐng)域表現(xiàn)更加出色,比如在樂(lè)器分離任務(wù)中,即使與專(zhuān)門(mén)針對(duì)音樂(lè)設(shè)計(jì)的Demucs系統(tǒng)相比,SAM Audio的勝率仍然達(dá)到17.6%。在說(shuō)話者分離任務(wù)中,相比專(zhuān)業(yè)的AudioShake系統(tǒng),SAM Audio的整體質(zhì)量評(píng)分提高了近4%,勝率高達(dá)39%。
特別值得一提的是視覺(jué)提示功能的表現(xiàn)。雖然視覺(jué)引導(dǎo)的聲音分離技術(shù)相對(duì)較少被研究,但SAM Audio在這方面同樣表現(xiàn)出色。相比現(xiàn)有的DAVIS-Flow系統(tǒng),SAM Audio在不同任務(wù)中的勝率從5%到48%不等。研究團(tuán)隊(duì)發(fā)現(xiàn),視覺(jué)提示在某些特定場(chǎng)景中特別有用,比如在多人對(duì)話的視頻中,當(dāng)你想分離某個(gè)特定說(shuō)話者的聲音時(shí),文字描述"男性說(shuō)話"可能無(wú)法區(qū)分兩個(gè)男性說(shuō)話者,但點(diǎn)擊視頻中的特定人物就能精確指定目標(biāo)。
時(shí)間段提示功能的引入更是展現(xiàn)了研究團(tuán)隊(duì)的創(chuàng)新思維。在復(fù)雜的聲音環(huán)境中,有時(shí)候文字描述很難精確表達(dá)想要的聲音,比如電影配樂(lè)中的某個(gè)特定音效。通過(guò)標(biāo)記時(shí)間段,用戶(hù)可以告訴系統(tǒng)"我想要第3到5秒之間出現(xiàn)的那個(gè)聲音",系統(tǒng)就能根據(jù)時(shí)間定位來(lái)提取目標(biāo)聲音。實(shí)驗(yàn)結(jié)果顯示,將文字描述和時(shí)間段提示結(jié)合使用,能夠在各個(gè)領(lǐng)域都帶來(lái)12.9%到39.0%的性能提升。
研究團(tuán)隊(duì)還深入分析了不同提示方式的特點(diǎn)和適用場(chǎng)景。文字提示具有最好的可訪問(wèn)性,用戶(hù)只需要簡(jiǎn)單描述就能使用,而且由于有大量高質(zhì)量的文字-音頻訓(xùn)練數(shù)據(jù),文字提示通常能達(dá)到最好的分離效果。視覺(jué)提示則擅長(zhǎng)處理模糊場(chǎng)景,當(dāng)同一類(lèi)型的聲音有多個(gè)來(lái)源時(shí),視覺(jué)定位能夠提供實(shí)例級(jí)別的區(qū)分。時(shí)間段提示最適合處理瞬時(shí)性強(qiáng)的聲音事件,比如門(mén)關(guān)上的聲音、狗叫聲等,這類(lèi)聲音的時(shí)間定位信息非常有價(jià)值。
在模型規(guī)模的研究中,團(tuán)隊(duì)訓(xùn)練了三個(gè)不同大小的版本:5億、10億和30億參數(shù)。就像不同馬力的發(fā)動(dòng)機(jī)一樣,更大的模型在處理復(fù)雜任務(wù)時(shí)表現(xiàn)更好,特別是在專(zhuān)業(yè)領(lǐng)域如樂(lè)器分離中,30億參數(shù)的模型比10億參數(shù)版本的勝率高出23%。但在一些基礎(chǔ)任務(wù)中,較小的模型也能達(dá)到相當(dāng)不錯(cuò)的效果,這為不同應(yīng)用場(chǎng)景提供了靈活的選擇空間。
系統(tǒng)的實(shí)時(shí)性能也經(jīng)過(guò)了精心優(yōu)化。對(duì)于10秒的音頻,SAM Audio在單張A100 GPU上大約需要7.3秒完成處理,其中包括模型計(jì)算、時(shí)間段預(yù)測(cè)和結(jié)果優(yōu)化等所有步驟。雖然還不能做到實(shí)時(shí)處理,但對(duì)于大多數(shù)實(shí)際應(yīng)用已經(jīng)足夠快。更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)即使將計(jì)算步驟從16步減少到2步,系統(tǒng)仍然能保持令人滿意的分離效果,這為需要快速處理的應(yīng)用場(chǎng)景提供了可能。
在長(zhǎng)音頻處理方面,SAM Audio采用了多重?cái)U(kuò)散技術(shù)。傳統(tǒng)的分塊處理方法會(huì)在塊與塊之間產(chǎn)生明顯的不連續(xù)性,聽(tīng)起來(lái)就像拼接的錄音帶。SAM Audio的方法更像是多個(gè)畫(huà)家同時(shí)在一幅長(zhǎng)卷上作畫(huà),每個(gè)畫(huà)家負(fù)責(zé)一段,但他們會(huì)時(shí)刻關(guān)注相鄰區(qū)域的筆觸,確保整體畫(huà)面的和諧統(tǒng)一。實(shí)驗(yàn)結(jié)果證明,這種方法比簡(jiǎn)單分塊處理的效果提升明顯,音頻的連貫性和整體質(zhì)量都得到了保證。
研究團(tuán)隊(duì)還深入研究了聲音分離任務(wù)的內(nèi)在難度。他們發(fā)現(xiàn),分離任務(wù)的難度主要取決于幾個(gè)因素:混合音中非目標(biāo)聲音的數(shù)量、目標(biāo)聲音與非目標(biāo)聲音的重疊程度、目標(biāo)聲音的相對(duì)音量,以及非目標(biāo)聲音與目標(biāo)聲音的相似程度。基于這些因素,他們建立了一個(gè)自動(dòng)難度評(píng)估系統(tǒng),能夠預(yù)測(cè)某個(gè)分離任務(wù)對(duì)人類(lèi)來(lái)說(shuō)有多困難。實(shí)驗(yàn)證實(shí),隨著任務(wù)難度的增加,人類(lèi)評(píng)估者給出的分離質(zhì)量評(píng)分確實(shí)單調(diào)遞減,驗(yàn)證了這個(gè)難度評(píng)估系統(tǒng)的有效性。
在商業(yè)模型的對(duì)比中,SAM Audio不僅超越了所有開(kāi)源模型,甚至在多數(shù)任務(wù)中超過(guò)了商業(yè)化的專(zhuān)業(yè)音頻處理服務(wù)。比如在語(yǔ)音增強(qiáng)任務(wù)中,SAM Audio的表現(xiàn)超過(guò)了AudioShake、MoisesAI等知名商業(yè)產(chǎn)品。在音樂(lè)分離任務(wù)中,它也明顯優(yōu)于專(zhuān)業(yè)音頻制作工具。這種全面的性能優(yōu)勢(shì)證明了統(tǒng)一訓(xùn)練方法的威力:通過(guò)在大規(guī)模多樣化數(shù)據(jù)上統(tǒng)一訓(xùn)練,單一模型能夠在多個(gè)專(zhuān)業(yè)領(lǐng)域都達(dá)到或超越專(zhuān)門(mén)為該領(lǐng)域設(shè)計(jì)的系統(tǒng)。
研究團(tuán)隊(duì)特別強(qiáng)調(diào)了SAM Audio Judge評(píng)估系統(tǒng)的價(jià)值。傳統(tǒng)的音頻分離評(píng)估主要依賴(lài)技術(shù)指標(biāo),但這些指標(biāo)往往與人類(lèi)的主觀感受脫節(jié)。SAM Audio Judge通過(guò)學(xué)習(xí)大量人類(lèi)評(píng)估數(shù)據(jù),能夠更準(zhǔn)確地預(yù)測(cè)人類(lèi)對(duì)分離效果的滿意度。這個(gè)評(píng)估系統(tǒng)本身就是一個(gè)重要貢獻(xiàn),可以幫助其他研究者更好地評(píng)估和比較不同的聲音分離方法。
整個(gè)研究還揭示了一些有趣的發(fā)現(xiàn)。比如,視覺(jué)提示雖然在某些場(chǎng)景中非常有用,但總體效果不如文字提示,主要原因是視覺(jué)訓(xùn)練數(shù)據(jù)相對(duì)較少且質(zhì)量參差不齊,而且視覺(jué)區(qū)域往往比文字描述更加模糊。一個(gè)人的視覺(jué)區(qū)域可能對(duì)應(yīng)多種不同的聲音,而"男性說(shuō)話"這樣的文字描述則相對(duì)明確。
另一個(gè)重要發(fā)現(xiàn)是時(shí)間段預(yù)測(cè)的有效性。即使是自動(dòng)預(yù)測(cè)的時(shí)間段信息,而非人工標(biāo)注的準(zhǔn)確時(shí)間段,也能顯著提升分離效果。這意味著用戶(hù)在實(shí)際使用時(shí),即使只提供文字描述,系統(tǒng)也能自動(dòng)增強(qiáng)處理效果,無(wú)需額外的人工標(biāo)注工作。
SAM Audio的成功不僅在于其技術(shù)先進(jìn)性,更在于其實(shí)用性和通用性。無(wú)論是專(zhuān)業(yè)音頻制作人員需要從復(fù)雜混音中提取特定樂(lè)器,還是普通用戶(hù)想要從嘈雜視頻中提取清晰對(duì)話,或者研究人員需要分析野外錄音中的特定聲音事件,SAM Audio都能提供統(tǒng)一的解決方案。這種"一站式"服務(wù)的價(jià)值在于降低了使用門(mén)檻,用戶(hù)無(wú)需學(xué)習(xí)多個(gè)不同的專(zhuān)業(yè)工具,只需要掌握一個(gè)系統(tǒng)就能處理各種聲音分離需求。
當(dāng)然,這項(xiàng)研究也坦誠(chéng)地指出了現(xiàn)有的局限性。視覺(jué)提示的效果仍然明顯低于文字提示,主要原因是缺乏足夠的高質(zhì)量音視頻對(duì)應(yīng)訓(xùn)練數(shù)據(jù)。一般聲音效果的分離仍然比專(zhuān)業(yè)領(lǐng)域如語(yǔ)音或音樂(lè)更具挑戰(zhàn)性,因?yàn)槁曇粜Ч?lèi)型更加多樣化,邊界更加模糊。這些限制為未來(lái)的研究指明了方向,需要更強(qiáng)的音視頻對(duì)應(yīng)學(xué)習(xí)和更好的復(fù)雜多源聲音場(chǎng)景建模技術(shù)。
研究團(tuán)隊(duì)在論文中還詳細(xì)描述了訓(xùn)練的具體配置。他們使用了兩階段訓(xùn)練策略:首先在大規(guī)模通用視頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,建立基礎(chǔ)的聲音分離能力,然后在精選的高質(zhì)量數(shù)據(jù)上進(jìn)行微調(diào),提升在專(zhuān)業(yè)領(lǐng)域的表現(xiàn)。預(yù)訓(xùn)練階段使用了有效批量大小為1024的設(shè)置,訓(xùn)練50萬(wàn)次更新。微調(diào)階段則采用了變長(zhǎng)批處理技術(shù),根據(jù)模型大小調(diào)整每批的token數(shù)量,訓(xùn)練30萬(wàn)次更新。整個(gè)訓(xùn)練過(guò)程使用了全分片數(shù)據(jù)并行來(lái)適應(yīng)模型規(guī)模,確保訓(xùn)練效率。
推理時(shí),系統(tǒng)使用16步的中點(diǎn)ODE求解器,不需要分類(lèi)器自由引導(dǎo)就能達(dá)到很好的效果。為了進(jìn)一步提升輸出質(zhì)量,系統(tǒng)還會(huì)生成8個(gè)候選結(jié)果,然后使用SAM Audio Judge和CLAP分?jǐn)?shù)的線性組合來(lái)選擇最佳輸出。這種候選重排序機(jī)制能夠顯著提高最終分離效果的質(zhì)量和穩(wěn)定性。
這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。在教育領(lǐng)域,SAM Audio可以幫助語(yǔ)言學(xué)習(xí)者從嘈雜環(huán)境中提取清晰的目標(biāo)語(yǔ)音,或者幫助音樂(lè)學(xué)習(xí)者從復(fù)雜樂(lè)曲中分離出特定樂(lè)器進(jìn)行學(xué)習(xí)。在輔助技術(shù)領(lǐng)域,它可以為聽(tīng)力輔助設(shè)備提供更好的聲音分離功能,幫助用戶(hù)在嘈雜環(huán)境中專(zhuān)注于重要聲音。在內(nèi)容創(chuàng)作領(lǐng)域,它為音頻編輯、播客制作、視頻后期等提供了強(qiáng)大的工具。
研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了開(kāi)放科學(xué)的重要性。他們不僅發(fā)布了模型代碼和演示系統(tǒng),還公開(kāi)了完整的訓(xùn)練數(shù)據(jù)構(gòu)建流程和評(píng)估基準(zhǔn)。這種開(kāi)放性將極大促進(jìn)整個(gè)領(lǐng)域的發(fā)展,讓更多研究者能夠基于這項(xiàng)工作繼續(xù)創(chuàng)新。SAM Audio-Bench作為統(tǒng)一的評(píng)估標(biāo)準(zhǔn),也將有助于未來(lái)不同方法之間的公平比較。
從技術(shù)發(fā)展的角度看,SAM Audio代表了AI聲音理解能力的一個(gè)重要里程碑。它不僅展示了大模型在音頻領(lǐng)域的潛力,更重要的是證明了多模態(tài)統(tǒng)一訓(xùn)練的有效性。通過(guò)同時(shí)學(xué)習(xí)文字、視覺(jué)和時(shí)間信息,AI系統(tǒng)獲得了更加全面和靈活的聲音理解能力,這為構(gòu)建真正智能的多模態(tài)AI系統(tǒng)奠定了重要基礎(chǔ)。
說(shuō)到底,SAM Audio的真正價(jià)值在于它將復(fù)雜的專(zhuān)業(yè)音頻處理技術(shù)變成了普通人都能輕松使用的工具。就像智能手機(jī)將復(fù)雜的通信技術(shù)變成日常工具一樣,SAM Audio有望將聲音分離從專(zhuān)業(yè)音頻制作的小眾領(lǐng)域擴(kuò)展到每個(gè)人的日常生活中。無(wú)論你是想從家庭錄像中提取孩子的笑聲,還是想從演唱會(huì)錄音中分離出特定樂(lè)器的演奏,SAM Audio都能夠理解你的需求并提供高質(zhì)量的結(jié)果。這種技術(shù)的普及化將為聲音處理領(lǐng)域帶來(lái)革命性的變化,讓每個(gè)人都能成為自己的聲音魔法師。
Q&A
Q1:SAM Audio是什么?
A:SAM Audio是Meta公司開(kāi)發(fā)的AI聲音分離系統(tǒng),它能夠從復(fù)雜的聲音混合物中提取用戶(hù)想要的任何特定聲音。用戶(hù)可以通過(guò)文字描述、視頻中的視覺(jué)選擇或時(shí)間段標(biāo)記來(lái)指定目標(biāo)聲音,系統(tǒng)會(huì)自動(dòng)分離出純凈的目標(biāo)音軌和剩余音軌。
Q2:SAM Audio相比現(xiàn)有聲音分離工具有什么優(yōu)勢(shì)?
A:SAM Audio的最大優(yōu)勢(shì)是統(tǒng)一性和靈活性。傳統(tǒng)工具通常只能處理固定類(lèi)型的聲音分離,比如專(zhuān)門(mén)分離人聲和音樂(lè),而SAM Audio可以分離任何類(lèi)型的聲音。更重要的是,它支持三種提示方式的任意組合使用,在各個(gè)專(zhuān)業(yè)領(lǐng)域都達(dá)到了超越專(zhuān)門(mén)系統(tǒng)的性能。
Q3:普通用戶(hù)如何使用SAM Audio?
A:目前用戶(hù)可以通過(guò)Meta提供的在線演示體驗(yàn)SAM Audio,研究團(tuán)隊(duì)還開(kāi)源了代碼供開(kāi)發(fā)者使用。對(duì)于10秒音頻,系統(tǒng)需要約7秒處理時(shí)間。用戶(hù)只需上傳音頻或視頻文件,然后通過(guò)文字描述、點(diǎn)擊視覺(jué)區(qū)域或標(biāo)記時(shí)間段的方式指定想要提取的聲音即可。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.