<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Meta推出SAM Audio:AI實(shí)現(xiàn)精準(zhǔn)聲音對(duì)象分離

      0
      分享至


      想象一下,你正在觀看一段嘈雜的視頻,里面有人在說(shuō)話、狗在叫、還有背景音樂(lè)在播放。現(xiàn)在,如果你只想聽(tīng)到其中狗叫的聲音,該怎么辦?過(guò)去你可能需要專(zhuān)業(yè)的音頻編輯軟件和復(fù)雜的操作。但現(xiàn)在,Meta公司的研究團(tuán)隊(duì)開(kāi)發(fā)出了一個(gè)名為SAM Audio的AI系統(tǒng),你只需要說(shuō)一句"狗叫聲",它就能自動(dòng)從復(fù)雜的聲音混合物中提取出純凈的狗叫聲,就像用篩子從沙子里篩出金子一樣神奇。

      這項(xiàng)突破性研究由Meta超級(jí)智能實(shí)驗(yàn)室的包文石、Andros Tjandra、John Hoffman等眾多研究人員共同完成,發(fā)表于2025年12月23日,論文編號(hào)為arXiv:2512.18099v1。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文,同時(shí)研究團(tuán)隊(duì)還提供了在線演示和開(kāi)源代碼。

      要理解SAM Audio的重要意義,我們可以把聲音分離比作廚師從一鍋大雜燴中分離出不同食材的過(guò)程。傳統(tǒng)的聲音分離技術(shù)就像是只會(huì)做固定菜譜的廚師,比如專(zhuān)門(mén)分離人聲和背景音樂(lè)的工具,或者專(zhuān)門(mén)分離不同樂(lè)器的軟件。這些工具雖然在特定任務(wù)上表現(xiàn)不錯(cuò),但一旦遇到菜譜之外的要求就束手無(wú)策。如果你想要提取一種它們從未見(jiàn)過(guò)的聲音類(lèi)型,就像要求一個(gè)只會(huì)做中餐的廚師突然做法國(guó)菜一樣困難。

      更重要的是,現(xiàn)有技術(shù)通常只支持單一的"點(diǎn)菜"方式。有些只能通過(guò)文字描述來(lái)指定目標(biāo)聲音,有些只能通過(guò)視覺(jué)選擇,還有些壓根不支持用戶(hù)自定義。這就像餐廳要么只能看圖點(diǎn)菜,要么只能口述點(diǎn)菜,缺乏靈活性。而SAM Audio的革命性在于,它就像一位全能廚師,不僅能處理各種類(lèi)型的"食材"(聲音),還支持多種"點(diǎn)菜"方式——你可以用文字描述想要的聲音,可以在視頻中直接指出發(fā)聲的物體或人物,甚至可以指定時(shí)間段來(lái)告訴它什么時(shí)候有你想要的聲音。

      讓我們深入了解這位"全能廚師"是如何工作的。SAM Audio基于一種叫做擴(kuò)散變換器的深度學(xué)習(xí)架構(gòu),這聽(tīng)起來(lái)很復(fù)雜,但可以把它想象成一個(gè)非常精密的聲音處理工廠。這個(gè)工廠的核心是使用流匹配技術(shù)進(jìn)行訓(xùn)練,簡(jiǎn)單來(lái)說(shuō)就是教會(huì)AI如何從噪聲中逐步"雕刻"出目標(biāo)聲音,就像雕塑家從大理石中雕刻出精美雕像一樣。整個(gè)過(guò)程是漸進(jìn)式的:AI首先生成一個(gè)粗糙的聲音輪廓,然后不斷細(xì)化,最終得到精確的目標(biāo)聲音。

      這個(gè)系統(tǒng)的獨(dú)特之處在于它的多模態(tài)理解能力。當(dāng)你給它一個(gè)文字描述,比如"鋼琴演奏",系統(tǒng)會(huì)調(diào)用一個(gè)專(zhuān)門(mén)的文本編碼器來(lái)理解這個(gè)描述。當(dāng)你在視頻中點(diǎn)擊某個(gè)區(qū)域時(shí),系統(tǒng)會(huì)使用SAM 2視覺(jué)編碼器來(lái)分析這個(gè)視覺(jué)區(qū)域?qū)?yīng)什么聲音。最有趣的是,研究團(tuán)隊(duì)還創(chuàng)新性地引入了"時(shí)間段提示"功能,你可以直接在音頻波形上標(biāo)記出目標(biāo)聲音出現(xiàn)的時(shí)間段,系統(tǒng)就能根據(jù)這個(gè)時(shí)間信息來(lái)提取聲音。

      為了訓(xùn)練這個(gè)全能的聲音分離系統(tǒng),研究團(tuán)隊(duì)面臨著巨大的數(shù)據(jù)挑戰(zhàn)。真實(shí)世界中很難找到既有復(fù)雜聲音混合,又有單獨(dú)分離出的純凈聲音的數(shù)據(jù)。這就像要訓(xùn)練一個(gè)廚師,你不僅需要各種大雜燴,還需要知道每種食材單獨(dú)是什么味道。為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)采用了三種巧妙的數(shù)據(jù)構(gòu)造策略。

      第一種策略是使用完全真實(shí)的數(shù)據(jù)三元組。在音樂(lè)和語(yǔ)音領(lǐng)域,他們找到了一些高質(zhì)量的多軌錄音數(shù)據(jù)。比如在錄音棚錄制音樂(lè)時(shí),每個(gè)樂(lè)器都會(huì)單獨(dú)錄制,最后混合成完整的歌曲。研究團(tuán)隊(duì)就利用這種數(shù)據(jù),將各種樂(lè)器聲音重新組合,創(chuàng)造出不同的混合方案,讓AI學(xué)會(huì)如何從混合音中提取特定樂(lè)器的聲音。類(lèi)似地,在對(duì)話數(shù)據(jù)中,他們使用了包含兩個(gè)說(shuō)話者獨(dú)立錄音軌道的對(duì)話數(shù)據(jù),總計(jì)超過(guò)2萬(wàn)小時(shí),讓AI學(xué)會(huì)分離不同說(shuō)話者的聲音。

      第二種策略是合成混合音頻。由于真實(shí)數(shù)據(jù)稀缺,研究團(tuán)隊(duì)開(kāi)始"人工制作大雜燴"。他們收集了大量單一類(lèi)型的音頻,比如純凈的音樂(lè)錄音、清晰的語(yǔ)音錄音和各種聲音效果,然后將它們隨機(jī)組合。這就像一個(gè)廚師拿著各種新鮮食材,按照不同的配方混合,創(chuàng)造出各種口味的"聲音大雜燴"。為了確保訓(xùn)練效果,他們還會(huì)調(diào)整不同聲音的音量比例,模擬真實(shí)環(huán)境中的各種情況。

      第三種策略最為巧妙,叫做偽標(biāo)簽數(shù)據(jù)引擎。研究團(tuán)隊(duì)發(fā)現(xiàn),簡(jiǎn)單的隨機(jī)混合往往產(chǎn)生不自然的組合,比如將體育場(chǎng)的歡呼聲和森林中的鳥(niǎo)鳴混合在一起,這種組合在現(xiàn)實(shí)中幾乎不可能出現(xiàn)。為了解決這個(gè)問(wèn)題,他們采用了一種"自舉"方法:首先用前兩種數(shù)據(jù)訓(xùn)練出一個(gè)初級(jí)版本的SAM Audio,然后用這個(gè)初級(jí)版本來(lái)分析真實(shí)世界的復(fù)雜音頻,自動(dòng)生成更多訓(xùn)練數(shù)據(jù)。這個(gè)過(guò)程就像讓學(xué)徒廚師先學(xué)會(huì)基本功,然后讓他們?nèi)シ治龈鞣N現(xiàn)實(shí)中的復(fù)雜菜譜,從中學(xué)習(xí)更高級(jí)的搭配規(guī)律。

      為了確保偽標(biāo)簽數(shù)據(jù)的質(zhì)量,研究團(tuán)隊(duì)設(shè)計(jì)了嚴(yán)格的篩選機(jī)制。他們使用CLAP模型來(lái)檢查文本描述和音頻內(nèi)容的匹配度,使用美學(xué)評(píng)估模型來(lái)判斷音頻的清晰程度,還會(huì)自動(dòng)檢測(cè)過(guò)于安靜的輸出。只有同時(shí)通過(guò)所有質(zhì)量檢查的數(shù)據(jù)才會(huì)被納入最終的訓(xùn)練集。這種多重篩選就像質(zhì)檢員在生產(chǎn)線上層層把關(guān),確保每個(gè)產(chǎn)品都符合標(biāo)準(zhǔn)。

      在模型架構(gòu)設(shè)計(jì)上,SAM Audio采用了當(dāng)前最先進(jìn)的擴(kuò)散變換器技術(shù)。整個(gè)系統(tǒng)可以想象成一個(gè)精密的聲音工廠,包含多個(gè)專(zhuān)門(mén)的處理車(chē)間。音頻編碼車(chē)間負(fù)責(zé)將輸入的聲音轉(zhuǎn)換成AI能夠理解的數(shù)字表示,這里使用的是DAC-VAE編碼器,它能夠?qū)⒁纛l壓縮成每秒25幀的緊湊表示,既保持了音質(zhì)又減少了計(jì)算負(fù)擔(dān)。文本編碼車(chē)間使用T5文本編碼器來(lái)理解用戶(hù)的文字描述。視覺(jué)編碼車(chē)間則采用了最新的PE視覺(jué)編碼器,這比傳統(tǒng)的CLIP編碼器更擅長(zhǎng)理解動(dòng)作和場(chǎng)景上下文。

      最創(chuàng)新的是時(shí)間段編碼車(chē)間的設(shè)計(jì)。研究團(tuán)隊(duì)將時(shí)間段信息轉(zhuǎn)換成類(lèi)似文字序列的表示方法,每個(gè)時(shí)間點(diǎn)被標(biāo)記為"活躍"或"靜默",就像制作音樂(lè)樂(lè)譜一樣,標(biāo)記出每個(gè)音符出現(xiàn)的時(shí)間點(diǎn)。這種設(shè)計(jì)使得AI能夠精確理解用戶(hù)指定的時(shí)間信息,實(shí)現(xiàn)frame級(jí)別的精確控制。

      在訓(xùn)練過(guò)程中,SAM Audio不僅學(xué)會(huì)分離目標(biāo)聲音,還同時(shí)學(xué)會(huì)生成剩余聲音。這意味著它能夠輸出兩個(gè)音軌:一個(gè)包含你想要的聲音,另一個(gè)包含所有其他聲音。這種設(shè)計(jì)使得該系統(tǒng)既可以用來(lái)提取聲音,也可以用來(lái)去除不想要的聲音,就像一把雙刃劍,正反兩面都能使用。

      為了提高訓(xùn)練效果,研究團(tuán)隊(duì)還引入了一個(gè)巧妙的輔助訓(xùn)練機(jī)制。除了主要的聲音生成任務(wù),系統(tǒng)還需要學(xué)會(huì)識(shí)別聲音事件。他們使用了一個(gè)專(zhuān)門(mén)的音頻事件檢測(cè)模型作為"老師",讓SAM Audio的內(nèi)部表示盡可能接近這個(gè)老師模型的理解。這就像讓學(xué)生不僅要會(huì)做題,還要理解解題思路,從而獲得更深層的理解能力。

      在實(shí)際應(yīng)用中,SAM Audio展現(xiàn)出了驚人的靈活性。當(dāng)用戶(hù)只提供文字描述時(shí),系統(tǒng)還會(huì)自動(dòng)預(yù)測(cè)相應(yīng)的時(shí)間段信息來(lái)增強(qiáng)分離效果。這個(gè)預(yù)測(cè)功能使用了PEA-Frame模型,它能夠分析音頻并自動(dòng)標(biāo)出指定聲音出現(xiàn)的時(shí)間段。這就像一個(gè)經(jīng)驗(yàn)豐富的音響師,即使你只說(shuō)了想要什么聲音,他也能自動(dòng)判斷出這個(gè)聲音最可能在什么時(shí)候出現(xiàn),從而做出更精確的調(diào)整。

      對(duì)于超長(zhǎng)音頻的處理,研究團(tuán)隊(duì)采用了多重?cái)U(kuò)散技術(shù)。傳統(tǒng)方法處理長(zhǎng)音頻時(shí),要么因?yàn)閮?nèi)存限制無(wú)法處理,要么將音頻切成片段獨(dú)立處理,導(dǎo)致片段之間出現(xiàn)不連續(xù)的問(wèn)題。SAM Audio的解決方案更加優(yōu)雅,它將長(zhǎng)音頻分成重疊的窗口,每個(gè)窗口都能看到相鄰窗口的一部分內(nèi)容。在每個(gè)處理步驟中,系統(tǒng)會(huì)綜合所有窗口的信息,確保最終結(jié)果的連貫性。這就像多個(gè)工人協(xié)同完成一項(xiàng)長(zhǎng)工序,每個(gè)人負(fù)責(zé)一段,但大家會(huì)互相溝通,確保整體工作的一致性。

      為了驗(yàn)證SAM Audio的性能,研究團(tuán)隊(duì)面臨著另一個(gè)挑戰(zhàn):如何公平地評(píng)估聲音分離效果。傳統(tǒng)的評(píng)估方法主要依賴(lài)信噪比等技術(shù)指標(biāo),但這些指標(biāo)往往與人類(lèi)的聽(tīng)覺(jué)感受不一致。兩個(gè)在技術(shù)指標(biāo)上相似的音頻在實(shí)際聽(tīng)起來(lái)可能差別很大,就像兩道菜的營(yíng)養(yǎng)成分相同,但口味完全不同。

      為了解決這個(gè)評(píng)估難題,研究團(tuán)隊(duì)開(kāi)發(fā)了兩個(gè)重要工具。首先是SAM Audio-Bench,這是一個(gè)全面的測(cè)試基準(zhǔn),包含了來(lái)自真實(shí)世界的各種音頻和視頻數(shù)據(jù),涵蓋語(yǔ)音、音樂(lè)和一般聲音效果等多個(gè)領(lǐng)域。與以往主要使用合成數(shù)據(jù)的測(cè)試集不同,這個(gè)基準(zhǔn)使用的都是真實(shí)環(huán)境錄制的音頻,更能反映實(shí)際使用場(chǎng)景的復(fù)雜性。每個(gè)測(cè)試樣本都有人工標(biāo)注的多模態(tài)提示,包括文字描述、視覺(jué)標(biāo)記和時(shí)間段標(biāo)記,使得可以全面測(cè)試模型的各種能力。

      更重要的是,研究團(tuán)隊(duì)開(kāi)發(fā)了SAM Audio Judge,這是一個(gè)能夠自動(dòng)評(píng)估聲音分離質(zhì)量的AI評(píng)判員。這個(gè)評(píng)判員經(jīng)過(guò)大量人類(lèi)評(píng)估數(shù)據(jù)的訓(xùn)練,學(xué)會(huì)了從多個(gè)維度評(píng)估分離效果:召回率衡量目標(biāo)聲音是否被完整提取,精確度衡量是否混入了不相關(guān)的聲音,保真度衡量分離出的聲音與原始聲音的相似程度。最令人印象深刻的是,這個(gè)AI評(píng)判員與人類(lèi)評(píng)估的相關(guān)性達(dá)到了0.88,遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)技術(shù)指標(biāo)的0.49。這意味著AI評(píng)判員的判斷已經(jīng)非常接近人類(lèi)的感受。

      在大規(guī)模實(shí)驗(yàn)中,SAM Audio展現(xiàn)出了全面超越現(xiàn)有技術(shù)的性能。在一般聲音事件分離任務(wù)中,它比目前最好的公開(kāi)模型SoloAudio的勝率高出約36%。在專(zhuān)業(yè)領(lǐng)域表現(xiàn)更加出色,比如在樂(lè)器分離任務(wù)中,即使與專(zhuān)門(mén)針對(duì)音樂(lè)設(shè)計(jì)的Demucs系統(tǒng)相比,SAM Audio的勝率仍然達(dá)到17.6%。在說(shuō)話者分離任務(wù)中,相比專(zhuān)業(yè)的AudioShake系統(tǒng),SAM Audio的整體質(zhì)量評(píng)分提高了近4%,勝率高達(dá)39%。

      特別值得一提的是視覺(jué)提示功能的表現(xiàn)。雖然視覺(jué)引導(dǎo)的聲音分離技術(shù)相對(duì)較少被研究,但SAM Audio在這方面同樣表現(xiàn)出色。相比現(xiàn)有的DAVIS-Flow系統(tǒng),SAM Audio在不同任務(wù)中的勝率從5%到48%不等。研究團(tuán)隊(duì)發(fā)現(xiàn),視覺(jué)提示在某些特定場(chǎng)景中特別有用,比如在多人對(duì)話的視頻中,當(dāng)你想分離某個(gè)特定說(shuō)話者的聲音時(shí),文字描述"男性說(shuō)話"可能無(wú)法區(qū)分兩個(gè)男性說(shuō)話者,但點(diǎn)擊視頻中的特定人物就能精確指定目標(biāo)。

      時(shí)間段提示功能的引入更是展現(xiàn)了研究團(tuán)隊(duì)的創(chuàng)新思維。在復(fù)雜的聲音環(huán)境中,有時(shí)候文字描述很難精確表達(dá)想要的聲音,比如電影配樂(lè)中的某個(gè)特定音效。通過(guò)標(biāo)記時(shí)間段,用戶(hù)可以告訴系統(tǒng)"我想要第3到5秒之間出現(xiàn)的那個(gè)聲音",系統(tǒng)就能根據(jù)時(shí)間定位來(lái)提取目標(biāo)聲音。實(shí)驗(yàn)結(jié)果顯示,將文字描述和時(shí)間段提示結(jié)合使用,能夠在各個(gè)領(lǐng)域都帶來(lái)12.9%到39.0%的性能提升。

      研究團(tuán)隊(duì)還深入分析了不同提示方式的特點(diǎn)和適用場(chǎng)景。文字提示具有最好的可訪問(wèn)性,用戶(hù)只需要簡(jiǎn)單描述就能使用,而且由于有大量高質(zhì)量的文字-音頻訓(xùn)練數(shù)據(jù),文字提示通常能達(dá)到最好的分離效果。視覺(jué)提示則擅長(zhǎng)處理模糊場(chǎng)景,當(dāng)同一類(lèi)型的聲音有多個(gè)來(lái)源時(shí),視覺(jué)定位能夠提供實(shí)例級(jí)別的區(qū)分。時(shí)間段提示最適合處理瞬時(shí)性強(qiáng)的聲音事件,比如門(mén)關(guān)上的聲音、狗叫聲等,這類(lèi)聲音的時(shí)間定位信息非常有價(jià)值。

      在模型規(guī)模的研究中,團(tuán)隊(duì)訓(xùn)練了三個(gè)不同大小的版本:5億、10億和30億參數(shù)。就像不同馬力的發(fā)動(dòng)機(jī)一樣,更大的模型在處理復(fù)雜任務(wù)時(shí)表現(xiàn)更好,特別是在專(zhuān)業(yè)領(lǐng)域如樂(lè)器分離中,30億參數(shù)的模型比10億參數(shù)版本的勝率高出23%。但在一些基礎(chǔ)任務(wù)中,較小的模型也能達(dá)到相當(dāng)不錯(cuò)的效果,這為不同應(yīng)用場(chǎng)景提供了靈活的選擇空間。

      系統(tǒng)的實(shí)時(shí)性能也經(jīng)過(guò)了精心優(yōu)化。對(duì)于10秒的音頻,SAM Audio在單張A100 GPU上大約需要7.3秒完成處理,其中包括模型計(jì)算、時(shí)間段預(yù)測(cè)和結(jié)果優(yōu)化等所有步驟。雖然還不能做到實(shí)時(shí)處理,但對(duì)于大多數(shù)實(shí)際應(yīng)用已經(jīng)足夠快。更有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)即使將計(jì)算步驟從16步減少到2步,系統(tǒng)仍然能保持令人滿意的分離效果,這為需要快速處理的應(yīng)用場(chǎng)景提供了可能。

      在長(zhǎng)音頻處理方面,SAM Audio采用了多重?cái)U(kuò)散技術(shù)。傳統(tǒng)的分塊處理方法會(huì)在塊與塊之間產(chǎn)生明顯的不連續(xù)性,聽(tīng)起來(lái)就像拼接的錄音帶。SAM Audio的方法更像是多個(gè)畫(huà)家同時(shí)在一幅長(zhǎng)卷上作畫(huà),每個(gè)畫(huà)家負(fù)責(zé)一段,但他們會(huì)時(shí)刻關(guān)注相鄰區(qū)域的筆觸,確保整體畫(huà)面的和諧統(tǒng)一。實(shí)驗(yàn)結(jié)果證明,這種方法比簡(jiǎn)單分塊處理的效果提升明顯,音頻的連貫性和整體質(zhì)量都得到了保證。

      研究團(tuán)隊(duì)還深入研究了聲音分離任務(wù)的內(nèi)在難度。他們發(fā)現(xiàn),分離任務(wù)的難度主要取決于幾個(gè)因素:混合音中非目標(biāo)聲音的數(shù)量、目標(biāo)聲音與非目標(biāo)聲音的重疊程度、目標(biāo)聲音的相對(duì)音量,以及非目標(biāo)聲音與目標(biāo)聲音的相似程度。基于這些因素,他們建立了一個(gè)自動(dòng)難度評(píng)估系統(tǒng),能夠預(yù)測(cè)某個(gè)分離任務(wù)對(duì)人類(lèi)來(lái)說(shuō)有多困難。實(shí)驗(yàn)證實(shí),隨著任務(wù)難度的增加,人類(lèi)評(píng)估者給出的分離質(zhì)量評(píng)分確實(shí)單調(diào)遞減,驗(yàn)證了這個(gè)難度評(píng)估系統(tǒng)的有效性。

      在商業(yè)模型的對(duì)比中,SAM Audio不僅超越了所有開(kāi)源模型,甚至在多數(shù)任務(wù)中超過(guò)了商業(yè)化的專(zhuān)業(yè)音頻處理服務(wù)。比如在語(yǔ)音增強(qiáng)任務(wù)中,SAM Audio的表現(xiàn)超過(guò)了AudioShake、MoisesAI等知名商業(yè)產(chǎn)品。在音樂(lè)分離任務(wù)中,它也明顯優(yōu)于專(zhuān)業(yè)音頻制作工具。這種全面的性能優(yōu)勢(shì)證明了統(tǒng)一訓(xùn)練方法的威力:通過(guò)在大規(guī)模多樣化數(shù)據(jù)上統(tǒng)一訓(xùn)練,單一模型能夠在多個(gè)專(zhuān)業(yè)領(lǐng)域都達(dá)到或超越專(zhuān)門(mén)為該領(lǐng)域設(shè)計(jì)的系統(tǒng)。

      研究團(tuán)隊(duì)特別強(qiáng)調(diào)了SAM Audio Judge評(píng)估系統(tǒng)的價(jià)值。傳統(tǒng)的音頻分離評(píng)估主要依賴(lài)技術(shù)指標(biāo),但這些指標(biāo)往往與人類(lèi)的主觀感受脫節(jié)。SAM Audio Judge通過(guò)學(xué)習(xí)大量人類(lèi)評(píng)估數(shù)據(jù),能夠更準(zhǔn)確地預(yù)測(cè)人類(lèi)對(duì)分離效果的滿意度。這個(gè)評(píng)估系統(tǒng)本身就是一個(gè)重要貢獻(xiàn),可以幫助其他研究者更好地評(píng)估和比較不同的聲音分離方法。

      整個(gè)研究還揭示了一些有趣的發(fā)現(xiàn)。比如,視覺(jué)提示雖然在某些場(chǎng)景中非常有用,但總體效果不如文字提示,主要原因是視覺(jué)訓(xùn)練數(shù)據(jù)相對(duì)較少且質(zhì)量參差不齊,而且視覺(jué)區(qū)域往往比文字描述更加模糊。一個(gè)人的視覺(jué)區(qū)域可能對(duì)應(yīng)多種不同的聲音,而"男性說(shuō)話"這樣的文字描述則相對(duì)明確。

      另一個(gè)重要發(fā)現(xiàn)是時(shí)間段預(yù)測(cè)的有效性。即使是自動(dòng)預(yù)測(cè)的時(shí)間段信息,而非人工標(biāo)注的準(zhǔn)確時(shí)間段,也能顯著提升分離效果。這意味著用戶(hù)在實(shí)際使用時(shí),即使只提供文字描述,系統(tǒng)也能自動(dòng)增強(qiáng)處理效果,無(wú)需額外的人工標(biāo)注工作。

      SAM Audio的成功不僅在于其技術(shù)先進(jìn)性,更在于其實(shí)用性和通用性。無(wú)論是專(zhuān)業(yè)音頻制作人員需要從復(fù)雜混音中提取特定樂(lè)器,還是普通用戶(hù)想要從嘈雜視頻中提取清晰對(duì)話,或者研究人員需要分析野外錄音中的特定聲音事件,SAM Audio都能提供統(tǒng)一的解決方案。這種"一站式"服務(wù)的價(jià)值在于降低了使用門(mén)檻,用戶(hù)無(wú)需學(xué)習(xí)多個(gè)不同的專(zhuān)業(yè)工具,只需要掌握一個(gè)系統(tǒng)就能處理各種聲音分離需求。

      當(dāng)然,這項(xiàng)研究也坦誠(chéng)地指出了現(xiàn)有的局限性。視覺(jué)提示的效果仍然明顯低于文字提示,主要原因是缺乏足夠的高質(zhì)量音視頻對(duì)應(yīng)訓(xùn)練數(shù)據(jù)。一般聲音效果的分離仍然比專(zhuān)業(yè)領(lǐng)域如語(yǔ)音或音樂(lè)更具挑戰(zhàn)性,因?yàn)槁曇粜Ч?lèi)型更加多樣化,邊界更加模糊。這些限制為未來(lái)的研究指明了方向,需要更強(qiáng)的音視頻對(duì)應(yīng)學(xué)習(xí)和更好的復(fù)雜多源聲音場(chǎng)景建模技術(shù)。

      研究團(tuán)隊(duì)在論文中還詳細(xì)描述了訓(xùn)練的具體配置。他們使用了兩階段訓(xùn)練策略:首先在大規(guī)模通用視頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,建立基礎(chǔ)的聲音分離能力,然后在精選的高質(zhì)量數(shù)據(jù)上進(jìn)行微調(diào),提升在專(zhuān)業(yè)領(lǐng)域的表現(xiàn)。預(yù)訓(xùn)練階段使用了有效批量大小為1024的設(shè)置,訓(xùn)練50萬(wàn)次更新。微調(diào)階段則采用了變長(zhǎng)批處理技術(shù),根據(jù)模型大小調(diào)整每批的token數(shù)量,訓(xùn)練30萬(wàn)次更新。整個(gè)訓(xùn)練過(guò)程使用了全分片數(shù)據(jù)并行來(lái)適應(yīng)模型規(guī)模,確保訓(xùn)練效率。

      推理時(shí),系統(tǒng)使用16步的中點(diǎn)ODE求解器,不需要分類(lèi)器自由引導(dǎo)就能達(dá)到很好的效果。為了進(jìn)一步提升輸出質(zhì)量,系統(tǒng)還會(huì)生成8個(gè)候選結(jié)果,然后使用SAM Audio Judge和CLAP分?jǐn)?shù)的線性組合來(lái)選擇最佳輸出。這種候選重排序機(jī)制能夠顯著提高最終分離效果的質(zhì)量和穩(wěn)定性。

      這項(xiàng)研究的意義遠(yuǎn)不止于技術(shù)突破本身。在教育領(lǐng)域,SAM Audio可以幫助語(yǔ)言學(xué)習(xí)者從嘈雜環(huán)境中提取清晰的目標(biāo)語(yǔ)音,或者幫助音樂(lè)學(xué)習(xí)者從復(fù)雜樂(lè)曲中分離出特定樂(lè)器進(jìn)行學(xué)習(xí)。在輔助技術(shù)領(lǐng)域,它可以為聽(tīng)力輔助設(shè)備提供更好的聲音分離功能,幫助用戶(hù)在嘈雜環(huán)境中專(zhuān)注于重要聲音。在內(nèi)容創(chuàng)作領(lǐng)域,它為音頻編輯、播客制作、視頻后期等提供了強(qiáng)大的工具。

      研究團(tuán)隊(duì)還特別強(qiáng)調(diào)了開(kāi)放科學(xué)的重要性。他們不僅發(fā)布了模型代碼和演示系統(tǒng),還公開(kāi)了完整的訓(xùn)練數(shù)據(jù)構(gòu)建流程和評(píng)估基準(zhǔn)。這種開(kāi)放性將極大促進(jìn)整個(gè)領(lǐng)域的發(fā)展,讓更多研究者能夠基于這項(xiàng)工作繼續(xù)創(chuàng)新。SAM Audio-Bench作為統(tǒng)一的評(píng)估標(biāo)準(zhǔn),也將有助于未來(lái)不同方法之間的公平比較。

      從技術(shù)發(fā)展的角度看,SAM Audio代表了AI聲音理解能力的一個(gè)重要里程碑。它不僅展示了大模型在音頻領(lǐng)域的潛力,更重要的是證明了多模態(tài)統(tǒng)一訓(xùn)練的有效性。通過(guò)同時(shí)學(xué)習(xí)文字、視覺(jué)和時(shí)間信息,AI系統(tǒng)獲得了更加全面和靈活的聲音理解能力,這為構(gòu)建真正智能的多模態(tài)AI系統(tǒng)奠定了重要基礎(chǔ)。

      說(shuō)到底,SAM Audio的真正價(jià)值在于它將復(fù)雜的專(zhuān)業(yè)音頻處理技術(shù)變成了普通人都能輕松使用的工具。就像智能手機(jī)將復(fù)雜的通信技術(shù)變成日常工具一樣,SAM Audio有望將聲音分離從專(zhuān)業(yè)音頻制作的小眾領(lǐng)域擴(kuò)展到每個(gè)人的日常生活中。無(wú)論你是想從家庭錄像中提取孩子的笑聲,還是想從演唱會(huì)錄音中分離出特定樂(lè)器的演奏,SAM Audio都能夠理解你的需求并提供高質(zhì)量的結(jié)果。這種技術(shù)的普及化將為聲音處理領(lǐng)域帶來(lái)革命性的變化,讓每個(gè)人都能成為自己的聲音魔法師。

      Q&A

      Q1:SAM Audio是什么?

      A:SAM Audio是Meta公司開(kāi)發(fā)的AI聲音分離系統(tǒng),它能夠從復(fù)雜的聲音混合物中提取用戶(hù)想要的任何特定聲音。用戶(hù)可以通過(guò)文字描述、視頻中的視覺(jué)選擇或時(shí)間段標(biāo)記來(lái)指定目標(biāo)聲音,系統(tǒng)會(huì)自動(dòng)分離出純凈的目標(biāo)音軌和剩余音軌。

      Q2:SAM Audio相比現(xiàn)有聲音分離工具有什么優(yōu)勢(shì)?

      A:SAM Audio的最大優(yōu)勢(shì)是統(tǒng)一性和靈活性。傳統(tǒng)工具通常只能處理固定類(lèi)型的聲音分離,比如專(zhuān)門(mén)分離人聲和音樂(lè),而SAM Audio可以分離任何類(lèi)型的聲音。更重要的是,它支持三種提示方式的任意組合使用,在各個(gè)專(zhuān)業(yè)領(lǐng)域都達(dá)到了超越專(zhuān)門(mén)系統(tǒng)的性能。

      Q3:普通用戶(hù)如何使用SAM Audio?

      A:目前用戶(hù)可以通過(guò)Meta提供的在線演示體驗(yàn)SAM Audio,研究團(tuán)隊(duì)還開(kāi)源了代碼供開(kāi)發(fā)者使用。對(duì)于10秒音頻,系統(tǒng)需要約7秒處理時(shí)間。用戶(hù)只需上傳音頻或視頻文件,然后通過(guò)文字描述、點(diǎn)擊視覺(jué)區(qū)域或標(biāo)記時(shí)間段的方式指定想要提取的聲音即可。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      厲害了!廣東這5個(gè)縣即將代表中國(guó)走向世界!快看有沒(méi)有你老家

      厲害了!廣東這5個(gè)縣即將代表中國(guó)走向世界!快看有沒(méi)有你老家

      時(shí)尚的弄潮
      2025-12-31 12:13:01
      徐根寶邀基地家屬共迎 2026 年元旦,和崇明五虎大弟子相約“初三再見(jiàn)”

      徐根寶邀基地家屬共迎 2026 年元旦,和崇明五虎大弟子相約“初三再見(jiàn)”

      上觀新聞
      2026-01-01 05:00:03
      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

      阿纂看事
      2025-12-12 09:18:29
      長(zhǎng)春文旅天塌了!“拉活威哥”讓女學(xué)生買(mǎi)煙后續(xù):警方正在處理

      長(zhǎng)春文旅天塌了!“拉活威哥”讓女學(xué)生買(mǎi)煙后續(xù):警方正在處理

      天天熱點(diǎn)見(jiàn)聞
      2026-01-01 06:22:56
      羅馬諾:切爾西和馬雷斯卡的關(guān)系豈止是緊張,簡(jiǎn)直火藥味十足

      羅馬諾:切爾西和馬雷斯卡的關(guān)系豈止是緊張,簡(jiǎn)直火藥味十足

      懂球帝
      2026-01-01 05:00:10
      普約爾回憶西班牙黃金一代時(shí)不提皇馬球員,卡納瓦羅善意提醒

      普約爾回憶西班牙黃金一代時(shí)不提皇馬球員,卡納瓦羅善意提醒

      懂球帝
      2025-12-31 09:57:09
      中國(guó)航空發(fā)動(dòng)機(jī)集團(tuán)原董事長(zhǎng)情況不妙!近日其非常顯要的某頭銜被除名!曾被稱(chēng)為“中國(guó)航天事業(yè)的領(lǐng)路人”

      中國(guó)航空發(fā)動(dòng)機(jī)集團(tuán)原董事長(zhǎng)情況不妙!近日其非常顯要的某頭銜被除名!曾被稱(chēng)為“中國(guó)航天事業(yè)的領(lǐng)路人”

      新浪財(cái)經(jīng)
      2025-12-30 17:34:44
      全網(wǎng)都在傳:閆學(xué)晶一家入不敷出,吃不上燕窩,兒子兒媳還要租房

      全網(wǎng)都在傳:閆學(xué)晶一家入不敷出,吃不上燕窩,兒子兒媳還要租房

      云間娛樂(lè)
      2025-12-30 17:57:15
      “亂港分子”何桂藍(lán):從清華學(xué)霸到港獨(dú)分子,昔日風(fēng)光今日凄慘

      “亂港分子”何桂藍(lán):從清華學(xué)霸到港獨(dú)分子,昔日風(fēng)光今日凄慘

      蜉蝣說(shuō)
      2025-08-30 17:14:26
      嘩!昨晚東莞這么多人!密密麻麻!

      嘩!昨晚東莞這么多人!密密麻麻!

      東莞潮事兒
      2026-01-01 01:12:00
      羅永浩鞠躬道歉僅1天,令人擔(dān)心的事發(fā)生,于東來(lái)的話有人信了

      羅永浩鞠躬道歉僅1天,令人擔(dān)心的事發(fā)生,于東來(lái)的話有人信了

      星星沒(méi)有你亮
      2025-12-31 19:45:16
      中美差距太明顯!美國(guó)游客實(shí)地體驗(yàn)后:中國(guó)比美國(guó)厲害多了

      中美差距太明顯!美國(guó)游客實(shí)地體驗(yàn)后:中國(guó)比美國(guó)厲害多了

      布拉旅游說(shuō)
      2025-12-31 06:04:36
      和謝賢分手7年,coco自曝私密事,身材發(fā)福走樣,腰寬臉胖認(rèn)不出

      和謝賢分手7年,coco自曝私密事,身材發(fā)福走樣,腰寬臉胖認(rèn)不出

      古木之草記
      2025-12-31 18:15:11
      山西通報(bào):情況基本屬實(shí),將進(jìn)一步核查

      山西通報(bào):情況基本屬實(shí),將進(jìn)一步核查

      上觀新聞
      2025-12-31 12:09:08
      《逍遙》:頂著一張老臉卻硬要演少女,是誰(shuí)的審美出了問(wèn)題

      《逍遙》:頂著一張老臉卻硬要演少女,是誰(shuí)的審美出了問(wèn)題

      一娛三分地
      2025-12-29 15:12:34
      深夜!美股跳水,黃金拉升!特朗普概念股,大漲!

      深夜!美股跳水,黃金拉升!特朗普概念股,大漲!

      證券時(shí)報(bào)e公司
      2025-12-31 23:49:19
      羅永浩凌晨發(fā)文稱(chēng)患ADHD:如換藥失敗,或不能用鍛煉徹底改善體能問(wèn)題,將不再舉辦大型活動(dòng);此前其“科技春晚”遲到40多分鐘才出現(xiàn)引熱議

      羅永浩凌晨發(fā)文稱(chēng)患ADHD:如換藥失敗,或不能用鍛煉徹底改善體能問(wèn)題,將不再舉辦大型活動(dòng);此前其“科技春晚”遲到40多分鐘才出現(xiàn)引熱議

      極目新聞
      2025-12-31 07:52:11
      “騙”了我們30年,韓紅父親原來(lái)是家喻戶(hù)曉的他,難怪沒(méi)人敢得罪

      “騙”了我們30年,韓紅父親原來(lái)是家喻戶(hù)曉的他,難怪沒(méi)人敢得罪

      付老師種植技術(shù)團(tuán)隊(duì)
      2025-12-31 22:27:20
      瓦良格號(hào)曾讓中國(guó)為之震撼的程度有多深?當(dāng)時(shí)在場(chǎng)的專(zhuān)家給出評(píng)價(jià):蘇聯(lián)采用的鋼材品質(zhì)極佳

      瓦良格號(hào)曾讓中國(guó)為之震撼的程度有多深?當(dāng)時(shí)在場(chǎng)的專(zhuān)家給出評(píng)價(jià):蘇聯(lián)采用的鋼材品質(zhì)極佳

      老杉說(shuō)歷史
      2025-12-31 20:55:11
      “慰安婦”韋紹蘭:忍辱生下日本兵后代,兒子:母親去世就喝農(nóng)藥

      “慰安婦”韋紹蘭:忍辱生下日本兵后代,兒子:母親去世就喝農(nóng)藥

      何氽簡(jiǎn)史
      2025-12-31 18:45:15
      2026-01-01 09:03:00
      至頂AI實(shí)驗(yàn)室 incentive-icons
      至頂AI實(shí)驗(yàn)室
      一個(gè)專(zhuān)注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
      895文章數(shù) 151關(guān)注度
      往期回顧 全部

      科技要聞

      老羅,演砸了,也封神了?

      頭條要聞

      牛彈琴:2026第一天 世界最關(guān)注三件事

      頭條要聞

      牛彈琴:2026第一天 世界最關(guān)注三件事

      體育要聞

      楊瀚森為球迷送上新年祝福:深知自身差距 亦在全力追趕

      娛樂(lè)要聞

      官宣才兩天就翻車(chē)?七七被連環(huán)爆料

      財(cái)經(jīng)要聞

      高培勇:分配制度改革是提振消費(fèi)的抓手

      汽車(chē)要聞

      凱迪拉克純電中型SUV 售價(jià)不足24萬(wàn)/33寸曲面屏

      態(tài)度原創(chuàng)

      藝術(shù)
      時(shí)尚
      家居
      游戲
      房產(chǎn)

      藝術(shù)要聞

      某官媒對(duì)中國(guó)歷史的神分析,醍醐灌頂!

      小黑靴不流行了?今年冬天最火的靴子竟然是它

      家居要聞

      無(wú)形有行 自然與靈感詩(shī)意

      宮崎英高:FromSoftware并沒(méi)有發(fā)明魂系游戲

      房產(chǎn)要聞

      終于等來(lái)了!2026年首個(gè)買(mǎi)房大利好

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品久久无码一区| 中文字幕日韩精品有码| 日本极品少妇xxxx| 最新精品国偷自产在线| jizzjizz国产| 红安县| 国产午夜精品久久久久免费视| 99久久婷婷国产综合精品电影| 国产地址二永久伊甸园| 极品vpswindows少妇| 91视频免费| 富婆熟妇熟女二区三区| 砚山县| 天天狠天天透天天伊人| 新妺妺窝人体色7777婷婷| 青娱乐av| 国产女厕撒尿一区二区| 欧美福利视频导航| 五月天成人社区| 国产九九免费| 午夜福利啪啪片| 两根大肉大捧一进一出好爽视频| 黑人videos特大hd粗暴| 91白浆| 国产偷倩视频| 伊人色色| 97人妻精品一区二区三区免费| 宁乡县| 亚洲精品国产精品国自产| 久久久亚洲欧洲日产国码aⅴ| 亚洲中文在线观看| 亚洲精品www.| 日本中文字幕在线| 无码专区视频精品老司机| 久久窝| 少妇被粗大的猛进69视频| 日本理伦片午夜理伦片| 成人午夜视频一区二区无码| 91视频最新网址| 亚洲久悠悠色悠在线播放| 无码国产69精品久久久孕妇|