網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

韓國(guó)棟國(guó)大學(xué)突破：AI音樂(lè)偵探實(shí)現(xiàn)人耳不可察覺(jué)的造假痕跡識(shí)別

2026-04-27 21:36:18　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由韓國(guó)首爾棟國(guó)大學(xué)MARTE實(shí)驗(yàn)室與Intrect機(jī)構(gòu)聯(lián)合完成的研究，以預(yù)印本形式發(fā)布，研究成果已提交至音樂(lè)信息檢索領(lǐng)域頂級(jí)會(huì)議，感興趣的讀者可通過(guò)arXiv等學(xué)術(shù)平臺(tái)搜索"ArtifactNet"或作者"Heewon Oh"查找完整論文。

每天，全球各大音樂(lè)流媒體平臺(tái)上悄悄涌入超過(guò)五萬(wàn)首完全由AI生成的歌曲。它們聽起來(lái)像真人演奏，有旋律、有節(jié)奏、有情緒，但背后沒(méi)有任何一雙真實(shí)的人類雙手觸碰過(guò)琴鍵。對(duì)于聽眾來(lái)說(shuō)，這可能只是一個(gè)品味問(wèn)題；但對(duì)于那些靠音樂(lè)謀生的創(chuàng)作者、對(duì)于版權(quán)保護(hù)機(jī)制、對(duì)于整個(gè)音樂(lè)產(chǎn)業(yè)的生態(tài)來(lái)說(shuō)，這是一個(gè)正在演變?yōu)槲C(jī)的難題。而目前，我們幾乎沒(méi)有可靠的工具來(lái)區(qū)分它們。

棟國(guó)大學(xué)的研究者Heewon Oh決定換一種思路來(lái)解決這個(gè)問(wèn)題。與其教計(jì)算機(jī)"聽"AI音樂(lè)聽起來(lái)像什么，不如去追蹤AI音樂(lè)在物理層面上留下了什么無(wú)法抹去的痕跡。這個(gè)思路催生了一個(gè)叫做ArtifactNet的系統(tǒng)，以及一套被研究者稱為"法證物理學(xué)"（forensic physics）的檢測(cè)框架。這篇文章將帶你完整走進(jìn)這項(xiàng)研究，從問(wèn)題的根源開始，一直到那些令人信服的實(shí)驗(yàn)數(shù)據(jù)。

一、AI音樂(lè)工廠的秘密流水線：每首歌都必須經(jīng)過(guò)的"壓縮關(guān)卡"

要理解ArtifactNet為什么有效，我們首先要明白AI是怎么生成音樂(lè)的，以及這個(gè)過(guò)程中隱藏著什么樣的不可避免的缺陷。

不管是Suno、Udio、MusicGen還是Stable Audio，這些AI音樂(lè)生成工具在背后都依賴一種叫做"神經(jīng)音頻編解碼器"（neural audio codec）的技術(shù)組件。你可以把它理解成一個(gè)極其精密的壓縮機(jī)器。原始音頻信號(hào)非常龐大，就像一張超高清原始照片，在被AI處理之前，必須先"壓縮"成一串?dāng)?shù)字代碼；AI在這些代碼上施展魔法，完成創(chuàng)作；然后再把代碼"解壓"還原成我們聽到的音頻。

這個(gè)壓縮過(guò)程的核心技術(shù)叫做"殘差向量量化"（Residual Vector Quantization，簡(jiǎn)稱RVQ）。具體來(lái)說(shuō)，這套機(jī)制的工作方式類似于一本有限頁(yè)數(shù)的"聲音字典"。音頻中連續(xù)流動(dòng)的聲波，被強(qiáng)行翻譯成這本字典里最接近的幾個(gè)詞條的組合。典型的系統(tǒng)里，這本字典可能有1024個(gè)詞條，分8到32層疊加使用。

關(guān)鍵問(wèn)題出現(xiàn)了：聲音是連續(xù)的、無(wú)限微妙的，而字典的詞條是有限的、離散的。每次查字典，總會(huì)有一點(diǎn)點(diǎn)聲音信息丟失在"最近的詞條"和"真實(shí)聲音"之間的縫隙里。更重要的是，這個(gè)縫隙是永久性的——一旦信息被量化壓縮，那部分細(xì)節(jié)就永遠(yuǎn)消失了，無(wú)法還原。

Heewon Oh的核心發(fā)現(xiàn)正在于此：這個(gè)量化縫隙會(huì)在AI生成的音頻中留下一種特殊的、結(jié)構(gòu)化的痕跡。每一首AI歌曲，不管它由什么風(fēng)格的模型生成，都必須經(jīng)過(guò)這道壓縮關(guān)卡，因此都帶有這種痕跡。研究者把這一現(xiàn)象稱為"法證殘差放大"（forensic residual amplification）。

二、以前的偵探是怎么工作的，為什么他們會(huì)認(rèn)錯(cuò)人

在ArtifactNet出現(xiàn)之前，學(xué)術(shù)界有兩種主要的AI音樂(lè)檢測(cè)思路，各有其問(wèn)題。

第一種思路叫做"表征學(xué)習(xí)"，代表作是一個(gè)叫CLAM的系統(tǒng)。它的做法是訓(xùn)練一個(gè)巨大的神經(jīng)網(wǎng)絡(luò)去"學(xué)習(xí)"AI音樂(lè)的聲音特征，參數(shù)量高達(dá)1.94億個(gè)——大約相當(dāng)于ArtifactNet的49倍體量。CLAM在它見過(guò)的AI生成器上表現(xiàn)不錯(cuò)，但問(wèn)題在于：當(dāng)一個(gè)全新的AI生成器出現(xiàn)時(shí)，它的"聲音風(fēng)格"可能和訓(xùn)練數(shù)據(jù)完全不同，CLAM就會(huì)認(rèn)不出來(lái)。更糟糕的是，在后來(lái)的實(shí)驗(yàn)里，CLAM在真實(shí)人類音樂(lè)上的誤報(bào)率高達(dá)69.3%——也就是說(shuō)，它把七成的真實(shí)音樂(lè)都誤判成了AI生成。

第二種思路叫做"自編碼器指紋"，代表作是SpecTTTra。它通過(guò)學(xué)習(xí)自動(dòng)編碼器的重建誤差來(lái)判斷，在特定的數(shù)據(jù)集上能達(dá)到97%的F1分?jǐn)?shù)。但同樣，一旦遇到訓(xùn)練時(shí)沒(méi)見過(guò)的生成器，性能會(huì)崩塌到50%到68%之間——幾乎和隨機(jī)猜測(cè)沒(méi)有區(qū)別。

這兩種方法共同的根本問(wèn)題，就像是一個(gè)偵探通過(guò)"嫌疑人的穿著風(fēng)格"來(lái)認(rèn)人：今天他穿西裝，明天他換了休閑裝，偵探就認(rèn)不出來(lái)了。而ArtifactNet的創(chuàng)新在于：它不看風(fēng)格，它尋找的是嫌疑人皮膚上永遠(yuǎn)無(wú)法洗掉的胎記。

三、ArtifactNet的偵探手冊(cè)：三步找出不可磨滅的痕跡

ArtifactNet的整個(gè)檢測(cè)流程由三個(gè)相互銜接的步驟構(gòu)成，總參數(shù)量只有400萬(wàn)個(gè)，運(yùn)行起來(lái)極為輕量。

第一步叫做"提取法證殘差"，由一個(gè)叫ArtifactUNet的神經(jīng)網(wǎng)絡(luò)完成。這個(gè)網(wǎng)絡(luò)的設(shè)計(jì)有一個(gè)非常巧妙的約束條件。通常情況下，如果你讓一個(gè)網(wǎng)絡(luò)去提取音頻中的"殘差信號(hào)"，它可能會(huì)偷懶，直接把整個(gè)音頻信號(hào)原樣輸出——這在技術(shù)上滿足了條件，但什么有用信息都沒(méi)有。為了防止這種情況，研究者給這個(gè)網(wǎng)絡(luò)加了一個(gè)"有界掩膜"限制：網(wǎng)絡(luò)預(yù)測(cè)的是一個(gè)乘在原始信號(hào)上的"掩膜"，而這個(gè)掩膜的范圍被強(qiáng)制限定在0到0.5之間。換句話說(shuō)，網(wǎng)絡(luò)最多只能提取原始信號(hào)能量的一半，它必須認(rèn)真去尋找那些真正的細(xì)微異常，而不能耍把戲。

這個(gè)ArtifactUNet的訓(xùn)練也很有意思，分為兩個(gè)階段。第一階段叫"知識(shí)蒸餾"：研究者先用一個(gè)叫Demucs v4的大型音源分離模型（有4200萬(wàn)個(gè)參數(shù)）來(lái)處理音頻，提取出它在分離人聲、鼓、貝斯、其他樂(lè)器時(shí)產(chǎn)生的"剩余信號(hào)"——這個(gè)剩余信號(hào)就是Demucs無(wú)法歸類到任何樂(lè)器的聲音殘骸。然后用這個(gè)大模型的輸出作為"老師"，教ArtifactUNet學(xué)習(xí)提取類似的殘差結(jié)構(gòu)，這樣推理時(shí)就不需要運(yùn)行那個(gè)笨重的大模型了。第二階段叫"凍結(jié)分類器引導(dǎo)"：把后續(xù)的分類器網(wǎng)絡(luò)參數(shù)固定住，只繼續(xù)調(diào)整ArtifactUNet，讓它提取的殘差不只是結(jié)構(gòu)上正確，而且對(duì)最終的"AI還是真實(shí)"判斷最有幫助。研究者發(fā)現(xiàn)，如果同時(shí)訓(xùn)練提取器和分類器，訓(xùn)練過(guò)程會(huì)來(lái)回震蕩不穩(wěn)定，分階段則解決了這個(gè)問(wèn)題。

第二步叫做"七通道法證特征計(jì)算"，用到了一種叫HPSS（諧波-打擊樂(lè)源分離）的技術(shù)。簡(jiǎn)單來(lái)說(shuō)，HPSS能把一段音頻信號(hào)拆分成兩部分：一部分是有音高的旋律性成分（諧波分量），另一部分是瞬間爆發(fā)的打擊性成分（打擊樂(lè)分量）。研究者把這個(gè)技術(shù)用在了第一步提取出的殘差信號(hào)上，而不是原始音頻上——這是整個(gè)領(lǐng)域的首次嘗試。

這樣做的邏輯是：如果一首歌是真實(shí)人類演奏的，Demucs應(yīng)該能把各種樂(lè)器分離得比較干凈，剩余的殘差應(yīng)該是混亂、隨機(jī)的小噪音。但如果是AI生成的，由于RVQ壓縮造成的諧波細(xì)節(jié)損失，Demucs會(huì)在殘差里留下大量結(jié)構(gòu)化的諧波泄漏和打擊樂(lè)泄漏。把這兩種泄漏分別提取出來(lái)，加上它們的時(shí)間變化率（一階導(dǎo)數(shù)）、加速度（二階導(dǎo)數(shù)）、諧波與打擊樂(lè)的比值對(duì)數(shù)，以及逐幀的頻譜變化量，共同組成了七個(gè)信息通道，構(gòu)成了這套系統(tǒng)的核心"指紋"。

第三步則是分類和投票。一個(gè)輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)（參數(shù)量只有40萬(wàn)個(gè)）處理4秒長(zhǎng)的音頻片段，輸出一個(gè)0到1之間的"AI概率"。對(duì)于一首完整的歌曲，系統(tǒng)會(huì)把所有片段的概率取中位數(shù)，超過(guò)0.5就判定為AI生成。

四、編碼格式這個(gè)大坑：為什么MP3差點(diǎn)毀掉一切

在ArtifactNet的開發(fā)過(guò)程中，研究者遭遇了一個(gè)幾乎致命的問(wèn)題，而解決這個(gè)問(wèn)題的方案同樣值得詳細(xì)介紹。

網(wǎng)絡(luò)上流傳的音樂(lè)大量以MP3、AAC、Opus等有損壓縮格式存在。這些格式本身也會(huì)對(duì)音頻信號(hào)進(jìn)行某種形式的"壓縮失真"處理，會(huì)在頻譜上留下自己的痕跡。早期版本的ArtifactUNet（訓(xùn)練時(shí)只用WAV格式無(wú)損音頻）完全沒(méi)有區(qū)分這兩種來(lái)源的失真能力。

實(shí)驗(yàn)結(jié)果觸目驚心：對(duì)真實(shí)人類音樂(lè)使用MP3編碼后，系統(tǒng)的誤報(bào)率直接飆升到98.7%——幾乎把所有真實(shí)MP3音樂(lè)都誤判成了AI生成；而對(duì)AI生成的音樂(lè)使用AAC編碼后，系統(tǒng)又會(huì)把它們漏判為真實(shí)音樂(lè)。原始系統(tǒng)在不同編碼格式下的預(yù)測(cè)概率跨度高達(dá)0.95，意味著換一種格式，結(jié)論就可能完全翻轉(zhuǎn)。

解決方案叫做"編碼感知訓(xùn)練"：訓(xùn)練時(shí)，對(duì)每首歌同時(shí)生成WAV、MP3 128kbps、AAC 128kbps和Opus 128kbps四個(gè)版本，讓同一批次的訓(xùn)練數(shù)據(jù)涵蓋所有四種格式。這樣，網(wǎng)絡(luò)就被迫學(xué)會(huì)忽略有損壓縮帶來(lái)的格式特征，專注于尋找那些跨格式穩(wěn)定存在的RVQ量化痕跡。

效果立竿見影。經(jīng)過(guò)編碼感知訓(xùn)練后，真實(shí)音樂(lè)在不同編碼格式下的預(yù)測(cè)概率跨度從0.95降到了0.16，減少了83%；AI音樂(lè)的跨度從0.72降到了0.14，減少了81%。這意味著不管音樂(lè)以什么格式傳播，檢測(cè)結(jié)論都會(huì)保持穩(wěn)定。

五、測(cè)一測(cè)：帶寬數(shù)字里的物理學(xué)證據(jù)

研究者還做了一個(gè)獨(dú)立的物理驗(yàn)證實(shí)驗(yàn)，用數(shù)字證明了"RVQ留下痕跡"這件事不是理論推斷，而是可以測(cè)量的現(xiàn)實(shí)。

他們測(cè)量了94首曲目（50首AI生成，44首真實(shí)人類音樂(lè)）的源分離殘差的"有效帶寬"——就是在殘差信號(hào)中，能量主要集中在哪個(gè)頻率范圍內(nèi)。結(jié)果相當(dāng)戲劇性：AI生成音樂(lè)的殘差平均有效帶寬只有291赫茲，而真實(shí)人類音樂(lè)的殘差有效帶寬高達(dá)1996赫茲，差距將近7倍。

更令人印象深刻的是，把22種不同的AI生成器分開來(lái)看，Suno v3.5是170赫茲，Riffusion是219赫茲，Stable Audio是237赫茲，Udio是245赫茲，MusicGen是255赫茲。這些系統(tǒng)使用了完全不同的生成架構(gòu)——有自回歸的、有擴(kuò)散模型的、有潛在擴(kuò)散的——但它們的殘差帶寬全都密集地聚集在200赫茲左右，而真實(shí)音樂(lè)的殘差始終超過(guò)1900赫茲。這種跨架構(gòu)的一致性，有力地證明了檢測(cè)到的痕跡確實(shí)來(lái)自那個(gè)所有系統(tǒng)共享的RVQ壓縮瓶頸，而不是某種特定生成器的風(fēng)格特征。

六、一個(gè)更公平的考場(chǎng)：ArtifactBench基準(zhǔn)測(cè)試的建立

為了檢驗(yàn)ArtifactNet（以及其競(jìng)爭(zhēng)系統(tǒng)）的真實(shí)能力，研究者從零構(gòu)建了一個(gè)叫做ArtifactBench的評(píng)測(cè)基準(zhǔn)。構(gòu)建它的原因很實(shí)際：現(xiàn)有的評(píng)測(cè)平臺(tái)覆蓋的AI生成器太少，SONICS只有5種，MoM只有6種，高分成績(jī)很可能只是因?yàn)槟Ｐ陀涀×擞?xùn)練時(shí)見過(guò)的那幾個(gè)生成器的特點(diǎn)，并不代表真正的泛化能力。

ArtifactBench v1包含6183首曲目。AI生成部分涵蓋22種不同的生成器，包括Suno v3/v3.5/v4、Udio v1/v1.5、MusicGen、Stable Audio、Riffusion、DiffRhythm、Yue、JEN-1等，合計(jì)4383首。真實(shí)人類音樂(lè)部分來(lái)自6個(gè)多樣化來(lái)源，包括SONICS真實(shí)音樂(lè)分區(qū)、MoM真實(shí)音樂(lè)子集、自由音樂(lè)檔案FMA中特意挑選的高誤報(bào)率MP3樣本、手工篩選的YouTube專業(yè)制作音樂(lè)，合計(jì)1800首。

每首曲目都被標(biāo)注了bench_origin字段，標(biāo)明它是用于訓(xùn)練（train）還是測(cè)試（test）。三個(gè)模型的對(duì)比實(shí)驗(yàn)全部限定在bench_origin=test的部分（共2263首：1388首AI，875首真實(shí)），確保所有模型在測(cè)試時(shí)都是零訓(xùn)練重疊的公平比較。

這個(gè)基準(zhǔn)已經(jīng)以Parquet分片形式公開發(fā)布在HuggingFace平臺(tái)上（huggingface.co/datasets/intrect/artifactbench-v1），包含完整的音頻字節(jié)數(shù)據(jù)，任何研究者都可以用來(lái)復(fù)現(xiàn)結(jié)果。

七、數(shù)字會(huì)說(shuō)話：三個(gè)系統(tǒng)的成績(jī)單對(duì)比

在這個(gè)統(tǒng)一的公平測(cè)試平臺(tái)上，三個(gè)系統(tǒng)的表現(xiàn)差距相當(dāng)懸殊。

ArtifactNet的綜合F1分?jǐn)?shù)達(dá)到了0.9829，精確率0.9905，召回率0.9755，誤報(bào)率僅1.49%，AUC值0.9974。翻譯成直白的語(yǔ)言：在1000首真實(shí)音樂(lè)里，它只會(huì)把大約15首誤判為AI生成；在1000首AI音樂(lè)里，它只會(huì)漏掉大約24首。

CLAM的F1分?jǐn)?shù)是0.7576，精確率0.6674，召回率0.8761，但誤報(bào)率高達(dá)69.3%。它雖然能抓住87.6%的AI音樂(lè)，但代價(jià)是把七成的真實(shí)音樂(lè)都誤認(rèn)為AI，對(duì)MoM數(shù)據(jù)集真實(shí)音樂(lè)子集（也就是CLAM自己訓(xùn)練數(shù)據(jù)的來(lái)源之一）的誤報(bào)率同樣高達(dá)67%——一個(gè)系統(tǒng)連自己熟悉的數(shù)據(jù)上都表現(xiàn)這么差，說(shuō)明它在某些維度上已經(jīng)產(chǎn)生了嚴(yán)重的系統(tǒng)性偏差。

SpecTTTra的情況則正好相反：精確率0.8519還算不錯(cuò)，但召回率只有0.7046，F(xiàn)1為0.7713，誤報(bào)率19.4%。它對(duì)訓(xùn)練分布之外的生成器大量漏判，在MoM的4個(gè)生成器上只有74.5%的檢出率，在AIME的9個(gè)生成器上只有57.7%，在最新的CDN生成器上更是跌到50.4%。

研究者還用一套"28個(gè)子集的通過(guò)/不通過(guò)"的實(shí)際可用性測(cè)試來(lái)量化這種差距。標(biāo)準(zhǔn)是：對(duì)AI子集要達(dá)到90%以上的檢出率（Stable Audio這兩個(gè)較難的子集放寬到60%），對(duì)真實(shí)音樂(lè)子集要把誤報(bào)率控制在5%以內(nèi)。ArtifactNet只在4個(gè)子集上不達(dá)標(biāo)（主要是重度壓縮真實(shí)音樂(lè)），通過(guò)率85.7%。CLAM不通過(guò)15個(gè)子集，通過(guò)率46.4%。SpecTTTra則不通過(guò)23個(gè)子集，通過(guò)率僅17.9%。

ROC曲線分析也印證了這個(gè)差距的穩(wěn)健性：在誤報(bào)率不超過(guò)5%的操作點(diǎn)上，ArtifactNet的檢出率達(dá)到99.1%，而F1分?jǐn)?shù)在0.05到0.9的寬闊閾值范圍內(nèi)都保持在0.98以上，說(shuō)明系統(tǒng)對(duì)閾值選擇不敏感，部署時(shí)無(wú)需精細(xì)調(diào)參。

八、能洗掉這個(gè)痕跡嗎：對(duì)抗性攻擊實(shí)驗(yàn)

研究者也測(cè)試了一種直覺(jué)上很自然的"反偵察"手段：把AI生成的音樂(lè)先用Demucs做一次源分離處理，看看能不能通過(guò)這種方式把RVQ留下的痕跡"洗掉"，騙過(guò)ArtifactNet。

實(shí)驗(yàn)結(jié)果是：?jiǎn)未蜠emucs處理后，F(xiàn)1分?jǐn)?shù)從0.9950下降到了0.9592，檢出率從99%降到了94%。痕跡被削弱了，但沒(méi)有被完全消除——在103維的特征空間里，攻擊后的AI音樂(lè)和真實(shí)音樂(lè)之間的AUC仍然是0.9651，依然有顯著的可分性。研究團(tuán)隊(duì)已經(jīng)把Demucs處理過(guò)的AI音樂(lè)樣本加入到ArtifactNet的訓(xùn)練數(shù)據(jù)中，以提升對(duì)這種攻擊的抵抗力。

這個(gè)結(jié)果揭示了一個(gè)更深層的道理：RVQ的量化信息損失發(fā)生在一個(gè)比單次分離處理更基本的信號(hào)層面，單次處理可以改變痕跡的分布，但無(wú)法還原那些已經(jīng)永久丟失的高頻細(xì)節(jié)信息。

九、這套方法的局限性和未來(lái)的方向

任何系統(tǒng)都不是完美的，研究者對(duì)ArtifactNet的局限性做了坦誠(chéng)的分析。

首先是采樣率要求。ArtifactNet需要44.1kHz的高質(zhì)量音頻輸入，因?yàn)镽VQ的痕跡主要體現(xiàn)在高頻細(xì)節(jié)上，如果輸入的是16kHz等低采樣率音頻，這些高頻信息根本就不存在，法證信號(hào)會(huì)大幅衰減。這對(duì)那些分發(fā)低采樣率音頻的數(shù)據(jù)集來(lái)說(shuō)是一個(gè)實(shí)際限制。

其次是對(duì)重度壓縮真實(shí)音樂(lè)的誤報(bào)。經(jīng)過(guò)編碼感知訓(xùn)練后，F(xiàn)MA檔案（以低比特率可變碼率MP3為主）上的誤報(bào)率從98.7%降到了8%，但還沒(méi)有降到理想水平。研究者預(yù)計(jì)擴(kuò)充編碼增強(qiáng)的訓(xùn)練數(shù)據(jù)后可以進(jìn)一步改善。

再者是對(duì)最新一代Udio的檢出率。當(dāng)前版本對(duì)最新Udio生成音樂(lè)的檢出率只有87%，低于其他生成器。分析發(fā)現(xiàn)，在安靜段落和過(guò)渡段落，Udio生成的諧波-打擊樂(lè)比率趨近于真實(shí)音樂(lè)的模式，導(dǎo)致單段置信度下降。未來(lái)可能需要在CNN輸入層加入更多的統(tǒng)計(jì)特征（比如諧波-打擊樂(lè)比率的分布統(tǒng)計(jì)量）來(lái)改善對(duì)這類音樂(lè)的檢測(cè)。

對(duì)于多次Demucs處理等更復(fù)雜的對(duì)抗攻擊，研究者也承認(rèn)需要進(jìn)一步研究。與此同時(shí)，研究者指出主動(dòng)水印技術(shù)（比如在生成時(shí)就嵌入不可感知的水印）可以作為互補(bǔ)的防御手段，但這需要生成平臺(tái)主動(dòng)配合，對(duì)已經(jīng)發(fā)布的海量音樂(lè)無(wú)能為力。

歸根結(jié)底，ArtifactNet這套研究的意義超出了一個(gè)檢測(cè)系統(tǒng)本身。它提出了一個(gè)更有力的問(wèn)題框架：在AI生成技術(shù)不斷迭代、生成風(fēng)格千變?nèi)f化的時(shí)代，真正可靠的檢測(cè)方法不應(yīng)該去追蹤"這首歌聽起來(lái)像AI生成"，而應(yīng)該去追蹤"這首歌在物理上必然攜帶AI生成的印記"。連續(xù)到離散的量化是不可逆轉(zhuǎn)的信息損失，而這種不可逆性，恰恰是最難被規(guī)避的法證依據(jù)。

用研究者在論文最后一行寫下的話來(lái)結(jié)束這個(gè)故事再合適不過(guò)：Afchar等人曾問(wèn)，AI生成音樂(lè)能否在與內(nèi)容無(wú)關(guān)的情況下被識(shí)別。這項(xiàng)研究的回答是：可以——通過(guò)傾聽那些音樂(lè)無(wú)法包含的東西，而不是它所包含的東西。

Q&A

Q1：ArtifactNet檢測(cè)AI音樂(lè)的原理是什么？

A：ArtifactNet的核心原理是追蹤AI音樂(lè)在生成過(guò)程中必然留下的物理痕跡。所有商業(yè)AI音樂(lè)生成器都要用一種叫"殘差向量量化"的技術(shù)來(lái)壓縮和還原音頻，這個(gè)過(guò)程會(huì)不可逆地?fù)p失高頻細(xì)節(jié)信息。ArtifactNet用一個(gè)經(jīng)過(guò)專門訓(xùn)練的輕量級(jí)神經(jīng)網(wǎng)絡(luò)提取這些痕跡，再分析其中的諧波和打擊樂(lè)成分，從而判斷音頻是否來(lái)自AI生成。

Q2：ArtifactNet能識(shí)別MP3格式的AI音樂(lè)嗎？

A：可以。早期版本曾經(jīng)把MP3格式的真實(shí)音樂(lè)誤判為AI生成，誤報(bào)率高達(dá)98.7%，因?yàn)镸P3自身的壓縮噪聲會(huì)被誤認(rèn)為AI痕跡。研究團(tuán)隊(duì)通過(guò)"編碼感知訓(xùn)練"解決了這個(gè)問(wèn)題，讓系統(tǒng)同時(shí)學(xué)習(xí)WAV、MP3、AAC和Opus四種格式，訓(xùn)練后跨格式的預(yù)測(cè)概率波動(dòng)降低了83%，不同格式下的檢測(cè)結(jié)論基本保持穩(wěn)定。

Q3：ArtifactNet能被AI生成器"繞過(guò)"嗎？

A：目前很難被完全繞過(guò)。有研究者嘗試用音源分離軟件對(duì)AI音樂(lè)進(jìn)行處理后再檢測(cè)，結(jié)果檢出率從99%下降到94%，但沒(méi)有降到不可檢測(cè)的水平。更根本的原因是，殘差向量量化造成的信息損失發(fā)生在極其底層的信號(hào)層面，只要AI音樂(lè)生成器還在使用神經(jīng)音頻編解碼器，這種痕跡就無(wú)法被完全消除。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.