![]()
在生成式 AI 技術(shù)日新月異的背景下,合成語音的逼真度已達(dá)到真假難辨的水平,隨之而來的語音欺詐與信息偽造風(fēng)險(xiǎn)也愈演愈烈。作為應(yīng)對(duì)手段,語音鑒偽技術(shù)已成為信息安全領(lǐng)域的研究重心。
然而,當(dāng)前的語音鑒偽模型正面臨嚴(yán)峻的「泛化性挑戰(zhàn)」:許多在特定實(shí)驗(yàn)室數(shù)據(jù)集上表現(xiàn)優(yōu)秀的模型,在面對(duì)現(xiàn)實(shí)世界中從未見過的生成算法時(shí),檢測(cè)性能往往會(huì)出現(xiàn)劇烈下滑。這種「泛化瓶頸」嚴(yán)重限制了鑒偽技術(shù)在復(fù)雜多變的真實(shí)場(chǎng)景中的應(yīng)用價(jià)值。
針對(duì)這一難題,上海交通大學(xué)聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室和宇生月伴公司(VUI Labs)聯(lián)合發(fā)表了最新研究成果,提出了一種以數(shù)據(jù)為中心的研究范式。該研究深入探究了訓(xùn)練數(shù)據(jù)分布與模型泛化能力之間的底層邏輯,通過系統(tǒng)性的實(shí)證研究與策略優(yōu)化,構(gòu)建了兼具高性能與高泛化性的語音鑒偽大模型。
![]()
- 論文標(biāo)題:A Data-Centric Approach to Generalizable Speech Deepfake Detection
- 論文鏈接:
- https://arxiv.org/pdf/2512.18210
核心視角:
從單一構(gòu)建到多源聚合
不同于以往關(guān)注架構(gòu)創(chuàng)新的路徑,論文從數(shù)據(jù)中心視角切入,將數(shù)據(jù)版圖重構(gòu)為兩個(gè)核心視角:
- 構(gòu)建單一數(shù)據(jù)集:基于不同信源(source)和生成器(generator)生成偽造樣本,構(gòu)建數(shù)據(jù)集。
- 聚合多源數(shù)據(jù)集:匯聚具有不同信源、生成算法及其他聲學(xué)條件的異構(gòu)數(shù)據(jù)池,構(gòu)建多樣化訓(xùn)練數(shù)據(jù)。
![]()
基于上述視角,論文旨在通過系統(tǒng)性的實(shí)證分析探索兩個(gè)核心問題:
- 在單一數(shù)據(jù)集構(gòu)建中,如何在數(shù)據(jù)規(guī)模和多樣性(信源 / 生成器)之間進(jìn)行資源的科學(xué)分配?
- 在聚合多源數(shù)據(jù)集時(shí),如何設(shè)計(jì)高效的混合與采樣策略以實(shí)現(xiàn)最優(yōu)泛化性能?
規(guī)模定律:
多樣性遠(yuǎn)勝數(shù)據(jù)總量
為了揭示資源分配的最優(yōu)原則,論文針對(duì)訓(xùn)練數(shù)據(jù)的組成規(guī)律開展了大規(guī)模實(shí)證分析。通過量化信源多樣性、生成器多樣性與樣本容量之間的復(fù)雜關(guān)系,揭示了語音鑒偽領(lǐng)域內(nèi)在的「規(guī)模定律」。
核心發(fā)現(xiàn):
- 多樣性是泛化的首要?jiǎng)恿Γ?/strong>在資源有限的情況下,提升信源與生成器的多樣性所帶來的性能增益,遠(yuǎn)比單純?cè)黾訑?shù)據(jù)總量更具效率。
- 信源與生成器屬性互補(bǔ):信源多樣性有助于模型構(gòu)建穩(wěn)健的真實(shí)語音分布,而生成器多樣性則顯著強(qiáng)化了模型對(duì)各類偽造特征的識(shí)別。
- 泛化表現(xiàn)具備可預(yù)測(cè)性:泛化誤差隨數(shù)據(jù)多樣性的增加呈現(xiàn)出穩(wěn)定的冪律縮放特性,使泛化能力的提升從隨機(jī)探索走向科學(xué)建模。
![]()
采樣策略:
科學(xué)混合異構(gòu)數(shù)據(jù)池
既然多樣性的價(jià)值遠(yuǎn)勝于純粹的數(shù)據(jù)堆疊,那么如何科學(xué)地混合來自不同源頭的異構(gòu)數(shù)據(jù),就成為了解決泛化難題的第二個(gè)關(guān)鍵問題。基于規(guī)模定律的分析,論文提出了多樣性優(yōu)化采樣策略(Diversity-Optimized Sampling Strategy,DOSS)。該策略的核心在于將復(fù)雜的異構(gòu)數(shù)據(jù)按照信源或生成器劃分為細(xì)粒度的域,并相對(duì)公平地對(duì)待每一種已知的生成模式:
- 細(xì)粒度域定義:將真實(shí)語音按「信源」劃分,將偽造語音按「信源 + 生成器」的組合進(jìn)行索引,從而在更微觀的層面實(shí)施分布控制。
- 多樣性篩選(DOSS-Select):一種基于數(shù)據(jù)剪枝策略,旨在構(gòu)建更平衡且高效的訓(xùn)練子集,剔除邊際收益遞減的冗余樣本以提升訓(xùn)練效率。
- 分布加權(quán)(DOSS-Weight):一種數(shù)據(jù)重加權(quán)策略,在保留全量數(shù)據(jù)的同時(shí),調(diào)整各數(shù)據(jù)域在訓(xùn)練時(shí)的采樣概率,讓模型更均衡地學(xué)習(xí)不同規(guī)模域的特征,避免被海量但單一的數(shù)據(jù)分布所主導(dǎo)。
實(shí)驗(yàn)結(jié)果驗(yàn)證了該策略在處理大規(guī)模異構(gòu)數(shù)據(jù)時(shí)的優(yōu)勢(shì):
- 極高的數(shù)據(jù)效率:采用 DOSS-Select 策略,僅需使用約 3% 的總數(shù)據(jù)量,其泛化性能即可超越樸素聚合全部數(shù)據(jù)的基線水平。
- 顯著的性能提升:采用 DOSS-Weight 策略,實(shí)現(xiàn)了相對(duì)樸素聚合基線約 30% 的大幅度誤差削減。
![]()
實(shí)戰(zhàn)評(píng)估:
學(xué)術(shù)基準(zhǔn)和商業(yè)接口實(shí)測(cè)
為了驗(yàn)證上述策略的穩(wěn)健性與可擴(kuò)展性,論文構(gòu)建了一個(gè)包含 1.2 萬小時(shí)音頻、涵蓋 300+ 個(gè)偽造領(lǐng)域的大規(guī)模異構(gòu)數(shù)據(jù)池。通過應(yīng)用 DOSS 策略進(jìn)行訓(xùn)練,最終得到了高性能高泛化的大模型,并在多個(gè)學(xué)術(shù)基準(zhǔn)和商業(yè)接口上進(jìn)行了實(shí)測(cè),均取得了突破性表現(xiàn):
學(xué)術(shù)基準(zhǔn):刷新跨域性能記錄
在多個(gè)公開測(cè)試集的評(píng)估中,模型平均等錯(cuò)誤率(EER)降至 1.65%,在多個(gè)主流基準(zhǔn)測(cè)試中均刷新了記錄,確立了新的技術(shù)基準(zhǔn)和 SOTA。此外,數(shù)據(jù)與模型效率的表現(xiàn)尤為出色:相較于之前最好的來自日本 NII 的系統(tǒng)——在 7.4 萬小時(shí)數(shù)據(jù)上訓(xùn)練的 2B 規(guī)模模型(平均 EER 3.94%),提出的新方案僅憑約 1/6 的訓(xùn)練數(shù)據(jù)與更精簡的參數(shù)規(guī)模,便實(shí)現(xiàn)了檢測(cè)誤差的倍數(shù)級(jí)削減。即便是在更輕量的 300M 版本下,其性能表現(xiàn)依然穩(wěn)健,證明了科學(xué)的數(shù)據(jù)策略比單純的規(guī)模堆疊更能有效釋放模型的泛化潛力。
![]()
商業(yè)接口:直面現(xiàn)實(shí)安全威脅
針對(duì)從 Google、Microsoft 等主流云服務(wù)到 ElevenLabs、MiniMax 等前沿高擬真引擎的 9 類最新商業(yè)接口進(jìn)行評(píng)估,模型平均檢測(cè)準(zhǔn)確率達(dá)到了 96.01%。即便在面對(duì)目前極具挑戰(zhàn)性的高保真合成引擎 Qwen3 時(shí),模型仍能保持 87.32% 的高準(zhǔn)度識(shí)別。這進(jìn)一步印證了從多樣化訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的表征,能夠有效遷移并泛化至現(xiàn)實(shí)中不斷進(jìn)化的商業(yè)生成方式。
![]()
總結(jié)
不同于以往在模型架構(gòu)與算法優(yōu)化上的迭代,深挖訓(xùn)練數(shù)據(jù)組成的底層邏輯正在成為重塑語音安全防線的關(guān)鍵。本論文通過量化多樣性的規(guī)模效應(yīng)并引入優(yōu)化采樣機(jī)制,成功實(shí)現(xiàn)了對(duì)異構(gòu)數(shù)據(jù)資源的高效調(diào)度與深度挖掘。這種向「數(shù)據(jù)中心」范式的深刻轉(zhuǎn)變,為構(gòu)建高性能、高泛化的語音安全大模型提供了全新的探索思路。
團(tuán)隊(duì)介紹
研究團(tuán)隊(duì)來自于上海交通大學(xué)計(jì)算機(jī)學(xué)院聽覺認(rèn)知與計(jì)算聲學(xué)實(shí)驗(yàn)室(SJTU Auditory Cognition and Computational Acoustics Lab,AudioCC Lab)和宇生月伴公司(VUI Labs),該團(tuán)隊(duì)由語音對(duì)話和聽覺處理領(lǐng)域知名學(xué)者,教育部長江學(xué)者錢彥旻教授領(lǐng)導(dǎo),專注于完整的聽覺人工智能與計(jì)算聲學(xué)領(lǐng)域的前沿研究。
實(shí)驗(yàn)室集結(jié)了一支由青年教師、博士生、碩士生、本科生及專職科研人員等組成的近 40 人科研團(tuán)隊(duì),在語音、音頻、音樂及自然聲信號(hào)處理等領(lǐng)域積累了豐富的技術(shù)經(jīng)驗(yàn)。實(shí)驗(yàn)室依托國家重點(diǎn)項(xiàng)目及企業(yè)合作支持,擁有數(shù)百塊先進(jìn) GPU 計(jì)算資源,致力于解決產(chǎn)業(yè)級(jí)技術(shù)難題。
近年來,團(tuán)隊(duì)在國際頂級(jí)期刊和會(huì)議上發(fā)表了數(shù)百項(xiàng)學(xué)術(shù)成果,并在多項(xiàng)國際評(píng)測(cè)中斬獲冠軍。團(tuán)隊(duì)成員全面發(fā)展,畢業(yè)生均進(jìn)入國內(nèi)外頂級(jí)企業(yè)和研究機(jī)構(gòu),持續(xù)推動(dòng)人工智能技術(shù)的創(chuàng)新與應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.