<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      從開源VibeVoice-ASR看語音模型的設(shè)計、數(shù)據(jù)、幻覺和未來

      0
      分享至

      最近,微軟開源了VibeVoice-ASR,我也第一時間進行了體驗。首先,對微軟團隊開源這個模型表示感謝。盡管在測試過程中發(fā)現(xiàn)了一些問題,但任何開源工作都值得尊重。作為開源工作,我們沒有任何理由要求太多,這些問題也都是可以解決的,況且微調(diào)代碼也即將開源。并且從我粗淺的直覺和簡陋的測試上得出的結(jié)論:如果可以從數(shù)據(jù)覆蓋上進一步優(yōu)化,這個模型應該還是有潛力的。在此,我想基于這個工作,聊一聊VibeVoice-ASR的優(yōu)點與不足,并分享一些對模型設(shè)計和數(shù)據(jù)的思考。

      多任務的模型設(shè)計

      雖然模型命名為VibeVoice-ASR,但它并非單純的語音轉(zhuǎn)文字模型。VibeVoice-ASR集成了說話人日志、時間戳以及部分聲音事件檢測功能。

      這樣的多任務設(shè)計符合大模型時代的技術(shù)趨勢,也契合未來的用戶需求。如今,僅實現(xiàn)語音轉(zhuǎn)錄已遠遠不夠。無論是底層模型還是上層應用,乃至用戶對智能體驗日益提升的期待,都要求我們從語音數(shù)據(jù)中提取更豐富的信息。用戶對產(chǎn)品的追求不再停留在基礎(chǔ)功能,而更多地轉(zhuǎn)向情感價值與類人體驗。


      關(guān)注聲音特性

      先吐個槽,我非常反感各類PR文章的自夸,動輒宣稱“世界第一”。(我能理解,畢竟要給投資人、客戶看,也需要曝光度。)但這種風氣很容易誤導行業(yè)外的人。畢竟,包括我在內(nèi),99%的負責人今天做什么,取決于早上在自媒體上刷到了什么(借用別人的段子)。

      我認為,聲音在機器理解用戶方面的價值被嚴重低估了。理解聲音,是通往“世界模型”、理解世界不可或缺的一環(huán)。

      遺憾的是,目前除了Gemini,我還沒看到能與之比肩的系統(tǒng)。我也認為這是谷歌布局未來重要的一步。(不得不提一句,至于那些號稱超越的,或許在某些測試集和指標上能實現(xiàn)超越,這一點我并不否認。)

      VibeVoice-ASR模型其實讓我有所期待。至少,它是開源模型中明確對聲紋進行建模的,并且在我真實測試集(家庭錄音,包括男性、女性、兒童)中,在區(qū)分度較大的場景下是可用的。

      • “建模聲紋很難嗎?”“是的?!?/p>

      • “聲紋識別現(xiàn)在做得很好了嗎?”“并沒有?!?/p>

      聲紋作為聲音的底層屬性,與語音語義有很大不同。識別一個人的聲紋,對人類來說也并非易事。我們覺得容易,大多是因為我們接觸的聲紋往往是“已注冊”的。從模型實現(xiàn)來看,聲紋的做法看似簡單,但實際效果并不理想,原因有多方面:

      極易受環(huán)境干擾

      與ASR相比,聲紋更易受聲學環(huán)境干擾。訓練數(shù)據(jù)的覆蓋范圍、環(huán)境噪聲、信道差異,以及注冊與使用條件的不一致,都會影響最終效果。

      聲紋具有時變性

      聲紋會隨時間發(fā)生漂移,比如兒童的聲音變化最快,不同兒童之間的聲音區(qū)分也很困難,成人的聲音也會因狀態(tài)(如感冒、情緒)而改變。

      聲紋數(shù)據(jù)自動標注困難

      從數(shù)據(jù)標注角度看,由于歷史上聲紋模型效果一般,再加上上述難點,導致自動化標注很難做到準確。

      幻覺問題較為突出

      在體驗VibeVoice-ASR模型的過程中,我發(fā)現(xiàn)最明顯的問題是幻覺。測試中,我注意到一個特別的現(xiàn)象:

      數(shù)據(jù)中孩子的哭聲極容易觸發(fā)模型的幻覺。

      最初我以為是數(shù)據(jù)過長(約30分鐘)導致的,于是特意將哭聲部分單獨截取出來測試,但幻覺依然出現(xiàn),比如下面的例子:


      哭聲語譜圖


      哭聲幻覺識別結(jié)果

      另外一條數(shù)據(jù),中間在含糊不清的地方發(fā)生幻覺:


      這背后最主要的原因,應該還是接下來要談的數(shù)據(jù)覆蓋問題。

      長度真的那么重要嗎?

      對于文本大模型,長度等于上下文,上下文窗口的確很重要。但對于語音模型,特別是偏重轉(zhuǎn)錄的模型,在當前階段,長度是否真的如此關(guān)鍵,我持保留態(tài)度。

      VibeVoice-ASR提出的理由是:


      首先,關(guān)于上下文斷裂問題——純音頻的上下文真能解決這個問題嗎?或許能部分緩解,但對多數(shù)場景來說,可能并非至關(guān)重要。文本層面的上下文或許已足以提升準確率。

      其次,工程復雜度方面,文中提到的說話人日志優(yōu)勢我很認同,但這個和長度其實關(guān)系不是特別大,我認為更多的優(yōu)勢來自于識別+說話人的聯(lián)合建模。短句說話人日志的確很困難,但幾分鐘的數(shù)據(jù)進行說話人相關(guān)的工作也沒有太大問題。如果可以把效果做好,后續(xù)通過一個混淆矩陣進行相同說話人的聚類。如果長語音識別確實可以做的好,那么降低系統(tǒng)復雜度的優(yōu)勢肯定是有的。

      綜上所述,在當前條件尚不成熟的情況下,過度強調(diào)長度或許并不是最優(yōu)先的。相比長度,我們更應關(guān)注模型的穩(wěn)定性與準確性。當然,如果能處理更長的音頻,那自然是更好的。

      “垃圾”數(shù)據(jù)也有價值

      從我測試中遇到的幻覺問題,結(jié)合當前主流數(shù)據(jù)清洗流程的做法,會發(fā)現(xiàn)一個現(xiàn)象:

      人們常用多個模型交叉驗證,篩選出“有用且正確”的數(shù)據(jù)。

      什么是“有用且正確”的數(shù)據(jù)?如果一條數(shù)據(jù)包含文字,且多個模型識別結(jié)果一致,就被認為是有價值且標注正確的。那么,那些被過濾掉的數(shù)據(jù),其價值又該如何看待?

      事實上,它們的價值在今天更應被重視。原因如下:

      幸存者偏差

      這種方式篩選出的數(shù)據(jù),都是以往模型基礎(chǔ)上的“幸存者”,數(shù)據(jù)質(zhì)量雖高,但對模型來說難度較低。換句話說,大量這類數(shù)據(jù)對模型能力的提升并無太大增益。如果模型只用這類數(shù)據(jù)訓練,那么無論輸入什么,哪怕是人耳都難以聽清的語音,模型都可能用最大似然的方式“猜”一個最可能的結(jié)果,而不是“承認困難”。一個懂得“示弱”的模型,或許也有其價值。

      垃圾”數(shù)據(jù)的價值

      所謂“垃圾數(shù)據(jù)”,正是那些被自動標注流程過濾掉的數(shù)據(jù),它們的價值應當被重新審視。比如我測試數(shù)據(jù)中的哭聲片段,很可能會被清洗流程過濾掉。再加上這類聲音重復性強,更容易導致模型產(chǎn)生幻覺。

      在強化學習中,也應該加強對“壞”數(shù)據(jù)如何給予正確反饋的機制。

      總結(jié)

      非常高興看到越來越多的開源工作,推動模型能力逐步提升。同時我們也應認識到,語音遠非一個已被徹底解決的問題。無論是真實場景的數(shù)據(jù)表現(xiàn),還是實際落地應用,都還有很長的路要走。隨著AI技術(shù)的進步,市場對更優(yōu)秀的語音交互、合成與理解的需求顯著增加。真心希望有實力的公司能堅持投入,去做那些困難卻正確的事。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      逼到凱塞多都被迫失誤!曼城3-0切爾西很輕松,壓力給到阿森納

      逼到凱塞多都被迫失誤!曼城3-0切爾西很輕松,壓力給到阿森納

      里芃芃體育
      2026-04-13 07:53:53
      央行原統(tǒng)計司長盛松成:面對預期下行,做好資產(chǎn)價格大幅下降準備

      央行原統(tǒng)計司長盛松成:面對預期下行,做好資產(chǎn)價格大幅下降準備

      專業(yè)聊房君
      2026-04-10 16:41:31
      弱者著相,強者破相,智者無相(深度好文)

      弱者著相,強者破相,智者無相(深度好文)

      洞見
      2026-04-12 15:24:55
      5月1日起施行,貪污賄賂量刑新規(guī)出臺,判刑標準有新調(diào)整

      5月1日起施行,貪污賄賂量刑新規(guī)出臺,判刑標準有新調(diào)整

      李博世財經(jīng)
      2026-04-12 11:52:03
      27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

      27歲單親媽媽開直播,播著播著睡著了,醒來一看后臺直接傻眼了

      小椰的奶奶
      2026-04-01 17:04:55
      李想在朋友圈飆臟話!疑似炮轟東風日產(chǎn)

      李想在朋友圈飆臟話!疑似炮轟東風日產(chǎn)

      鞭牛士
      2026-04-11 16:34:04
      提到本山大叔家的公子趙大牛,他的座駕在沈陽街頭可算相當拉風。

      提到本山大叔家的公子趙大牛,他的座駕在沈陽街頭可算相當拉風。

      情感大頭說說
      2026-04-12 05:21:17
      安洗瑩達成個人單項全滿貫,成為歷史第七人

      安洗瑩達成個人單項全滿貫,成為歷史第七人

      懂球帝
      2026-04-12 17:18:06
      天吶,看到林鳳嬌和林青霞1976年的合影,才懂成龍為啥說驚為天人

      天吶,看到林鳳嬌和林青霞1976年的合影,才懂成龍為啥說驚為天人

      鄉(xiāng)野小珥
      2026-04-11 17:37:37
      伊朗戰(zhàn)爭徹底打醒巴基斯坦:反對黨公開支持政府,中巴合作穩(wěn)了

      伊朗戰(zhàn)爭徹底打醒巴基斯坦:反對黨公開支持政府,中巴合作穩(wěn)了

      林子說事
      2026-04-12 13:06:41
      落魄鳳凰不如雞! 離開黃曉明四年后,楊穎終究還是走上了怪圈老路

      落魄鳳凰不如雞! 離開黃曉明四年后,楊穎終究還是走上了怪圈老路

      LULU生活家
      2026-04-11 18:00:05
      缺兵少將廣東憑啥還能掀翻廣廈!數(shù)據(jù)一目了然,最大功臣是這4人

      缺兵少將廣東憑啥還能掀翻廣廈!數(shù)據(jù)一目了然,最大功臣是這4人

      后仰大風車
      2026-04-12 21:41:54
      羅梅羅被換下時難掩情緒落淚,距離世界杯還有兩個月

      羅梅羅被換下時難掩情緒落淚,距離世界杯還有兩個月

      懂球帝
      2026-04-12 23:09:00
      特朗普在匈牙利選戰(zhàn)最后時刻力挺歐爾班

      特朗普在匈牙利選戰(zhàn)最后時刻力挺歐爾班

      參考消息
      2026-04-11 19:52:15
      從百萬到十億,文班的錢包和球技一樣在狂飆

      從百萬到十億,文班的錢包和球技一樣在狂飆

      茅塞盾開本尊
      2026-04-12 17:43:48
      深夜,全線跳水,超11萬人爆倉!

      深夜,全線跳水,超11萬人爆倉!

      每日經(jīng)濟新聞
      2026-04-12 22:47:09
      根據(jù)潘石屹預測的未來房價:150萬房子,到了2030年還能值多少錢

      根據(jù)潘石屹預測的未來房價:150萬房子,到了2030年還能值多少錢

      愛看劇的阿峰
      2026-04-11 21:30:58
      巴大批戰(zhàn)機抵達沙特,阿聯(lián)酋王儲坐不住了,火速訪華尋“定心丸”

      巴大批戰(zhàn)機抵達沙特,阿聯(lián)酋王儲坐不住了,火速訪華尋“定心丸”

      民間胡扯老哥
      2026-04-13 01:55:15
      女子去旅游被宰35萬買手鐲,3年后重游時,老板看到手鐲癱倒在地

      女子去旅游被宰35萬買手鐲,3年后重游時,老板看到手鐲癱倒在地

      背包旅行
      2026-04-12 15:02:45
      光纖暴漲650%!真正賺錢的不是光纖,是它的“原材料”

      光纖暴漲650%!真正賺錢的不是光纖,是它的“原材料”

      風風順
      2026-04-13 04:10:03
      2026-04-13 08:07:00
      開源中國 incentive-icons
      開源中國
      每天為開發(fā)者推送最新技術(shù)資訊
      7679文章數(shù) 34533關(guān)注度
      往期回顧 全部

      科技要聞

      4000億智譜,想變得更貴

      頭條要聞

      大伯為35歲女兒周末連跑3處相親角:女兒平時工作太忙

      頭條要聞

      大伯為35歲女兒周末連跑3處相親角:女兒平時工作太忙

      體育要聞

      創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

      娛樂要聞

      賭王女兒何超蕸病逝,常年和乳癌斗爭

      財經(jīng)要聞

      美伊談判破裂的三大癥結(jié)

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態(tài)度原創(chuàng)

      游戲
      本地
      健康
      數(shù)碼
      旅游

      性感妹子也救不了!《上古世紀》廠商新游,一個月不到就宣告停運

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      干細胞抗衰4大誤區(qū),90%的人都中招

      數(shù)碼要聞

      PocketTerm35掌上電腦現(xiàn)身,內(nèi)置樹莓派4/5

      旅游要聞

      順德莫氏雞煲爆火之后,鄉(xiāng)村文旅還有哪些玩法?

      無障礙瀏覽 進入關(guān)懷版