![]()
智東西
作者 王涵
編輯 心緣
智東西4月20日?qǐng)?bào)道,剛剛,阿里發(fā)布語音識(shí)別大模型Fun-ASR1.5,該模型是千問端到端語音識(shí)別大模型的新一代版本。
該模型可以識(shí)別30種語言,覆蓋中文七大方言體系及20余種地方口音,并強(qiáng)化了古詩詞誦讀的專項(xiàng)識(shí)別。Fun-ASR1.5可以分辨出語音中的抑揚(yáng)頓挫,重點(diǎn)優(yōu)化了標(biāo)點(diǎn)預(yù)測和文本歸一化能力,可以應(yīng)用于會(huì)議紀(jì)要、新聞采訪整理、法律筆錄等場景。
技術(shù)團(tuán)隊(duì)介紹稱,與Seed-ASR和Tencent-ASR模型相比,F(xiàn)un-ASR1.5在西班牙語、葡萄牙語和英語方面的識(shí)別準(zhǔn)確率成績較為突出,均在96分以上。
![]()
▲Fun-ASR1.5在開源多語言測試集中獲得多項(xiàng)SOTA
中文方言方面,F(xiàn)un-ASR1.5則在四川話、閩南話、長沙話、蘇州話等13種方言識(shí)別準(zhǔn)確率上,超越Seed-ASR和Tencent-ASR模型。
![]()
▲Fun-ASR1.5在工業(yè)方言測試集中獲得多項(xiàng)SOTA
智東西第一時(shí)間體驗(yàn)了其音頻轉(zhuǎn)寫功能。我們上傳了一段三星CES 2026“First Look”演講的錄音音頻。在原音頻中,背景環(huán)境聲音嘈雜,演講人使用英語演講但帶有韓語口音,且錄制聲音較小。
Fun-ASR1.5不僅將演講內(nèi)容準(zhǔn)確完整地轉(zhuǎn)寫了出來,還根據(jù)演講人的語氣和內(nèi)容,對(duì)相關(guān)語句進(jìn)行了大寫強(qiáng)調(diào)處理,提高了會(huì)議轉(zhuǎn)寫的效率。
![]()
▲智東西實(shí)測體驗(yàn)音頻轉(zhuǎn)寫
目前用戶可以在魔搭社區(qū)體驗(yàn)該模型,開發(fā)者可以通過阿里云百煉平臺(tái)調(diào)用API。
體驗(yàn)地址:
https://modelscope.cn/studios/iic/FunAudio-ASR
API調(diào)用地址:
https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr
一、能識(shí)別30種語言,跨語言切換無需預(yù)設(shè)
Fun-ASR1.5可精準(zhǔn)識(shí)別歐洲、東亞、東南亞、南亞及中東主流語種,覆蓋中、英、日、韓、法、德、西、葡、俄、阿拉伯語等30種語言。
![]()
韓語:
https://oss.zhidx.com/0c1334bb064e4804fac98804e8864afd/69e4fc00/uploads/2026/04/69e60878d3303_69e60878cff43_69e60878cff14_%E9%9F%A9%E8%AF%AD.mp3
▲ASR結(jié)果:?? ? ??? ?? ? ?? ????, ?? ??? ??? ??? ??? ?? ?? ????.
馬來語:
https://oss.zhidx.com/df84f9c8e5b0a14b2d1ad18b2da036b5/69e4fc00/uploads/2026/04/69e6087aa2a56_69e6087a9effe_69e6087a9efbe_%E9%A9%AC%E6%9D%A5%E8%AF%AD.mp3
▲ASR結(jié)果:Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.
西班牙語:
https://oss.zhidx.com/4ec3a38deaef8d34abd6e48199584b27/69e4fc00/uploads/2026/04/69e60884522aa_69e608844f3b1_69e608844f384_%E8%A5%BF%E7%8F%AD%E7%89%99%E8%AF%AD.mp3
▲ASR結(jié)果:La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.
在跨語言切換(Code-Switching)場景下,F(xiàn)un-ASR1.5可以做到無需預(yù)設(shè)語種標(biāo)簽,就自動(dòng)識(shí)別并切換,保證轉(zhuǎn)寫的準(zhǔn)確性。比如,同一段對(duì)話里夾雜多種語言,模型也能準(zhǔn)確識(shí)別,無需提前告訴它接下來要說哪種語言。
英語日語切換:
https://oss.zhidx.com/02e1ae3cb2276d7e9741c3c7ad9dd267/69e4fc00/uploads/2026/04/69e6088478b93_69e60884757af_69e6088475780_%E8%8B%B1%E8%AF%AD%E6%97%A5%E8%AF%AD%E5%88%87%E6%8D%A2.mp3
▲ASR結(jié)果:We’ve all had that experience of finally visiting a place we’ve dreamed about for years,only to find that it doesn’t quite live up to our expectations.There’s even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。
技術(shù)團(tuán)隊(duì)介紹稱,這種多語言能力,源于模型的架構(gòu)和訓(xùn)練創(chuàng)新。Fun-ASR1.5采取MoE(混合專家)架構(gòu),模型內(nèi)部可以分工協(xié)作,聽到特定語言時(shí)僅激活相關(guān)部分進(jìn)行處理,因而更為靈活高效。
同時(shí),技術(shù)團(tuán)隊(duì)在模型的訓(xùn)練階段分級(jí)、分階段地使用精準(zhǔn)數(shù)據(jù),也可以使模型更能適配真實(shí)世界中的復(fù)雜語音場景。
二、錯(cuò)字率下降56.2%,古詩詞準(zhǔn)確率達(dá)97%
在中文本土化方面,基于數(shù)十萬小時(shí)真實(shí)方言語音數(shù)據(jù)訓(xùn)練,技術(shù)團(tuán)隊(duì)稱,F(xiàn)un-ASR1.5的平均字錯(cuò)誤率(CER)相比上一版本下降56.2%。
![]()
上海話:
https://oss.zhidx.com/4d98af0e967bd26bf6003b68544ccbe8/69e4fc00/uploads/2026/04/69e6087b09883_69e6087b06100_69e6087b060d2_%E4%B8%8A%E6%B5%B7%E8%AF%9D.mp3
▲ASR結(jié)果:現(xiàn)在發(fā)展了蠻快個(gè)現(xiàn)在伊拉用戶算大戶唻。
客家話:
https://oss.zhidx.com/bb79e377f42d86250ca3f0475a018be8/69e4fc00/uploads/2026/04/69e60879186b9_69e6087914434_69e60879143ff_%E5%AE%A2%E5%AE%B6%E8%AF%9D.mp3
ASR結(jié)果:呃,那些吃的不就這樣的土筍凍啊,我覺得不好吃。
閩南話:
https://oss.zhidx.com/204cdf65dd037809c3f95eb5636ea49c/69e4fc00/uploads/2026/04/69e6087ad2b6b_69e6087acf672_69e6087acf636_%E9%97%BD%E5%8D%97%E8%AF%9D.mp3
▲ASR識(shí)別結(jié)果:但是一個(gè)人若是兩三兩百箍一百外箍安無算貴吧,吼自助餐啊,啊你也有肉咯也有菜咯也有水果咯也有甜點(diǎn)咯,啥物計(jì)有咯。
粵語:
https://oss.zhidx.com/0e662ae422f6836cfa6309c2abcaf4a4/69e4fc00/uploads/2026/04/69e60884aeeea_69e60884a5c5e_69e60884a5c24_%E7%B2%A4%E8%AF%AD.mp3
▲ASR結(jié)果:誒,其實(shí)可能有時(shí)候覺得去超市都幾遠(yuǎn)下噶。
此外,該模型不僅聽得懂,還能“寫得地道”,F(xiàn)un-ASR1.5可原汁原味還原方言,如上海話的“儂”、蘇州話“倷”(均指“你”),為下游模型處理方言文字提供了準(zhǔn)確的基礎(chǔ)語料。
不同于現(xiàn)代口語,文言語法特殊、典故生僻字繁多,具有不少挑戰(zhàn)。例如,文言語法簡練,省略主謂賓;押韻嚴(yán)格,節(jié)奏固定(如五言、七言律詩);多用典故、異體字、古今異義詞;誦讀時(shí)存在拖腔、停頓、吟詠等非自然語流特征。
Fun-ASR1.5對(duì)中文古詩詞識(shí)別進(jìn)行專項(xiàng)優(yōu)化。研究團(tuán)隊(duì)構(gòu)建了先秦至近代的古詩詞語音-文本對(duì)齊語料庫,涵蓋《詩經(jīng)》《楚辭》、李白杜甫詩集、蘇軾辛棄疾詞作等經(jīng)典文本的真人誦讀錄音。
在內(nèi)部評(píng)測集中,F(xiàn)un-ASR1.5對(duì)古詩詞的字符級(jí)準(zhǔn)確率達(dá)到97%,可應(yīng)用于國學(xué)在線課程和有聲詩詞,助力文化傳承。
https://oss.zhidx.com/b0578e51ee3b8b5f98603c402f87b730/69e4fc00/uploads/2026/04/69e6087879bee_69e608787658a_69e6087876557_%E5%8F%A4%E8%AF%97%E8%AF%8D1.mp3
▲ASR結(jié)果:蓬山此去無多路,青鳥殷勤為探看。
https://oss.zhidx.com/691a0349d3fdd374a0eebc4a2233d31f/69e4fc00/uploads/2026/04/69e60878ae3f2_69e60878aac04_69e60878aabd4_%E5%8F%A4%E8%AF%97%E8%AF%8D2.mp3
▲ASR結(jié)果:子夏曰,博學(xué)而篤志,切問而近思,仁在其中矣。
三、能自動(dòng)插入標(biāo)點(diǎn)符號(hào),口語表達(dá)一鍵規(guī)范
語音識(shí)別最終都要落腳于生成可直接使用的文本,F(xiàn)un-ASR1.5在后處理環(huán)節(jié)也重點(diǎn)優(yōu)化了標(biāo)點(diǎn)預(yù)測和文本歸一化兩項(xiàng)能力,大幅降低了會(huì)議紀(jì)要、新聞采訪整理、法律筆錄等場景的后期人工校對(duì)和編輯成本,具體如下:
1、標(biāo)點(diǎn)預(yù)測:更加智能模型基于上下文語義自動(dòng)插入逗號(hào)、句號(hào)、問號(hào)、感嘆號(hào)等標(biāo)點(diǎn),使轉(zhuǎn)寫結(jié)果接近書面表達(dá)。例如:
輸入語音:“今天天氣怎么樣啊我想出去走走但又怕下雨”輸出文本:“今天天氣怎么樣啊?我想出去走走,但又怕下雨。”
2、文本歸一化(ITN)表現(xiàn):進(jìn)一步提升將口語中的非標(biāo)準(zhǔn)表達(dá)自動(dòng)轉(zhuǎn)換為規(guī)范格式:
數(shù)字:“三千五百六十二” → “3562”
日期:“二零二六年三月二十九號(hào)” → “2026年3月29日”
金額:“五萬八千塊” → “58000元”
電話:“幺三八零零幺三八零零零” → “13800138000”
結(jié)語:AI語音模型正穩(wěn)步落地應(yīng)用
會(huì)議紀(jì)要、法律筆錄等場景,長期處于“半自動(dòng)”應(yīng)用狀態(tài),核心痛點(diǎn)是AI識(shí)別結(jié)果需人工進(jìn)行大量校對(duì),不僅未能有效提升工作效率,還影響了實(shí)際工作推進(jìn)。
阿里Fun-ASR1.5針對(duì)這一痛點(diǎn)進(jìn)行定向優(yōu)化,補(bǔ)齊了傳統(tǒng)語音識(shí)別的部分短板,也降低了各行業(yè)引入AI語音技術(shù)的門檻。
目前,科大訊飛、百度、字節(jié)等企業(yè)的語音模型均在持續(xù)迭代,AI語音大模型正從技術(shù)研發(fā)逐步向?qū)嶋H應(yīng)用推進(jìn),語音識(shí)別作為AI與人交互的重要入口,其實(shí)用性直接關(guān)系到行業(yè)落地的實(shí)際效果。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.