近日,第十屆語言服務(wù)高級(jí)論壇暨2025年國家應(yīng)急語言服務(wù)團(tuán)學(xué)術(shù)年會(huì)在廣州大學(xué)(大學(xué)城校區(qū))舉行。廣州市社科重點(diǎn)實(shí)驗(yàn)室——粵語語料庫建設(shè)與大模型評(píng)測重點(diǎn)實(shí)驗(yàn)室(下稱“實(shí)驗(yàn)室”)研發(fā)的AI-DimSum粵語語料庫平臺(tái)在大會(huì)上正式發(fā)布。
![]()
圖源:AI-DimSum粵語語料庫平臺(tái)官網(wǎng)
作為數(shù)字中文的關(guān)鍵領(lǐng)域,粵語不僅關(guān)涉粵港澳大灣區(qū)的文化共同體認(rèn)同,更關(guān)涉中華文化全球傳播的國際話語權(quán),關(guān)涉全球華人與祖國情感的紐帶。粵語作為漢語的一種方言,在海內(nèi)外有上億用戶,但在網(wǎng)絡(luò)世界中卻屬于低資源語言。嶺南文化的傳承要搭上人工智能的快車,就必須要構(gòu)建“技術(shù)為體,文化為本”的通用粵語語料庫。
面向“數(shù)字中文建設(shè)”和粵港澳大灣區(qū)文化數(shù)字化需求,AI-DimSum多模態(tài)粵語語料庫平臺(tái)建設(shè)了語料采集子系統(tǒng)、語料標(biāo)注子系統(tǒng)、大模型對(duì)接子系統(tǒng)、語料確權(quán)檢索子系統(tǒng)、語料質(zhì)量評(píng)估子系統(tǒng)、語料管理子系統(tǒng)以及應(yīng)用商店子系統(tǒng)等七個(gè)子系統(tǒng)。通過子系統(tǒng)協(xié)同工作,實(shí)現(xiàn)從數(shù)據(jù)采集、清洗、標(biāo)注、確權(quán)、存儲(chǔ)檢索,到模型接入與最終應(yīng)用發(fā)布的一體化流程,為粵語語料庫的構(gòu)建、管理、利用與落地應(yīng)用提供完整、模塊化、可擴(kuò)展的基礎(chǔ)設(shè)施與運(yùn)行機(jī)制。
![]()
圖源:AI-DimSum粵語語料庫平臺(tái)官網(wǎng)
AI-DimSum粵語語料庫匯聚處理文本語料超過100萬字,涵蓋新聞、文學(xué)、社交媒體等領(lǐng)域;完成3000小時(shí)高保真語音標(biāo)注及1TB以上的音視頻資料,包括大模型訓(xùn)練專用語料集;功夫熊貓、小豬佩奇、哪吒、大圣歸來、花木蘭等包含粵語字幕與標(biāo)注的動(dòng)畫影視作品;外來媳婦本地郎、溏心風(fēng)暴等包含粵語字幕與標(biāo)注的影視作品;超過1萬句的多用途粵語生活場景音頻+文字的語料;嶺南文化圖像素材10000張;構(gòu)建了包含6669條權(quán)威詞條、30000條擴(kuò)展詞條的粵語安全語料庫;粵語大模型內(nèi)容安全多模態(tài)評(píng)測題超過20萬等。
AI-DimSum語料庫平臺(tái)是全球首個(gè)集文化忠實(shí)、安全可信及AI友好于一體的多模態(tài)、大規(guī)模、通用粵語語料庫平臺(tái),其探索出的“技術(shù)為體,文化為本”的方言語料庫建設(shè)路徑與獨(dú)特的“1+1+N”協(xié)同創(chuàng)新機(jī)制均為方言文化的數(shù)字化保護(hù)與傳承發(fā)展提供了可復(fù)制、可推廣的數(shù)字化范式。
從2024年11月14日實(shí)驗(yàn)室正式啟動(dòng),到今天粵語語料庫平臺(tái)發(fā)布,歷時(shí)一年多的時(shí)間,通過1+1+N機(jī)制集結(jié)了暨南大學(xué)、華南師范大學(xué)、香港科學(xué)大學(xué)(廣州)、廣東外語外貿(mào)大學(xué)、澳門大學(xué)、香港語言學(xué)學(xué)會(huì)等粵港澳大灣區(qū)相關(guān)研究機(jī)構(gòu)資源,百度科技、趣丸科技、羊城晚報(bào)報(bào)業(yè)集團(tuán)等產(chǎn)業(yè)資源,以及通過粵語語料庫開源社區(qū)凝聚的全球開發(fā)者資源,共同協(xié)力打造了AI-DimSum粵語語料庫平臺(tái)。下一步,將通過與產(chǎn)業(yè)界的密切合作,不斷豐富語料庫平臺(tái)的語料產(chǎn)品,賦能嶺南文化與AI科技的雙向奔赴。
參考來源
廣州社科《重磅上線!Al-DimSum粵語語料庫平臺(tái)正式發(fā)布》
https://mp.weixin.qq.com/s/3VQBNjpohVbr4ktshb5JdA?scene=1
圖片來源同上,非商業(yè)用途,若構(gòu)成侵權(quán),請聯(lián)系我們進(jìn)行刪除
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.