近日,第十屆語言服務高級論壇暨2025年國家應急語言服務團學術年會在廣州大學(大學城校區(qū))舉行。廣州市社科重點實驗室——粵語語料庫建設與大模型評測重點實驗室(下稱“實驗室”)研發(fā)的AI-DimSum粵語語料庫平臺在大會上正式發(fā)布。
![]()
圖源:AI-DimSum粵語語料庫平臺官網(wǎng)
作為數(shù)字中文的關鍵領域,粵語不僅關涉粵港澳大灣區(qū)的文化共同體認同,更關涉中華文化全球傳播的國際話語權,關涉全球華人與祖國情感的紐帶。粵語作為漢語的一種方言,在海內外有上億用戶,但在網(wǎng)絡世界中卻屬于低資源語言。嶺南文化的傳承要搭上人工智能的快車,就必須要構建“技術為體,文化為本”的通用粵語語料庫。
面向“數(shù)字中文建設”和粵港澳大灣區(qū)文化數(shù)字化需求,AI-DimSum多模態(tài)粵語語料庫平臺建設了語料采集子系統(tǒng)、語料標注子系統(tǒng)、大模型對接子系統(tǒng)、語料確權檢索子系統(tǒng)、語料質量評估子系統(tǒng)、語料管理子系統(tǒng)以及應用商店子系統(tǒng)等七個子系統(tǒng)。通過子系統(tǒng)協(xié)同工作,實現(xiàn)從數(shù)據(jù)采集、清洗、標注、確權、存儲檢索,到模型接入與最終應用發(fā)布的一體化流程,為粵語語料庫的構建、管理、利用與落地應用提供完整、模塊化、可擴展的基礎設施與運行機制。
![]()
圖源:AI-DimSum粵語語料庫平臺官網(wǎng)
AI-DimSum粵語語料庫匯聚處理文本語料超過100萬字,涵蓋新聞、文學、社交媒體等領域;完成3000小時高保真語音標注及1TB以上的音視頻資料,包括大模型訓練專用語料集;功夫熊貓、小豬佩奇、哪吒、大圣歸來、花木蘭等包含粵語字幕與標注的動畫影視作品;外來媳婦本地郎、溏心風暴等包含粵語字幕與標注的影視作品;超過1萬句的多用途粵語生活場景音頻+文字的語料;嶺南文化圖像素材10000張;構建了包含6669條權威詞條、30000條擴展詞條的粵語安全語料庫;粵語大模型內容安全多模態(tài)評測題超過20萬等。
AI-DimSum語料庫平臺是全球首個集文化忠實、安全可信及AI友好于一體的多模態(tài)、大規(guī)模、通用粵語語料庫平臺,其探索出的“技術為體,文化為本”的方言語料庫建設路徑與獨特的“1+1+N”協(xié)同創(chuàng)新機制均為方言文化的數(shù)字化保護與傳承發(fā)展提供了可復制、可推廣的數(shù)字化范式。
從2024年11月14日實驗室正式啟動,到今天粵語語料庫平臺發(fā)布,歷時一年多的時間,通過1+1+N機制集結了暨南大學、華南師范大學、香港科學大學(廣州)、廣東外語外貿(mào)大學、澳門大學、香港語言學學會等粵港澳大灣區(qū)相關研究機構資源,百度科技、趣丸科技、羊城晚報報業(yè)集團等產(chǎn)業(yè)資源,以及通過粵語語料庫開源社區(qū)凝聚的全球開發(fā)者資源,共同協(xié)力打造了AI-DimSum粵語語料庫平臺。下一步,將通過與產(chǎn)業(yè)界的密切合作,不斷豐富語料庫平臺的語料產(chǎn)品,賦能嶺南文化與AI科技的雙向奔赴。
參考來源
廣州社科《重磅上線!Al-DimSum粵語語料庫平臺正式發(fā)布》
https://mp.weixin.qq.com/s/3VQBNjpohVbr4ktshb5JdA?scene=1
圖片來源同上,非商業(yè)用途,若構成侵權,請聯(lián)系我們進行刪除
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.