近日,教育部語言文字信息管理司“國家語言資源監(jiān)測與研究中心”發(fā)布2025年度中國語言文字信息化十大新聞。
由廣州市社科聯(lián)與廣州大學聯(lián)合建設(shè)的粵語語料庫建設(shè)與大模型評測重點實驗室原創(chuàng)應用成果AI-DimSum多模態(tài)通用粵語語料庫平臺以第四序列入選,成為國家數(shù)字中文建設(shè)的關(guān)鍵領(lǐng)域標桿。
![]()
圖源AI-DimSum官網(wǎng)
國家戰(zhàn)略牽引:實驗室應運而生
2024年11月14日,廣州社科重點實驗室——“粵語語料庫建設(shè)與大模型評測重點實驗室”正式成立。該實驗室旨在通過“粵語+人工智能”文化科技融合創(chuàng)新,推動嶺南文化傳承、傳播和創(chuàng)新發(fā)展。
針對粵語的人工智能友好型語料庫建設(shè)的現(xiàn)實問題,粵語語料庫建設(shè)與大模型評測重點實驗室牽頭,開發(fā)了以“文化忠實、安全可信、AI友好、持續(xù)成長”為特色的AI-DimSum通用粵語語料庫。
該語料庫提供的不只是單純的“語料收集”或“語言檔案保存”,而是一整套“從語料獲取到AI應用落地”的閉環(huán)服務,是服務多種需求,特別是面向人工智能應用的新型方言語料庫。
創(chuàng)新技術(shù)架構(gòu):
七大子系統(tǒng)實現(xiàn)全流程閉環(huán)
AI-DimSum粵語語料庫平臺首創(chuàng)語料采集、標注、大模型對接、確權(quán)檢索、質(zhì)量評估、管理、應用商店七大子系統(tǒng),實現(xiàn)從數(shù)據(jù)采集、清洗、標注到應用發(fā)布的一體化流程。
![]()
來源:南方+
核心創(chuàng)新包括:
“1+1+N”協(xié)同機制:以廣州市社科聯(lián)與廣州大學為雙核心(兩個“1”),聯(lián)動其他高校、企業(yè)、開源社區(qū)等N方資源,構(gòu)建共建共享生態(tài);
SaaS服務模式:通過模塊化設(shè)計支持教育、文化、產(chǎn)業(yè)等多場景快速落地;
![]()
來源:南方+
文化忠實與安全可信:融合嶺南文化精神標識體系與價值對齊規(guī)則,確保語料庫兼具文化內(nèi)涵與安全性。
![]()
來源:南方+
豐碩成果:
政策肯定與資源規(guī)模雙突破
2025年3月,教育部召開新聞發(fā)布會,介紹深入貫徹落實《教育強國建設(shè)規(guī)劃綱要(2024—2035年)》、推進語言文字信息化發(fā)展情況。發(fā)布會上,廣東省教育廳副廳長朱建華介紹了廣東省以數(shù)字化注入新動力全面賦能強省建設(shè)的舉措和成效,重點推介了AI-DimSum粵語語料庫。
2025年6月,實驗室團隊提交的《粵語語料庫建設(shè)建設(shè)現(xiàn)狀及通用型粵語語料庫建設(shè)建議》獲國家語委肯定性批示,稱“此舉事關(guān)重大,是數(shù)字中文建設(shè)的核心重要‘關(guān)鍵領(lǐng)域’,指導支持中心以標準規(guī)范為引領(lǐng),以價值對齊為導向,以規(guī)范安全為底線,以共建共享為機制,深化該項語料庫建設(shè),夯實‘新基建’,服務人工智能大語言模型應用‘制高點’”。
自發(fā)布以來,平臺已匯聚超100萬字文本、3000小時高保真語音、1TB音視頻、1萬張嶺南文化圖像,構(gòu)建了包含6669條權(quán)威詞條、30000條擴展詞條的粵語安全語料庫等,規(guī)模居全球粵語語料庫前列。
![]()
圖源AI-DimSum官網(wǎng)
2025年12月18日,在中國數(shù)字文娛大會“新技術(shù)—智慧文娛解鎖消費密碼”分論壇上,實驗室發(fā)布了6個支持人工智能應用的嶺南文化數(shù)據(jù)集。其中5個為自主研發(fā)的數(shù)據(jù)集,包括嶺南建筑圖像標注數(shù)據(jù)集、粵語內(nèi)容安全檢測關(guān)鍵詞庫數(shù)據(jù)集、粵鑒—粵語大模型安全評測數(shù)據(jù)集、面向影視劇AI配音的細粒度標注粵語語料數(shù)據(jù)集、面向大模型訓練的粵語大模型語料數(shù)據(jù)集,另外1個是與羊城晚報嶺南文化大模型團隊聯(lián)合研制的粵語文化思維鏈語料數(shù)據(jù)集。
嶺南建筑圖像標注數(shù)據(jù)集對碉樓、騎樓、祠堂等嶺南典型建筑的外觀特征進行標注,涵蓋建筑類型、構(gòu)件、裝飾工藝、材質(zhì)、顏色等多維度信息,構(gòu)建了面向嶺南建筑文化的多模態(tài)基礎(chǔ)資源,為數(shù)字化保護與文化大模型應用提供數(shù)據(jù)支撐,對于活化和傳承嶺南文化具有重要意義。
粵語內(nèi)容安全檢測關(guān)鍵詞庫數(shù)據(jù)集圍繞粵語整合多源語料,針對三大核心領(lǐng)域(涉政違法、侮辱歧視、嶺南文化禁忌),采用“分級+標簽”的動態(tài)詞庫管理方式,構(gòu)建了粵語內(nèi)容安全檢測關(guān)鍵詞庫數(shù)據(jù)集,旨在填補大模型對粵語內(nèi)容安全檢測缺乏關(guān)鍵詞庫的缺口,保障大模型粵語內(nèi)容安全與粵語網(wǎng)絡(luò)內(nèi)容安全治理。
粵鑒—粵語大模型安全評測數(shù)據(jù)集是面向粵語內(nèi)容安全的高質(zhì)量多模態(tài)評測數(shù)據(jù)集,規(guī)模約20萬條(含10萬文本、10萬音頻、3000圖片),依據(jù)《生成式人工智能服務安全基本要求》,覆蓋政治、暴力、倫理、隱私、地域歧視等5大類31小類,深度融合粵語俚語、諧音等特色,可用于大模型安全對齊、合規(guī)評估和多方言內(nèi)容治理,助力粵港澳大灣區(qū)AI安全發(fā)展。
面向影視劇AI配音的細粒度標注粵語語料數(shù)據(jù)集通過多渠道語料收集與細粒度編碼,構(gòu)建了涵蓋超過30個影視劇人物、13種情緒、超過1000分鐘的音頻語料庫,有效解決粵語影視劇人工配音成本高、智能配音缺乏高質(zhì)量標注語料的實際產(chǎn)業(yè)痛點。
面向大模型訓練的粵語大模型語料數(shù)據(jù)集是面向大模型小語種能力訓練的高質(zhì)量多模態(tài)數(shù)據(jù)集,覆蓋多種生活場景,超過5000個問答對,成功將普通話等通用語言數(shù)據(jù)轉(zhuǎn)為粵語語料,為粵語大模型的數(shù)據(jù)訓練和微調(diào)等后續(xù)泛化能力提供支持。
全國首個方言文化思維鏈訓練語料集—粵語文化思維鏈語料數(shù)據(jù)集搭建了3層結(jié)構(gòu),涵蓋17個文化類別、360余個核心文化概念,并配套逾1萬多組高質(zhì)量標注語料,可直接服務于大模型的精調(diào)訓練。
生態(tài)應用:
10余款APP激活產(chǎn)業(yè)創(chuàng)新
AI-DimSum多模態(tài)通用粵語語料庫平臺已孵化粵語數(shù)字人、智能配音、廉州話小程序等10余款應用,覆蓋文旅、教育、短劇等領(lǐng)域。例如,與百度合作開發(fā)的“粵語智聲”系統(tǒng)支持復雜場景語音識別,準確率達90%。
![]()
圖源AI-DimSum官網(wǎng)
推廣價值:
方言數(shù)字化范本的全球路徑
平臺構(gòu)建的“采集—標注—確權(quán)—應用”全流程體系可復制至客家話等方言,為國家方言語言資源保護提供技術(shù)樣板。未來將通過開源開放支持全球粵語數(shù)字生態(tài),助力“數(shù)字中國”建設(shè)。
據(jù)悉,2025年1月8日,教育部、國家語委、中央網(wǎng)信辦印發(fā)《關(guān)于加強數(shù)字中文建設(shè) 推進語言文字信息化發(fā)展的意見》,首次提出“數(shù)字中文”概念;到年底的12月27日,第十四屆全國人民代表大會常務委員會第十九次會議表決通過新修訂的《中華人民共和國國家通用語言文字法》,明確規(guī)定“推進國家通用語言文字的信息化、數(shù)字化、智能化建設(shè)”。
“數(shù)字中文”及其建設(shè)迅速統(tǒng)合引領(lǐng)相關(guān)研究與實踐,成為語言文字領(lǐng)域重要的新興增長點。
參考來源
南方+《國家語言文字信息化十大新聞,廣州入選!》
https://www.nfnews.com/content/voApmjea6R.html
廣州大學荔灣研究院《粵語語料庫建設(shè)與大模型評測重點實驗室在中國數(shù)字文娛大會發(fā)布數(shù)據(jù)集成果》
https://mp.weixin.qq.com/s/jdmmiWdcZJw8LdE8qNFEOw?scene=1
圖片來源同上,非商業(yè)用途,若構(gòu)成侵權(quán),請聯(lián)系我們進行刪除
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.