![]()
2025年5月,一套哈尼語AI系統(tǒng)在云南省墨江縣正式上線,當(dāng)?shù)乩习傩瞻l(fā)現(xiàn),該系統(tǒng)的翻譯非常貼近農(nóng)村生活,聽起來“很接地氣”。“六一”兒童節(jié)期間,團(tuán)隊(duì)將《憫農(nóng)》《詠鵝》《七碗茶詩》等經(jīng)典篇目翻譯成白宏話,組織幼兒園和小學(xué)的孩子開展雙語朗誦。孩子們先讀母語版本,再讀普通話版本,對內(nèi)容的理解和記憶明顯加深。
這一幕是閔行區(qū)浦江鎮(zhèn)的上海壁仞科技股份有限公司與云南瀕危語言文化傳播有限公司、智譯團(tuán)隊(duì)聯(lián)合研發(fā)的“瀾湄國家跨境語言AI大模型”項(xiàng)目中的一個溫暖縮影,該項(xiàng)目不僅著眼于前沿科技,更將根脈深植于鄉(xiāng)土,讓技術(shù)真正服務(wù)于人的需求與文化傳承。
近日,在聯(lián)合國教科文組織國際創(chuàng)意與可持續(xù)發(fā)展中心及聯(lián)合國教科文組織東亞地區(qū)辦事處聯(lián)合主辦的第五屆“創(chuàng)意2030國際論壇”上,正式發(fā)布了2025“數(shù)字環(huán)境下保護(hù)與促進(jìn)文化表現(xiàn)形式多樣性示范案例”,“瀾湄國家跨境語言AI大模型”項(xiàng)目成功入選。
從普洱的哈尼村落
到聯(lián)合國的舞臺
項(xiàng)目的起點(diǎn),在云南深山的一個哈尼族村落。2024年,壁仞科技的公益團(tuán)隊(duì)在云南省普洱市墨江縣開展滬滇公益活動時,發(fā)現(xiàn)了一個現(xiàn)實(shí)困境:當(dāng)?shù)睾芏嗔羰貎和鵂敔斈棠躺睿?strong>普通話能力較弱,而哈尼語等少數(shù)民族語言也面臨傳承危機(jī)。孩子們在進(jìn)入小學(xué)后,語文學(xué)習(xí)進(jìn)度緩慢,缺乏有效的數(shù)字化工具幫助他們跨越語言鴻溝。
與此同時,壁仞公益團(tuán)隊(duì)與云南瀕危語言文化傳播有限公司白碧波教授、許鮮明教授及智譯團(tuán)隊(duì)負(fù)責(zé)人劉暢源博士一拍即合,決定用AI技術(shù)做點(diǎn)什么。“我們想做一個哈尼語AI系統(tǒng),讓孩子們先用母語培養(yǎng)閱讀能力,再逐步學(xué)習(xí)普通話。”劉暢源說。
這個樸素的念頭,最終成長為一個覆蓋瀾湄六國、目前已涉及29種語言的大模型項(xiàng)目。
![]()
“瀾湄國家跨境語言AI大模型”項(xiàng)目入選
跨學(xué)科團(tuán)隊(duì)
攻克“極低資源”難題
據(jù)介紹,目前全球幾千種語言中,近一半處于瀕危狀態(tài)。而像哈尼語、苗語、傣語、景頗語等,屬于“極低資源語言”——幾乎沒有數(shù)字化的語料可供AI學(xué)習(xí)。
瀾湄流域涵蓋中國、緬甸、老撾、泰國、柬埔寨、越南六國,語言種類繁多且互通性低。泰語、緬甸語、老撾語以及國內(nèi)眾多少數(shù)民族語言,在大模型訓(xùn)練上是一個世界性難題。
“最大的挑戰(zhàn)在于語料采集。”項(xiàng)目合作方、云南瀕危語言文化傳播有限公司的專家們回憶,團(tuán)隊(duì)面臨著發(fā)音人稀缺、標(biāo)注專家難尋、采錄設(shè)施運(yùn)輸不便、采集成本高昂這“四座大山”。僅一分鐘語料的標(biāo)注成本就高達(dá)千元以上。
為此,一支由語言學(xué)家與AI專家組成的跨學(xué)科隊(duì)伍迅速組建,直面極低資源語言的研發(fā)痛點(diǎn)。他們吃住在云南玉溪元江縣的采錄工作坊,團(tuán)隊(duì)耗時許久,用國際音標(biāo)系統(tǒng)性地整理了5000個單詞、1000個語法例句和3小時18分的長篇語料,才將國家標(biāo)準(zhǔn)哈尼文適配到當(dāng)?shù)胤窖裕孉I能夠“聽懂”。
壁仞科技作為一家國產(chǎn)通用GPU領(lǐng)軍企業(yè),在合作中提供了關(guān)鍵性的國產(chǎn)算力技術(shù)支持。目前,項(xiàng)目團(tuán)隊(duì)已部署了20塊壁仞科技GPU,正在全力推進(jìn)瀾湄國家跨境語言AI大模型與國產(chǎn)算力平臺的適配工作。從模型訓(xùn)練到推理應(yīng)用,壁仞的算力成為這個語言保護(hù)工程的堅(jiān)實(shí)底座。
“石榴籽”AI智能體
讓老百姓對自己的語言感到自豪
項(xiàng)目在云南落地后,團(tuán)隊(duì)給它起了一個親切的名字——“石榴籽”AI智能體。寓意是希望這個系統(tǒng)打破語言壁壘,讓各個民族像石榴籽一樣緊緊團(tuán)結(jié)在一起。
![]()
哈尼語翻譯界面
云南省普洱市墨江縣龍壩鎮(zhèn)竜賓村村民白福才說:“最重要的是讓我對自己的語言感到自豪。我的孩子們小時候不常講白宏話,長大以后就不會說了。AI系統(tǒng)讓他們學(xué)習(xí)其他語言的同時,有機(jī)會重新學(xué)習(xí)母語,不忘根本。我希望通過AI系統(tǒng),能將白宏話更好地傳承下去,讓世界更好地了解我們民族。”
目前,苗語、哈尼語與瀾湄國家官方語言之間的AI文本翻譯與語音合成系統(tǒng)已啟動測試。自2025年11月至今,系統(tǒng)累計(jì)消耗詞元已達(dá)3億。有人用它翻譯魯迅的《秋夜》,有人用它創(chuàng)作散文,還有云南師范大學(xué)的師生用它輔助少數(shù)民族語言教學(xué)。
從閔行走向世界
讓每一種語言都被聽見
壁仞科技與這個項(xiàng)目的攜手,并非偶然。壁仞科技相關(guān)負(fù)責(zé)人表示,公司始終堅(jiān)持“科技向善”的理念。作為一家扎根閔行浦江的企業(yè),壁仞在深耕技術(shù)研發(fā)的同時,長期投身社會公益,將優(yōu)質(zhì)科技教育資源引入偏遠(yuǎn)地區(qū)課堂,讓尖端技術(shù)走出實(shí)驗(yàn)室、走向普通大眾。
![]()
項(xiàng)目上線六個語言翻譯界面
2025年,壁仞科技實(shí)現(xiàn)了旗艦通用GPU產(chǎn)品的規(guī)模化量產(chǎn)及交付、多個千卡智算集群的交付以及高質(zhì)量客戶群體的拓展。得益于此,其實(shí)現(xiàn)收入10.35億元,同比大幅增長207.2%。在不斷實(shí)現(xiàn)商業(yè)突破的同時,這家閔行企業(yè)沒有忘記技術(shù)應(yīng)當(dāng)服務(wù)于人、服務(wù)于社會公平。
未來,項(xiàng)目團(tuán)隊(duì)計(jì)劃依托壁仞科技的國產(chǎn)算力底座,建設(shè)世界語言中心,開發(fā)覆蓋全球數(shù)千種語言的世界語言AI大模型,用算力做一件很小、也很大的事:讓每一種語言,都被世界聽見。
![]()
素材:浦小江
記者:李芯怡
審核:劉墾博 宋詩清
轉(zhuǎn)載請注明來自今日閔行官方微信
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.