![]()
據中國民族博覽訊:作為世界唯一延續幾千年的中華文化,稱其浩若煙海,絕非妄言。為什么認定其難承其重?2024年5月24日,第七屆數字中國峰會期間,阿里研究院正式發布的《大模型訓練數據白皮書》(以下簡稱《白皮書》)顯示,互聯網上中文語料與英文語料占比極為懸殊:英文高達59.8%,而中文僅占1.3%。雖然這個比重是中英文語料對比,是僅就網絡資源而言,而不是整個文化資源的對比,但問題在于,決定哪種文化可以成為新時代的主導文化,不是看其資源總量,而是看其適用資源在文化傳播的主流形態——互聯網上能否處于主導地位。
時過境遷:新時代對文化資源判斷有了新標準。阿里研究院這個《白皮書》,由阿里研究院牽頭,聯合阿里巴巴集團、數字中國研究院(福建)及阿里云智能集團共同編寫,旨在深入分析大模型訓練數據的核心問題,并對中英文語料資源的現狀與挑戰提出了關鍵見解。其顯示的中英文語料極為懸殊的占比,反映了中文語料在互聯網生態中的結構性短缺,對AI發展的深層影響極大。白皮書強調,語料短缺不僅是“量”的問題,更涉及“質”與價值觀層面。文言文、傳統文化內容、本土主流媒體文本等反映中式價值觀的語料嚴重匱乏。這類語料無法通過機器翻譯彌補,其短缺可能成為制約中國大模型本土化發展的核心短板。同時,因中文開源數據集僅占英文的11%,必然導致國產大模型對英文開源語料的依賴,極易出現文化適配性問題,產生模型“西化思維”風險。例如,文生圖模型可能優先生成西方人物形象,或難以理解中式語境下的價值觀表達。
博大精深的中華文化何以陷入如此境地?根本原因在于時代變了,我們沒能及時跟上這個變化。或者說,只顧得享受新時代帶來的各種神奇而忽略了本該努力的進取。
30年前,這是一個普通人想都不敢想的時代。1997年我國全功能接入國際互聯網,不到30年,我國互聯網實現了從無到有、從小到大、從大到強的跨越式發展,建成了全球規模最大、技術領先的互聯網基礎設施,構建起全球最大的網絡零售市場和網民群體。據中國互聯網絡信息中心第55次《中國互聯網絡發展狀況統計報告》稱:中國網民規模從1997年的62萬人增長至2024年的11.08億人,互聯網普及率升至78.6%。
使用手機的人群規模更為龐大,移動互聯網已成為人們生活中不可或缺的重要部分。據了解,當前中國手機用戶注冊號碼總數達18億個,全國移動互聯網月活躍用戶規模已達到驚人的12.62億人;用戶的月人均使用時長達到178.9小時。這些數據不僅顯示了用戶數量的持續增長,更反映了人們對移動互聯網依賴程度的加深。同時,微信小程序的月活躍用戶量也在不斷擴大,達到了9.46億。特別是在生活服務和金融理財等領域,小程序用戶規模領先,而移動視頻類小程序的同比增速更是高達114.8%。
這是一個以信息為核心資源、以網絡為基礎連接、以數字技術為驅動力的時代,網絡已經成為當前人們文化傳播、獲取知識、發明創造的主要憑借,對于文化交流有著自己特有的“適用”要求。互聯網的全球化,使各個國家的網絡資源狀況直接與話語權掛上了鉤。
![]()
阿里研究院的《白皮書》做中英文對比時,沒有用字詞數、卷冊數,而是用了“語料”一詞。所謂語料庫是經過深度加工和信息標注的特定類型的結構化文本數據。也就是說,一種民族文化話語權或影響力,只能取決于網上結構化文本數據狀況,如是否適用、質量優劣,占比大小等等,除此別無選擇。
按照這個標準,當前中華文化資源狀況大體可以分為如下幾種:一是基本情況尚需進一步考證,其形態仍為原始狀態的文物資源。二是尚未校勘、標點、注釋的歷史文獻典籍,一般讀者難以閱讀。這部分典籍約占我國現存古籍的80%。三是當代整理版本。新中國成立后,黨和國家對文化典籍整理及其當代價值的發掘取得了豐碩成果。文學、語言文字、文化藝術、歷史、地理、哲學、宗教、科學技術等領域重要古籍皆有系統整理,總計已達4.5萬種。特別是歷經近30年完成的中華古籍大型系列類書《中華大典》,收入兩萬多種古籍,共約8億多字,號稱可以和《永樂大典》相媲美的中國古典文化集成。然而,這套典籍體例有利于使用,但出版后并未用于大眾化普及,國人知之者甚少。四是實現了數字化的版本。我國現存古籍中真正實現文本數字化的約為20%。其中完成語義標注的僅12%。五是按照信息時代要求進行主題化重構的文獻典籍。由于進行這項工作的極少,其占比尚無法計算。
這五種情況,第一、第二種情況當前只能作為潛在資源存在,短時間尚無法進入互聯網絡;第三和第四種情況的絕大部分為待用資源,最接近成為適用資源;第四種情況中的完成語義標注部分和第五種情況隨時可以進入互聯網絡,成為適用資源,但其數量微乎其微。
落后原因:傳統結構與現代需求的錯位。中華文化有著獨特的哲學思想、倫理體系、美學精神與實踐智慧,是一個完整的文化體系,歷經數千年的流傳,一直都是按照“大而全”“小而全”的體例編排。即使那些按類別進行編排的大型類書,也不過是按類別進行了重組,整體上仍然保持了它體系的完整性。然而,到了信息時代,這些傳統無法適應時代的變化,以至成了我國互聯網資源落后的主要原因。
其一,傳統結構不能適應讀者群體與閱讀習慣的變化。經過幾十年的發展,我國讀者群體與閱讀習慣發生了巨大變化:我國社會文化形態正快速由“精英文化”向“大眾文化”過渡,受眾主體是普羅大眾,不再局限于精英階層。他們對文化資源的要求主要體現為精要化、主題化、信息化。精要化指人們學習的主要體裁不再是全書、全文,而是被獨立出來、便于學習、引用的文化精要;主題化指查閱有路標,可以根據自己的需要查到批量化資源,以利比較、選用;信息化指這些資源通過計算機以及互聯網進行檢索獲取。
然而,這種結構的鴻篇巨制和各種文集,無法滿足讀者的個性需求。如《全唐詩》《全宋詞》,除皇家詩外,都是依作者出生先后編排,讀者不僅不能直接挑選購買自己需要的內容,要買就必須買全套;而且即使買了全套,也很難找到某個主題或類別的詩詞。這種“買1帶N”的服務,既大量耗費資金,又枉占諸多空間。對普通民眾來說,都是難以接受的。
其二,傳統結構與信息時代文化傳播主渠道對接難。互聯網有自己的底層運算規則。無論何種文化,要成為互聯網適用資源,就必須將其“拆解”成一個個小單元,成為語料或標注為數據,而這既是我們優勢之所在,同時又是造成我們網絡資源貧乏的深層原因。我們的文獻典籍中含有無可勝數的成語、典故、名言、觀點、事例,是無以倫比的優質資源。遺憾的是,由于它們湮沒于大量的敘述或論證之中,無法作為獨立元素單元而為計算機識別,更不可能擁有類別框架體系做支撐,網絡無法按圖索驥。所以,如果不按照網絡要求進行轉化,就等同于自我封閉于新時代主流傳播渠道之外。
當前,在網絡查找文化資源的主要途徑莫過于關鍵詞搜索和主題詞檢索了。但前者的搜索結果大量重復、似是而非、誤人子弟;后者則過于學術化,非專業人士一時難以掌握。二者的共同缺陷是無法解決各類文化資源的深層次、批量化、精確化需求。以人們常用的關于春夏秋冬和節日節氣的古詩詞為例。《中華詩典?歲時》收有40860首,但網絡搜索最多能查到160首!而DeepSeek兩次同題查詢,結果都是8首。根本原因就在于,經過這種轉化的文化資源在互聯網上少之又少。
這種轉化會不會毀掉原有結構的完整性?這取決于轉化方式是簡單的數據標注,還是主題化重構。如果是前者,這個可能性是有的;如果是后者,不僅可以避免,而且還可以使中華文化的完整性得到進一步提升。因為傳統編纂體例體現的完整性是單個對事物認識的過程性完整,而主題化重構則是通過解構、重構,最終在更高層面形成精華集中的主題完整。這也是本文始終強調主題化重構、而非一般性數據標注的原因。
其三,文化數據標注被冷落,中國人工智能不平衡的“數據糧倉”。為了給人工智能提供信息支撐,2024年國家發改委等四部門發布《關于促進數據標注產業高質量發展的實施意見》,使數據標注產業得到迅速發展。人工智能的基礎是高質量的數據支撐。但在諸多行業數據中,只有系統的文化數據具有普適性,是整個人工智能的基礎與靈魂。遺憾的是,在國家層面上,7個國家級數據標注基地的設立,要推動的重點領域,都集中在工業、金融、醫療、交通、教育等行業,獨缺具有公共價值的中華文化系統性標注。
質差量少:“國家隊”長期缺席結苦果。作為最新一代的技術革命,互聯網一誕生就顯示了極強的生命力。但是,我國當時正處于國退民進的“改革”初期,積極投身其中的多為非體制內的科技人員和民營企業,他們的資源貢獻多呈自發、零散狀態,而代表國家最高水平的“國家隊”則長期缺席。這就構成了中國互聯網布局碎片化、信息非權威等“自由港”特征。這個模式下,大家免費提供信息共享共用。雖然不能解決根本問題,但也能滿足大多數人的低級需求。由于制作成本的原因,人們更愿意選擇發布那些主要靠標題吸引眼球的粗制濫造的內容,而不愿下功夫精挑細選、精心打磨。這種集貿市場式的運營方式,只能是“流量為王”。長此下去,也必然導致中華文化典籍數量少、質量差,低級低俗內容泛濫,龐雜無用信息過載,使人們面對良莠莫辨的海量信息陷入迷茫。以常在網上的《二十四史》電子版《晉書》為例,我們團隊在核校時發現,其紀傳部分6350個段落中,分段錯誤就有1460處之多!
![]()
作者簡介:劉占鋒,著名文化學者,中華文化主題化重構首創者、執行總編纂。河南大學黃河文明與可持續發展研究中心研究員,中國作家協會會員。曾受聘于《人民日報》理論部特約高級編輯、河南大學新聞編輯出版研究所特邀研究員。1999年評為中國書業網絡十大風云人物。其編著(主編)的《中華語匯通檢》(《中國成語通檢》、《中國名言通檢》、《中國名詩句通檢》、《中國辭賦詞曲名句通檢》),結束了我國大型語文工具書沒有任意字檢索的歷史,人民日報稱其“為亟待規范的辭書出版提供了范例”。季羨林、張岱年、郭預衡等著名學者贊其“功德無量”。2002年獲河南省優秀社科成果一等獎。2023年以來,與著名學者趙德潤、王錦貴、郝振省、李巖共同作為總編纂,先后編寫出版了國內第一部大型類編詩詞典籍《中華詩典》之黃河(5卷18冊)、歲時(30卷100冊),為新時代修典做出貢獻。北大、北師大三次舉辦座談會,充分肯定其團隊的卓越貢獻。
【中國警事網:周雪成】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.