![]()
作者 |辰紋
來源 |洞見新研社
過去,一個古文獻研究專家在處理一批珍貴刻本。突然,一個從未見過的生僻字映入眼簾。按照傳統(tǒng)工作流程,他需要查閱大量工具書才能弄清這個字的含義,期間可能花費數(shù)小時甚至數(shù)天,這在學界是司空見慣的現(xiàn)象。
但現(xiàn)在,他只需打開“識典古籍”平臺,使用最新上線的編輯器搜字、造字、復制字圖功能,將這個字拆解拼接,系統(tǒng)便從20余萬個字形中精準匹配出了結(jié)果——整個過程不到10秒。
這正是字節(jié)跳動用技術(shù)助力古籍數(shù)字化帶來的變革。通過AI技術(shù),識典古籍不僅大幅降低了古籍整理門檻,提升了工作效率,更解決了困擾古文獻研究領(lǐng)域多年的生僻字整理難題。
01 古籍數(shù)字化的三大難題
古籍整理,單從字面上來理解,與普通人的生活幾乎沒有任何關(guān)聯(lián),但從宏觀視角來看,作為歷史文明傳承的載體,古籍的價值無可替代。它們既是中國古典學不可或缺的研究基礎(chǔ),也是社會大眾繼承和發(fā)揚傳統(tǒng)文化的寶貴資源,同時還是世界理解中華文明的重要途徑。
早在1919年,胡適就在《新青年》雜志上發(fā)起了著名的“整理國故”運動,提出“研究問題、輸入學理、整理國故、再造文明”的主張,胡適本人也身體力行,投入巨大精力進行國學研究,創(chuàng)辦《國學季刊》;推動古史討論,擬出“最低限度的國學書目”,向廣大青年大力推薦……
進入21世紀,古籍整理工作的重要程度也在學界、國家管理機構(gòu)、乃至社會層面形成了共識。2007年,重大文化工程“中華古籍保護計劃”啟動;2018年,《中華人民共和國公共圖書館法》頒布,“公共圖書館要加強館內(nèi)古籍保護”成為法條……
根據(jù)國家古籍保護中心調(diào)查結(jié)果顯示,我國現(xiàn)存20多萬種古籍,存世50萬個版本,古籍數(shù)量達3200多萬冊,然而當前古籍整理工作的現(xiàn)狀卻是數(shù)字化程度極低,許多書只是完成了初步的影像掃描,真正實現(xiàn)文本數(shù)字化的不到四萬種。
之所以會存在這樣的困境,專業(yè)人才匱乏是首要障礙。
全國高等院校古籍整理研究工作委員會副秘書長吳國武在接受媒體采訪時曾透露,目前全國范圍內(nèi)專業(yè)從事古籍整理的人員僅有一萬人左右。華東師范大學古典文獻學在讀博士生劉帥以自己作為參照,“一年能整理幾十萬字就很了不起了”。
需要整理的古籍數(shù)量巨大,但在供應端,專業(yè)人才不夠,單人效率又有限,古籍整理工作推進自然就快不起來。
其次是生僻字處理存在技術(shù)瓶頸,由于古籍中存在大量異體字、俗體字和避諱字,使得文字識別準確率難以提高。傳統(tǒng)OCR技術(shù)是為打印材料設(shè)計的,面對古書中的不同字體風格、非漢字筆畫符號、折痕和破損缺字,識別效果大打折扣。
最后是資金與版權(quán)的桎梏。從1999年“文淵閣四庫全書”數(shù)據(jù)庫發(fā)布以來,古籍數(shù)據(jù)庫成為中國古典研究不可或缺的基礎(chǔ)設(shè)施,同時大多數(shù)的重要典籍也都已經(jīng)完成了數(shù)字化。
由于最方便使用的古籍圖文庫基本上都是商業(yè)數(shù)據(jù)庫,這就限制了普通公眾的訪問。
隨著人力校對成本越來越高,商業(yè)古籍庫擴容的邊際收益斷崖式下跌,這就使得現(xiàn)階段很多古籍數(shù)字化工作成果有些“養(yǎng)在深閨人未識”的狀態(tài),不能被公眾充分利用,并且發(fā)展建設(shè)難以為繼。
02 從“字圖”到“造字”的技術(shù)破局
正是在這樣的背景之下,字節(jié)跳動在2022年10月,與北京大學合作推出了完全公益的古籍智能閱讀和整理平臺——“識典古籍”,旨在通過技術(shù)力量改變傳統(tǒng)古籍整理模式。
識典古籍初期就整合了三大核心技術(shù),文字識別(OCR),自動標點和實體識別,這意味著機器已經(jīng)能夠初步“讀懂”古文。
就在不久前,針對古籍數(shù)字化中最棘手的生僻字問題,識典古籍平臺推出了編輯器造字、拼字、字圖復制功能,將古籍數(shù)字化工作的效率又向前推動了一大步。
在以往的古籍數(shù)字化過程中,遇到字庫中沒有的生僻字或異體字時,研究人員的通常做法是截取該字在古籍掃描圖中的局部區(qū)域的圖片作為替代,稱之為“字圖”。
然而這樣處理存在明顯缺陷,字圖有當時古籍本身的印刷書寫風格和背景,不宜閱讀;同時,不同字圖可能實為同一字,卻因無法識別而被重復截取,造成整理混亂。
識典古籍給出的解決方案是自研了一套拼字輸入法(拼出字圖)、造標準宋體字(造出字圖)等算法,以幫助研究人員在整理古籍時能夠快速的輸入生僻字甚至“造”出字體。
拼字輸?法的技術(shù)原理并不復雜,就是讓用戶在自己認識的簡單字和簡單筆畫的基礎(chǔ)上,去搜索更加復雜的漢字,即便不清楚這個漢字的字音、字義,也能憑借字形快速匹配。
例如,“矦”字可由“?”“廠”“矢”組成,輸入這些部件即可召回該字。對于普通人來說,雖然這個字我不認識,但總有它的部分我認識,認識什么輸入什么,就可以把這個字拼出來。這種方式比五筆輸入法更直觀,無需記憶詞根,也支持生僻字檢索。
![]()
在研發(fā)過程中,團隊面臨的核心挑戰(zhàn)是漢字組合的極端復雜性。例如一個“椪”字,就有“木並”、“木?業(yè)”、“木丷亞”、“木八亞”等多種拆分方式,組合數(shù)量呈階乘級增長,傳統(tǒng)窮舉方法根本行不通。
團隊曾嘗試用有向無環(huán)圖來建模漢字部件關(guān)系,想象一堆有箭頭連接的積木,箭頭只指向后方,且絕對不允許形成一個閉合的圓圈,這樣我們就可以從起點一路暢通無阻地走到終點,但十萬漢字構(gòu)建的圖譜對性能挑戰(zhàn)巨大,也難以量化匹配效果。
那段時間,組內(nèi)成員兵分幾路,有人繼續(xù)嘗試圖結(jié)構(gòu)優(yōu)化,有人從組合數(shù)學角度尋找新思路。大家頻繁交流、互相“挑戰(zhàn)”,常常列舉出各種bad case推翻對方方案,卻又在碰撞中萌生新的靈感。
最終,識典古籍研發(fā)團隊設(shè)計出了一套高性能、通過計算漢字細節(jié)特征進行匹配的解決方案,可支持在20余萬個漢字中實時搜索。
該方案在初始加載階段,不僅會整體收集每個漢字的組成部分作為其特征,還會構(gòu)建一套簡繁字、偏旁部首的等價映射表,如“馬”可代“馬”、“水”可代“氵”。
在搜索階段,算法會先對用戶輸入進行前置處理以提升容錯能力,比如相似的“”和“乚”都會被處理成“乚”,然后比對用戶輸入與所有漢字特征之間的差異,按匹配程度排序返回最佳結(jié)果,若匹配失敗,算法還會自動使用等價映射表重新檢索,如輸入“水”、“木”可查找出“沐”,顯著降低輸入門檻,更貼合用戶的用字習慣。
記得那天下午,當?shù)谝话嫠惴炞C通過、匹配準確率大幅提升時,整個團隊都感到“內(nèi)心無比激動”。長期困擾項目的瓶頸終于突破,多位成員在現(xiàn)場忍不住鼓掌。
拼字輸入法主要輔助研究人員找到當今已經(jīng)被編碼的漢字,對于古籍中存在的?些沒有被計算機編碼的漢字,識典古籍團隊又開發(fā)了基于IDS造出標準宋體字的算法,通過結(jié)構(gòu)化的描述?式去表達任意?個漢字,進而為這個生僻字量?設(shè)計字體。
根據(jù)識典古籍團隊介紹,IDS是Unicode標準定義的漢字結(jié)構(gòu)描述語法,通過IDC符號(用于描述漢字結(jié)構(gòu),如?、?、?、?、?等)和漢字部件組合而成。例如,“古”字是上下結(jié)構(gòu),其IDS就是 “?十口”。
![]()
通過分析漢字的空間結(jié)構(gòu)輸入相應的IDS表達式生成字體字形,以上是不同空間結(jié)構(gòu)的示例
造字的核心是解析用戶輸入的IDS表達式,為每個部件選擇合適的變形和空間布局,組合成新字。例如,在處理左右結(jié)構(gòu)時,需控制部件寬度比例和間距;在處理包圍結(jié)構(gòu)時,需確定缺口位置并在缺口處合理放置被包圍的部件。
![]()
團隊在開發(fā)過程中摒棄了“大而全”的幻想,比如像‘廴’只需主要考慮‘?’布局,無需過多考慮?、?、?、?等其他情況,轉(zhuǎn)而遵循實際漢字布局規(guī)則,逐步實現(xiàn)了覆蓋常見結(jié)構(gòu)的造字引擎。
![]()
由于造字是基于IDS的,所以它天然就具有漢字的組成信息,因此用戶“造”出來的字經(jīng)平臺審核通過后也可以使用上述的拼字輸入法搜索出來,實現(xiàn)相互聯(lián)動。
![]()
就像識典古籍研發(fā)團隊說的那樣,編輯器搜字、造字、復制字圖功能就像一個“萬能積木”,讓古籍整理這項傳承文明的事業(yè)不會因為“字”而被阻礙,而讓團隊自豪的是,當看到自己設(shè)計的造字工具能生成古籍中千變?nèi)f化的字形,甚至一些早已遺失在歷史中的字體重現(xiàn)屏幕時,“一種跨越時空的技術(shù)成就感油然而生”。
03 將文化基因刻入數(shù)字未來
識典古籍的價值不僅僅提高了古籍專業(yè)研究人員的工作效率,更是通過技術(shù)手段降低了古籍整理的門檻,使公眾參與成為可能。
去年識典古籍平臺聯(lián)合全國22所高校,發(fā)起了“我是校書官”活動,吸引了1萬余名學生報名參加,其中許多人的專業(yè)都與古籍無關(guān)。
這項活動的參與流程非常簡單,志愿者在平臺上領(lǐng)取任務,系統(tǒng)提供清晰的指導和要求。校對過程中,AI會輔助標識出可能存在的問題,志愿者只需重點關(guān)注這些區(qū)域即可。
平臺還建立了質(zhì)量保障機制。所有校對結(jié)果會經(jīng)過多種審核,包括機器審核、專業(yè)人員審核等,在提高整理質(zhì)量的同時,也是人才培養(yǎng)的過程。
在這項活動中,一些非專業(yè)的同學原本對古籍一無所知,但參加活動,校對三個月后,也算跨過了古籍研究的門檻,養(yǎng)成了閱讀古籍的習慣,更難能可貴的是,識典古籍以這種類似于眾包的模式,重塑了古籍整理生態(tài)。
從這一視角來看,古籍數(shù)字化的價值遠遠超出了保護本身,它讓古籍內(nèi)容變得更加可用、易懂,為文化傳承和創(chuàng)新提供了基礎(chǔ)。
全國高等院校古籍整理研究工作委員會副秘書長吳國武教授在接受媒體采訪時曾表示,“古籍相當于先人的知識體系,將經(jīng)典智慧為現(xiàn)代人所用,是非常重要的任務”,數(shù)字化后的古籍可以被更容易地檢索、分析和利用,為學術(shù)研究提供支持。
更重要的是,數(shù)字化古籍還正在成為文化創(chuàng)新的源泉。從去年風靡全球的游戲“黑神話悟空”,到今年的動畫電影《哪吒2》,都是傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化的案例,而浩瀚的典籍文化遺產(chǎn)正是文化產(chǎn)業(yè)取之不盡的素材資源。
根據(jù)官方公布的數(shù)據(jù),識典古籍平臺在數(shù)萬名來自高校、社會及字節(jié)跳動員工的古籍整理志愿者共同努力下,現(xiàn)已經(jīng)免費公開3萬余部古籍,每月有超240萬用戶訪問量。在2025年底,將發(fā)布4萬部古籍面向公眾開放。
AI正在讓那些沉睡在圖書館庫房里的古籍蘇醒,重新跳動起來,融入當代人的文化生活之中。就像幾個世紀前,這些書籍影響著當時的文人學者那樣,繼續(xù)參與中華文明的演進與傳承。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.