![]()
作者 |辰紋
來源 |洞見新研社
過去,一個古文獻研究專家在處理一批珍貴刻本。突然,一個從未見過的生僻字映入眼簾。按照傳統工作流程,他需要查閱大量工具書才能弄清這個字的含義,期間可能花費數小時甚至數天,這在學界是司空見慣的現象。
但現在,他只需打開“識典古籍”平臺,使用最新上線的編輯器搜字、造字、復制字圖功能,將這個字拆解拼接,系統便從20余萬個字形中精準匹配出了結果——整個過程不到10秒。
這正是字節跳動用技術助力古籍數字化帶來的變革。通過AI技術,識典古籍不僅大幅降低了古籍整理門檻,提升了工作效率,更解決了困擾古文獻研究領域多年的生僻字整理難題。
01 古籍數字化的三大難題
古籍整理,單從字面上來理解,與普通人的生活幾乎沒有任何關聯,但從宏觀視角來看,作為歷史文明傳承的載體,古籍的價值無可替代。它們既是中國古典學不可或缺的研究基礎,也是社會大眾繼承和發揚傳統文化的寶貴資源,同時還是世界理解中華文明的重要途徑。
早在1919年,胡適就在《新青年》雜志上發起了著名的“整理國故”運動,提出“研究問題、輸入學理、整理國故、再造文明”的主張,胡適本人也身體力行,投入巨大精力進行國學研究,創辦《國學季刊》;推動古史討論,擬出“最低限度的國學書目”,向廣大青年大力推薦……
進入21世紀,古籍整理工作的重要程度也在學界、國家管理機構、乃至社會層面形成了共識。2007年,重大文化工程“中華古籍保護計劃”啟動;2018年,《中華人民共和國公共圖書館法》頒布,“公共圖書館要加強館內古籍保護”成為法條……
根據國家古籍保護中心調查結果顯示,我國現存20多萬種古籍,存世50萬個版本,古籍數量達3200多萬冊,然而當前古籍整理工作的現狀卻是數字化程度極低,許多書只是完成了初步的影像掃描,真正實現文本數字化的不到四萬種。
之所以會存在這樣的困境,專業人才匱乏是首要障礙。
全國高等院校古籍整理研究工作委員會副秘書長吳國武在接受媒體采訪時曾透露,目前全國范圍內專業從事古籍整理的人員僅有一萬人左右。華東師范大學古典文獻學在讀博士生劉帥以自己作為參照,“一年能整理幾十萬字就很了不起了”。
需要整理的古籍數量巨大,但在供應端,專業人才不夠,單人效率又有限,古籍整理工作推進自然就快不起來。
其次是生僻字處理存在技術瓶頸,由于古籍中存在大量異體字、俗體字和避諱字,使得文字識別準確率難以提高。傳統OCR技術是為打印材料設計的,面對古書中的不同字體風格、非漢字筆畫符號、折痕和破損缺字,識別效果大打折扣。
最后是資金與版權的桎梏。從1999年“文淵閣四庫全書”數據庫發布以來,古籍數據庫成為中國古典研究不可或缺的基礎設施,同時大多數的重要典籍也都已經完成了數字化。
由于最方便使用的古籍圖文庫基本上都是商業數據庫,這就限制了普通公眾的訪問。
隨著人力校對成本越來越高,商業古籍庫擴容的邊際收益斷崖式下跌,這就使得現階段很多古籍數字化工作成果有些“養在深閨人未識”的狀態,不能被公眾充分利用,并且發展建設難以為繼。
02 從“字圖”到“造字”的技術破局
正是在這樣的背景之下,字節跳動在2022年10月,與北京大學合作推出了完全公益的古籍智能閱讀和整理平臺——“識典古籍”,旨在通過技術力量改變傳統古籍整理模式。
識典古籍初期就整合了三大核心技術,文字識別(OCR),自動標點和實體識別,這意味著機器已經能夠初步“讀懂”古文。
就在不久前,針對古籍數字化中最棘手的生僻字問題,識典古籍平臺推出了編輯器造字、拼字、字圖復制功能,將古籍數字化工作的效率又向前推動了一大步。
在以往的古籍數字化過程中,遇到字庫中沒有的生僻字或異體字時,研究人員的通常做法是截取該字在古籍掃描圖中的局部區域的圖片作為替代,稱之為“字圖”。
然而這樣處理存在明顯缺陷,字圖有當時古籍本身的印刷書寫風格和背景,不宜閱讀;同時,不同字圖可能實為同一字,卻因無法識別而被重復截取,造成整理混亂。
識典古籍給出的解決方案是自研了一套拼字輸入法(拼出字圖)、造標準宋體字(造出字圖)等算法,以幫助研究人員在整理古籍時能夠快速的輸入生僻字甚至“造”出字體。
拼字輸?法的技術原理并不復雜,就是讓用戶在自己認識的簡單字和簡單筆畫的基礎上,去搜索更加復雜的漢字,即便不清楚這個漢字的字音、字義,也能憑借字形快速匹配。
例如,“矦”字可由“?”“廠”“矢”組成,輸入這些部件即可召回該字。對于普通人來說,雖然這個字我不認識,但總有它的部分我認識,認識什么輸入什么,就可以把這個字拼出來。這種方式比五筆輸入法更直觀,無需記憶詞根,也支持生僻字檢索。

在研發過程中,團隊面臨的核心挑戰是漢字組合的極端復雜性。例如一個“椪”字,就有“木並”、“木?業”、“木丷亞”、“木八亞”等多種拆分方式,組合數量呈階乘級增長,傳統窮舉方法根本行不通。
團隊曾嘗試用有向無環圖來建模漢字部件關系,想象一堆有箭頭連接的積木,箭頭只指向后方,且絕對不允許形成一個閉合的圓圈,這樣我們就可以從起點一路暢通無阻地走到終點,但十萬漢字構建的圖譜對性能挑戰巨大,也難以量化匹配效果。
那段時間,組內成員兵分幾路,有人繼續嘗試圖結構優化,有人從組合數學角度尋找新思路。大家頻繁交流、互相“挑戰”,常常列舉出各種bad case推翻對方方案,卻又在碰撞中萌生新的靈感。
最終,識典古籍研發團隊設計出了一套高性能、通過計算漢字細節特征進行匹配的解決方案,可支持在20余萬個漢字中實時搜索。
該方案在初始加載階段,不僅會整體收集每個漢字的組成部分作為其特征,還會構建一套簡繁字、偏旁部首的等價映射表,如“馬”可代“馬”、“水”可代“氵”。
在搜索階段,算法會先對用戶輸入進行前置處理以提升容錯能力,比如相似的“”和“乚”都會被處理成“乚”,然后比對用戶輸入與所有漢字特征之間的差異,按匹配程度排序返回最佳結果,若匹配失敗,算法還會自動使用等價映射表重新檢索,如輸入“水”、“木”可查找出“沐”,顯著降低輸入門檻,更貼合用戶的用字習慣。
記得那天下午,當第一版算法驗證通過、匹配準確率大幅提升時,整個團隊都感到“內心無比激動”。長期困擾項目的瓶頸終于突破,多位成員在現場忍不住鼓掌。
拼字輸入法主要輔助研究人員找到當今已經被編碼的漢字,對于古籍中存在的?些沒有被計算機編碼的漢字,識典古籍團隊又開發了基于IDS造出標準宋體字的算法,通過結構化的描述?式去表達任意?個漢字,進而為這個生僻字量?設計字體。
根據識典古籍團隊介紹,IDS是Unicode標準定義的漢字結構描述語法,通過IDC符號(用于描述漢字結構,如?、?、?、?、?等)和漢字部件組合而成。例如,“古”字是上下結構,其IDS就是 “?十口”。
![]()
通過分析漢字的空間結構輸入相應的IDS表達式生成字體字形,以上是不同空間結構的示例
造字的核心是解析用戶輸入的IDS表達式,為每個部件選擇合適的變形和空間布局,組合成新字。例如,在處理左右結構時,需控制部件寬度比例和間距;在處理包圍結構時,需確定缺口位置并在缺口處合理放置被包圍的部件。
![]()
團隊在開發過程中摒棄了“大而全”的幻想,比如像‘廴’只需主要考慮‘?’布局,無需過多考慮?、?、?、?等其他情況,轉而遵循實際漢字布局規則,逐步實現了覆蓋常見結構的造字引擎。

由于造字是基于IDS的,所以它天然就具有漢字的組成信息,因此用戶“造”出來的字經平臺審核通過后也可以使用上述的拼字輸入法搜索出來,實現相互聯動。

就像識典古籍研發團隊說的那樣,編輯器搜字、造字、復制字圖功能就像一個“萬能積木”,讓古籍整理這項傳承文明的事業不會因為“字”而被阻礙,而讓團隊自豪的是,當看到自己設計的造字工具能生成古籍中千變萬化的字形,甚至一些早已遺失在歷史中的字體重現屏幕時,“一種跨越時空的技術成就感油然而生”。
03 將文化基因刻入數字未來
識典古籍的價值不僅僅提高了古籍專業研究人員的工作效率,更是通過技術手段降低了古籍整理的門檻,使公眾參與成為可能。
去年識典古籍平臺聯合全國22所高校,發起了“我是校書官”活動,吸引了1萬余名學生報名參加,其中許多人的專業都與古籍無關。
這項活動的參與流程非常簡單,志愿者在平臺上領取任務,系統提供清晰的指導和要求。校對過程中,AI會輔助標識出可能存在的問題,志愿者只需重點關注這些區域即可。
平臺還建立了質量保障機制。所有校對結果會經過多種審核,包括機器審核、專業人員審核等,在提高整理質量的同時,也是人才培養的過程。
在這項活動中,一些非專業的同學原本對古籍一無所知,但參加活動,校對三個月后,也算跨過了古籍研究的門檻,養成了閱讀古籍的習慣,更難能可貴的是,識典古籍以這種類似于眾包的模式,重塑了古籍整理生態。
從這一視角來看,古籍數字化的價值遠遠超出了保護本身,它讓古籍內容變得更加可用、易懂,為文化傳承和創新提供了基礎。
全國高等院校古籍整理研究工作委員會副秘書長吳國武教授在接受媒體采訪時曾表示,“古籍相當于先人的知識體系,將經典智慧為現代人所用,是非常重要的任務”,數字化后的古籍可以被更容易地檢索、分析和利用,為學術研究提供支持。
更重要的是,數字化古籍還正在成為文化創新的源泉。從去年風靡全球的游戲“黑神話悟空”,到今年的動畫電影《哪吒2》,都是傳統文化創造性轉化的案例,而浩瀚的典籍文化遺產正是文化產業取之不盡的素材資源。
根據官方公布的數據,識典古籍平臺在數萬名來自高校、社會及字節跳動員工的古籍整理志愿者共同努力下,現已經免費公開3萬余部古籍,每月有超240萬用戶訪問量。在2025年底,將發布4萬部古籍面向公眾開放。
AI正在讓那些沉睡在圖書館庫房里的古籍蘇醒,重新跳動起來,融入當代人的文化生活之中。就像幾個世紀前,這些書籍影響著當時的文人學者那樣,繼續參與中華文明的演進與傳承。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.