作者/何偉
編輯/劉暮
近期,哈佛燕京圖書館的古籍珍藏在“識典古籍”平臺上線。在這批海量數據中,人們得以一睹宋刻《十誦律》、元刻《隋書》、明抄《永樂大典》、清抄《杜詩》等稀世典籍的高清書影,還能檢索到齊思和、顧頡剛、容庚、鄭德坤等學者留下的校勘痕跡與研究路徑。
哈佛燕京圖書館素以館藏豐富、孤本眾多聞名,現藏古籍總數達13300余部(約15萬冊),包含宋元明清各代刻本及稿抄本。其中,善本數量約4000部,學術價值極高。
館藏的一大亮點是地方志與叢書:3000余部方志約占中國大陸現存總量的39%,1400余部叢書則涵蓋了半部《中國叢書綜錄》。此外,館內還珍藏有《永樂大典》兩卷、毛氏汲古閣抄本以及大量明清禁書,皆為難得一見的文獻珍品。
![]()
〓 識典古籍哈佛燕京數據庫網頁截圖
這批數據的上線,不僅實現了中西文獻資源的合璧,更讓這筆知識遺產以最高清、最完整的姿態重回中文世界的視野。
為了讓這些沉睡的古籍真正活起來,2024年,由全國高等院校古籍整理研究工作委員會、字節跳動公益與北大數字人文中心聯合發起“我用AI校古籍”行動。依托技術與平臺的力量,將哈佛燕京圖書館7000部珍貴古籍轉化為可檢索的數字資源,免費向公眾開放。
![]()
〓 參與校正古籍任務可獲得的紀念品
這一盛大的古籍數字化工程背后,是一段跨越百年的學術因緣。2023年,哈佛燕京館方將全部善本影像無償捐贈給北大圖書館。而這一舉動,是上世紀二十年代“文獻雙生”制度的跨時空回響。
1928年,燕京大學與哈佛燕京圖書館之間建立了一項特殊的藏書機制:凡由學社經費購置的中文文獻皆一式兩份,一份留存燕京,一份寄送哈佛。同時,雙方藏書建設分工鮮明:燕京側重西文參考書、西方漢學著作和近代期刊,哈佛則側重宋元善本、罕見稿本和地方志,以此實現中西文獻資源的互補 。
遺憾的是,隨著戰火燃起,這座跨越太平洋的學術之橋一度中斷。諸多版本精良的古籍善本,帶著未竟的學術使命,留在了大洋彼岸 。直到今天,通過數字化的方式,這段跨越百年的裂隙才得以彌合。
然而,單純的“文獻合璧”并不是終點,如何讓這浩如煙海的史料真正為人所用,才是更深層的命題。在這個意義上,“識典古籍”平臺上所能檢索到的每一段文字、每一個條目,不僅是數據的展示,也在賡續著一條更古老、更具奠基意義的學術脈絡——“索引”的傳統。它讓浩瀚如海的典籍可檢、可證,讓知識從分散的卷帙中煥發新生。
而在中國近現代學術史上,第一個以系統、嚴謹的方式為古籍建立現代索引體系的人,正是當年推動“文獻雙生”制度的洪業。他提出:“索引,是古籍之鑰” 。

洪業,1893年生于福州。青年時期,他遠赴美國求學,先后在哥倫比亞大學等學府深造。1922年,洪業受校長司徒雷登邀請,回國擔任燕京大學歷史學助理教授。
![]()
〓 洪業(左一)司徒雷登(左三)在燕京大學
當時的燕京大學,正如彼時中國的學術界:設備簡陋,師資匱乏。圖書館除四書五經外,學術參考書寥寥無幾。
洪業深感燕京大學需要大量基本參考書而沒錢買,便向美國友人募集資金,又爭取女院及霍爾遺產的資助,加上校長司徒雷登籌款,燕京圖書館藏書量迅速增長,成為當時全國最完善的學術圖書館之一。
然而,比起購書,洪業更關注知識體系的重建。當時,洪業放眼北京,京師圖書館和琉璃廠的舊書店藏書雖多,但缺乏系統編排,難以查閱。他意識到,如果知識如同散落的珍珠般無法被串聯和利用,學術的進步將受到阻礙。他開始思考一個更關鍵的問題:應該如何把中國古人積累的知識組合起來,讓未來的科學家、歷史學家能夠輕易索取?
他通過各種檢字方法,做了幾千張卡片,創立了“中國字庋擷法”(“庋擷(guǐ xié)”取“放進、抽出”之意)。這套方法不是簡單的查字法,而是洪業將西方現代信息科學理念與中國古典文獻學結合的產物。
![]()
〓 在美國時期的洪業
1928年,哈佛燕京學社在美國成立,洪業被聘為學社中國區的主要執行人。他在北平創立“引得編纂處”,并參照哈佛大學圖書館的工作流程,制定了一套嚴苛的編纂制度:卡片統一規格、編纂校對分離、設互校、復審與排印三道工序。他強調,編纂并非抄錄,而是一種“整理學的訓練”,要求學者在摘引時具備高度的判斷力與準確度。
洪業在《引得編纂計劃書》中寫下:“凡學術之進步,必賴材料之可檢。材料可檢,則學術可積。”至今仍被視為中國現代目錄學與信息學的思想源頭。
![]()
〓 識典古籍網頁截圖
洪業的工作并不局限在書齋。他在圖書館制度、課程設置、人才培養等方面也有深度參與:他要求后輩“頭腦清楚且獨立”,重視外語能力與版本意識;對可造之才,推薦出國深造、再回國主持學科。許多后來在考古、歷史、語文學領域卓有成就的學人,都受過這套“引得式訓練”。在編撰索引之余,洪業與同事推動了燕京與哈佛之間藏書的互補與共享,使“文獻雙生”的理念真正落地。

自1930年起,《引得叢刊》出版,累計達64種81冊,涵蓋經史子集,如《周易》《禮記》《杜詩》等。洪業將自己的理論與經驗匯集成專著《引得說》,系統闡述索引理論。他憑借《禮記引得序》厘清兩漢禮學淵源,于1937年獲得了法蘭西儒蓮獎(Prix Stanislas Julien)。
抗戰勝利后,洪業赴美,擔任哈佛燕京學社秘書,兼任講學與出版策劃工作。
1946年,洪業自美國回國,辭去燕京大學行政職務,重建引得編纂處。此后十年,是他學術生涯的第二個高峰。1946至1956年間,他與團隊完成了《二十四史引得》《資治通鑒引得》《漢書引得》等大型索引,又陸續推出地名、人名、制度等專題索引,出版總數逾三十種、八十余冊,幾乎覆蓋經、史、子、集諸部,成為 20 世紀上半葉中國文獻學史上最系統的工具書系列。每一部《引得》收錄十萬至二十萬條索引,洪業與同事以手抄卡片記錄字詞、頁碼與出處。
這些在常人眼中繁瑣的勞動,卻在當時搭建起了中國近代學術體系中最早的“數據邏輯”。
這些書的直接影響,是讓討論必須“就章有據”,不再停留于印象式轉述;更長遠的價值,則是把“可檢索、可驗證、可復用”變成學術交流的基礎。洪業常說:“引得不是結論,是入口。”有了這入口,后來的研究者才能沿著清晰的坐標回到原典,完成比對與復演。
![]()
〓 識典古籍網頁截圖
《哈佛亞洲學報》刊登了洪業的著作表,列出他在這一時期完成的四十一種學術成果,其中大多為中文,也有英文著作。可以說,洪業創辦的引得編纂體系,是二十世紀上半葉研究中國文化最重要的一系列參考書——它以現代方法重新整理古籍,用索引重建了學術秩序。自此之后,討論中國人物、典章與制度,不能再含糊帶過,必須指明出處;而那些歷經千百年沉積的語義與史實,也因“引得”而逐漸澄明,“歷史真理”的標準被重新提升。
洪業在學社年報中提出“引得編纂處經驗應為中西目錄學互通之范”,強調“標準化與國際合作的重要性”。他認為,學術必須被視為“公共基礎設施”,不是某個學者的個人事業,而是社會應共同維護的知識系統。他多次在報告中指出:“學問若失其證據,終將淪為意見之爭。”
值得慶幸的是,洪業“共同維護”與“保留學問證據”的理念,在今天得以延續。

2022年,字節跳動公益與北京大學數字人文研究中心共建“北京大學——字節跳動數字人文開放實驗室”,新一輪古籍數字化合作從這里啟動。同年10月,“識典古籍”平臺上線,整合古籍影像、文本與智能檢索工具,成為國內首個覆蓋古籍整理全流程的開放系統,正是延續了洪業倡導的“可檢索、可驗證、可復用”。
截至目前,平臺已收錄四萬三千余部古籍,支持全文檢索、注釋、標點與比對,讓古籍從“束之高閣”真正走向公眾。
2024年,“我用AI校古籍”項目啟動。三萬四千名高校師生與社會志愿者參與OCR識別與校勘,累計整理古籍一萬九千余部,修訂文本超十三億字。他們在AI識別的基礎上逐字比對、補錄殘缺,使洪業當年的“整理學訓練”以新的方式傳承下來。
AI改變了工作流程,讓古籍整理的門檻大幅降低。一部傳統古籍需要幾個月才能整理完成,而現在只要幾周時間。
![]()
〓 大眾可領取古籍校正任務
華東師范大學古典文獻學博士生劉帥便是一個典型案例。劉帥曾對古籍整理軟件頗為懷疑。然而,2024年9月,他聽說“我是‘校書官’”項目,一個月便整理出五千多萬字的古籍,感到震驚:“我之前一年能整理幾十萬字就很了不起了。”
使用識典古籍,勘校速度的提升十分驚人:劉帥頭一個月初步整理出200萬字的古籍,這是他過去速度的20倍。接下來的三個月里,他校點、標注、排版、審閱的書目達到191種,總字數超500萬。劉帥說:“AI在閱讀大量人類成果后,對古文具備了相當的‘語感’。”
這種效率的飛躍,源于技術的更新迭代。
目前,平臺文字識別準確率超96%,自動標點準確率達94%,命名實體識別(人名、地名、職官)接近98%。AI會用不同顏色標記識別不確定的“疑難字”,提示志愿者對照底本進行修改。
北京大學數字人文中心副主任楊浩指出,現在有了機器學習,AI先初步整理古籍,逐字校對,再由大眾志愿者來校對,最后把難點提交給專家。“AI改變了工作流程,分包制度降低了門檻,傳統的手工作坊變成流水線工廠了。”

不只是專家學者,普通人同樣可以在古籍校對中做出貢獻。
九衛是一位機場的調度員。白天,他在機場做安全調度,到了夜晚便走進書房,一頭扎進古籍。他從小熱愛古籍,雖然聽從家人建議選了民航運輸專業,但一直沒有放棄自己的愛好。成為“校書官”后,他對著古本核對,發現古籍中有些錯字代代相傳。能揪出這些錯誤,讓他很有成就感。在識典古籍這個精神世界中,九衛得以將世俗壓力拋之腦后。同時,在完成多項古籍校勘任務后,他加入了“進階組”,可以和專家學者們一起探討、校正。
![]()
〓 九衛在參與校對中
“識典古籍”以“智能+眾包”的模式,使古籍整理從孤立的學者書齋,轉化為可協作的公共行動,真正實現了洪業“共同維護知識系統”的理想。
為了激發公眾持續的參與熱情,平臺設計了一套激勵機制:志愿者可通過校對貢獻,領取不同等級的獎勵。前期的獎勵是可拼在一起的冰箱貼,象征著知識的累積和協作。最高的榮譽,則是被稱為“金典典”的獎杯——貢獻需投入1000小時以上。這樣高的要求,還是有50人完成了任務。同時,每一個參與校正的人,都會在識典古籍中留下自己的名字。這種將貢獻度與獎品掛鉤的設計,成功將嚴謹的學術工作,轉變為一場每個人都能參與的文化活動。
![]()
〓 根據不同勘校貢獻度可領取不同獎勵
如果說洪業當年的“引得編纂處”,是學者以筆為器、以紙為田的工坊,那么今天的數字平臺,正是對這種精神的現代化延續。不同的是,昔日十余人伏案抄錄,如今,數萬名志愿者與AI模型并肩完成同樣的工作。
在這條從紙端到云端的道路上,技術并未取代學術,而是回到了洪業的原點——讓知識能夠被檢、被證、被繼。
1979年秋,洪業去世前一年,他與幾位老友聚談,提起故人,他嘆道:“過世了,都過世了。杜甫有句詩說,訪舊半為鬼,我現在是相知多為鬼。”朋友笑著說:“咱們也老了。”洪業答:“不久都過去了。”
但一切并沒有過去。那些他寫下的一張張卡片,如今化為數據庫里的索引,那些散佚殘缺的典籍,在無數人手中被重新點亮。學術的傳承不僅只是專家的工作,而是依靠系統的可證與眾人的協作——沒有儀式,也不喧嘩,它只是在人與古籍之間,靜靜地延續。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.