作者/何偉
編輯/劉暮
近期,哈佛燕京圖書館的古籍珍藏在“識典古籍”平臺上線。在這批海量數(shù)據(jù)中,人們得以一睹宋刻《十誦律》、元刻《隋書》、明抄《永樂大典》、清抄《杜詩》等稀世典籍的高清書影,還能檢索到齊思和、顧頡剛、容庚、鄭德坤等學(xué)者留下的校勘痕跡與研究路徑。
哈佛燕京圖書館素以館藏豐富、孤本眾多聞名,現(xiàn)藏古籍總數(shù)達(dá)13300余部(約15萬冊),包含宋元明清各代刻本及稿抄本。其中,善本數(shù)量約4000部,學(xué)術(shù)價值極高。
館藏的一大亮點(diǎn)是地方志與叢書:3000余部方志約占中國大陸現(xiàn)存總量的39%,1400余部叢書則涵蓋了半部《中國叢書綜錄》。此外,館內(nèi)還珍藏有《永樂大典》兩卷、毛氏汲古閣抄本以及大量明清禁書,皆為難得一見的文獻(xiàn)珍品。
![]()
〓 識典古籍哈佛燕京數(shù)據(jù)庫網(wǎng)頁截圖
這批數(shù)據(jù)的上線,不僅實(shí)現(xiàn)了中西文獻(xiàn)資源的合璧,更讓這筆知識遺產(chǎn)以最高清、最完整的姿態(tài)重回中文世界的視野。
為了讓這些沉睡的古籍真正活起來,2024年,由全國高等院校古籍整理研究工作委員會、字節(jié)跳動公益與北大數(shù)字人文中心聯(lián)合發(fā)起“我用AI校古籍”行動。依托技術(shù)與平臺的力量,將哈佛燕京圖書館7000部珍貴古籍轉(zhuǎn)化為可檢索的數(shù)字資源,免費(fèi)向公眾開放。
![]()
〓 參與校正古籍任務(wù)可獲得的紀(jì)念品
這一盛大的古籍?dāng)?shù)字化工程背后,是一段跨越百年的學(xué)術(shù)因緣。2023年,哈佛燕京館方將全部善本影像無償捐贈給北大圖書館。而這一舉動,是上世紀(jì)二十年代“文獻(xiàn)雙生”制度的跨時空回響。
1928年,燕京大學(xué)與哈佛燕京圖書館之間建立了一項特殊的藏書機(jī)制:凡由學(xué)社經(jīng)費(fèi)購置的中文文獻(xiàn)皆一式兩份,一份留存燕京,一份寄送哈佛。同時,雙方藏書建設(shè)分工鮮明:燕京側(cè)重西文參考書、西方漢學(xué)著作和近代期刊,哈佛則側(cè)重宋元善本、罕見稿本和地方志,以此實(shí)現(xiàn)中西文獻(xiàn)資源的互補(bǔ) 。
遺憾的是,隨著戰(zhàn)火燃起,這座跨越太平洋的學(xué)術(shù)之橋一度中斷。諸多版本精良的古籍善本,帶著未竟的學(xué)術(shù)使命,留在了大洋彼岸 。直到今天,通過數(shù)字化的方式,這段跨越百年的裂隙才得以彌合。
然而,單純的“文獻(xiàn)合璧”并不是終點(diǎn),如何讓這浩如煙海的史料真正為人所用,才是更深層的命題。在這個意義上,“識典古籍”平臺上所能檢索到的每一段文字、每一個條目,不僅是數(shù)據(jù)的展示,也在賡續(xù)著一條更古老、更具奠基意義的學(xué)術(shù)脈絡(luò)——“索引”的傳統(tǒng)。它讓浩瀚如海的典籍可檢、可證,讓知識從分散的卷帙中煥發(fā)新生。
而在中國近現(xiàn)代學(xué)術(shù)史上,第一個以系統(tǒng)、嚴(yán)謹(jǐn)?shù)姆绞綖楣偶F(xiàn)代索引體系的人,正是當(dāng)年推動“文獻(xiàn)雙生”制度的洪業(yè)。他提出:“索引,是古籍之鑰” 。

洪業(yè),1893年生于福州。青年時期,他遠(yuǎn)赴美國求學(xué),先后在哥倫比亞大學(xué)等學(xué)府深造。1922年,洪業(yè)受校長司徒雷登邀請,回國擔(dān)任燕京大學(xué)歷史學(xué)助理教授。
![]()
〓 洪業(yè)(左一)司徒雷登(左三)在燕京大學(xué)
當(dāng)時的燕京大學(xué),正如彼時中國的學(xué)術(shù)界:設(shè)備簡陋,師資匱乏。圖書館除四書五經(jīng)外,學(xué)術(shù)參考書寥寥無幾。
洪業(yè)深感燕京大學(xué)需要大量基本參考書而沒錢買,便向美國友人募集資金,又爭取女院及霍爾遺產(chǎn)的資助,加上校長司徒雷登籌款,燕京圖書館藏書量迅速增長,成為當(dāng)時全國最完善的學(xué)術(shù)圖書館之一。
然而,比起購書,洪業(yè)更關(guān)注知識體系的重建。當(dāng)時,洪業(yè)放眼北京,京師圖書館和琉璃廠的舊書店藏書雖多,但缺乏系統(tǒng)編排,難以查閱。他意識到,如果知識如同散落的珍珠般無法被串聯(lián)和利用,學(xué)術(shù)的進(jìn)步將受到阻礙。他開始思考一個更關(guān)鍵的問題:應(yīng)該如何把中國古人積累的知識組合起來,讓未來的科學(xué)家、歷史學(xué)家能夠輕易索取?
他通過各種檢字方法,做了幾千張卡片,創(chuàng)立了“中國字庋擷法”(“庋擷(guǐ xié)”取“放進(jìn)、抽出”之意)。這套方法不是簡單的查字法,而是洪業(yè)將西方現(xiàn)代信息科學(xué)理念與中國古典文獻(xiàn)學(xué)結(jié)合的產(chǎn)物。
![]()
〓 在美國時期的洪業(yè)
1928年,哈佛燕京學(xué)社在美國成立,洪業(yè)被聘為學(xué)社中國區(qū)的主要執(zhí)行人。他在北平創(chuàng)立“引得編纂處”,并參照哈佛大學(xué)圖書館的工作流程,制定了一套嚴(yán)苛的編纂制度:卡片統(tǒng)一規(guī)格、編纂校對分離、設(shè)互校、復(fù)審與排印三道工序。他強(qiáng)調(diào),編纂并非抄錄,而是一種“整理學(xué)的訓(xùn)練”,要求學(xué)者在摘引時具備高度的判斷力與準(zhǔn)確度。
洪業(yè)在《引得編纂計劃書》中寫下:“凡學(xué)術(shù)之進(jìn)步,必賴材料之可檢。材料可檢,則學(xué)術(shù)可積。”至今仍被視為中國現(xiàn)代目錄學(xué)與信息學(xué)的思想源頭。
![]()
〓 識典古籍網(wǎng)頁截圖
洪業(yè)的工作并不局限在書齋。他在圖書館制度、課程設(shè)置、人才培養(yǎng)等方面也有深度參與:他要求后輩“頭腦清楚且獨(dú)立”,重視外語能力與版本意識;對可造之才,推薦出國深造、再回國主持學(xué)科。許多后來在考古、歷史、語文學(xué)領(lǐng)域卓有成就的學(xué)人,都受過這套“引得式訓(xùn)練”。在編撰索引之余,洪業(yè)與同事推動了燕京與哈佛之間藏書的互補(bǔ)與共享,使“文獻(xiàn)雙生”的理念真正落地。

自1930年起,《引得叢刊》出版,累計達(dá)64種81冊,涵蓋經(jīng)史子集,如《周易》《禮記》《杜詩》等。洪業(yè)將自己的理論與經(jīng)驗匯集成專著《引得說》,系統(tǒng)闡述索引理論。他憑借《禮記引得序》厘清兩漢禮學(xué)淵源,于1937年獲得了法蘭西儒蓮獎(Prix Stanislas Julien)。
抗戰(zhàn)勝利后,洪業(yè)赴美,擔(dān)任哈佛燕京學(xué)社秘書,兼任講學(xué)與出版策劃工作。
1946年,洪業(yè)自美國回國,辭去燕京大學(xué)行政職務(wù),重建引得編纂處。此后十年,是他學(xué)術(shù)生涯的第二個高峰。1946至1956年間,他與團(tuán)隊完成了《二十四史引得》《資治通鑒引得》《漢書引得》等大型索引,又陸續(xù)推出地名、人名、制度等專題索引,出版總數(shù)逾三十種、八十余冊,幾乎覆蓋經(jīng)、史、子、集諸部,成為 20 世紀(jì)上半葉中國文獻(xiàn)學(xué)史上最系統(tǒng)的工具書系列。每一部《引得》收錄十萬至二十萬條索引,洪業(yè)與同事以手抄卡片記錄字詞、頁碼與出處。
這些在常人眼中繁瑣的勞動,卻在當(dāng)時搭建起了中國近代學(xué)術(shù)體系中最早的“數(shù)據(jù)邏輯”。
這些書的直接影響,是讓討論必須“就章有據(jù)”,不再停留于印象式轉(zhuǎn)述;更長遠(yuǎn)的價值,則是把“可檢索、可驗證、可復(fù)用”變成學(xué)術(shù)交流的基礎(chǔ)。洪業(yè)常說:“引得不是結(jié)論,是入口。”有了這入口,后來的研究者才能沿著清晰的坐標(biāo)回到原典,完成比對與復(fù)演。
![]()
〓 識典古籍網(wǎng)頁截圖
《哈佛亞洲學(xué)報》刊登了洪業(yè)的著作表,列出他在這一時期完成的四十一種學(xué)術(shù)成果,其中大多為中文,也有英文著作。可以說,洪業(yè)創(chuàng)辦的引得編纂體系,是二十世紀(jì)上半葉研究中國文化最重要的一系列參考書——它以現(xiàn)代方法重新整理古籍,用索引重建了學(xué)術(shù)秩序。自此之后,討論中國人物、典章與制度,不能再含糊帶過,必須指明出處;而那些歷經(jīng)千百年沉積的語義與史實(shí),也因“引得”而逐漸澄明,“歷史真理”的標(biāo)準(zhǔn)被重新提升。
洪業(yè)在學(xué)社年報中提出“引得編纂處經(jīng)驗應(yīng)為中西目錄學(xué)互通之范”,強(qiáng)調(diào)“標(biāo)準(zhǔn)化與國際合作的重要性”。他認(rèn)為,學(xué)術(shù)必須被視為“公共基礎(chǔ)設(shè)施”,不是某個學(xué)者的個人事業(yè),而是社會應(yīng)共同維護(hù)的知識系統(tǒng)。他多次在報告中指出:“學(xué)問若失其證據(jù),終將淪為意見之爭。”
值得慶幸的是,洪業(yè)“共同維護(hù)”與“保留學(xué)問證據(jù)”的理念,在今天得以延續(xù)。

2022年,字節(jié)跳動公益與北京大學(xué)數(shù)字人文研究中心共建“北京大學(xué)——字節(jié)跳動數(shù)字人文開放實(shí)驗室”,新一輪古籍?dāng)?shù)字化合作從這里啟動。同年10月,“識典古籍”平臺上線,整合古籍影像、文本與智能檢索工具,成為國內(nèi)首個覆蓋古籍整理全流程的開放系統(tǒng),正是延續(xù)了洪業(yè)倡導(dǎo)的“可檢索、可驗證、可復(fù)用”。
截至目前,平臺已收錄四萬三千余部古籍,支持全文檢索、注釋、標(biāo)點(diǎn)與比對,讓古籍從“束之高閣”真正走向公眾。
2024年,“我用AI校古籍”項目啟動。三萬四千名高校師生與社會志愿者參與OCR識別與校勘,累計整理古籍一萬九千余部,修訂文本超十三億字。他們在AI識別的基礎(chǔ)上逐字比對、補(bǔ)錄殘缺,使洪業(yè)當(dāng)年的“整理學(xué)訓(xùn)練”以新的方式傳承下來。
AI改變了工作流程,讓古籍整理的門檻大幅降低。一部傳統(tǒng)古籍需要幾個月才能整理完成,而現(xiàn)在只要幾周時間。
![]()
〓 大眾可領(lǐng)取古籍校正任務(wù)
華東師范大學(xué)古典文獻(xiàn)學(xué)博士生劉帥便是一個典型案例。劉帥曾對古籍整理軟件頗為懷疑。然而,2024年9月,他聽說“我是‘校書官’”項目,一個月便整理出五千多萬字的古籍,感到震驚:“我之前一年能整理幾十萬字就很了不起了。”
使用識典古籍,勘校速度的提升十分驚人:劉帥頭一個月初步整理出200萬字的古籍,這是他過去速度的20倍。接下來的三個月里,他校點(diǎn)、標(biāo)注、排版、審閱的書目達(dá)到191種,總字?jǐn)?shù)超500萬。劉帥說:“AI在閱讀大量人類成果后,對古文具備了相當(dāng)?shù)摹Z感’。”
這種效率的飛躍,源于技術(shù)的更新迭代。
目前,平臺文字識別準(zhǔn)確率超96%,自動標(biāo)點(diǎn)準(zhǔn)確率達(dá)94%,命名實(shí)體識別(人名、地名、職官)接近98%。AI會用不同顏色標(biāo)記識別不確定的“疑難字”,提示志愿者對照底本進(jìn)行修改。
北京大學(xué)數(shù)字人文中心副主任楊浩指出,現(xiàn)在有了機(jī)器學(xué)習(xí),AI先初步整理古籍,逐字校對,再由大眾志愿者來校對,最后把難點(diǎn)提交給專家。“AI改變了工作流程,分包制度降低了門檻,傳統(tǒng)的手工作坊變成流水線工廠了。”

不只是專家學(xué)者,普通人同樣可以在古籍校對中做出貢獻(xiàn)。
九衛(wèi)是一位機(jī)場的調(diào)度員。白天,他在機(jī)場做安全調(diào)度,到了夜晚便走進(jìn)書房,一頭扎進(jìn)古籍。他從小熱愛古籍,雖然聽從家人建議選了民航運(yùn)輸專業(yè),但一直沒有放棄自己的愛好。成為“校書官”后,他對著古本核對,發(fā)現(xiàn)古籍中有些錯字代代相傳。能揪出這些錯誤,讓他很有成就感。在識典古籍這個精神世界中,九衛(wèi)得以將世俗壓力拋之腦后。同時,在完成多項古籍校勘任務(wù)后,他加入了“進(jìn)階組”,可以和專家學(xué)者們一起探討、校正。
![]()
〓 九衛(wèi)在參與校對中
“識典古籍”以“智能+眾包”的模式,使古籍整理從孤立的學(xué)者書齋,轉(zhuǎn)化為可協(xié)作的公共行動,真正實(shí)現(xiàn)了洪業(yè)“共同維護(hù)知識系統(tǒng)”的理想。
為了激發(fā)公眾持續(xù)的參與熱情,平臺設(shè)計了一套激勵機(jī)制:志愿者可通過校對貢獻(xiàn),領(lǐng)取不同等級的獎勵。前期的獎勵是可拼在一起的冰箱貼,象征著知識的累積和協(xié)作。最高的榮譽(yù),則是被稱為“金典典”的獎杯——貢獻(xiàn)需投入1000小時以上。這樣高的要求,還是有50人完成了任務(wù)。同時,每一個參與校正的人,都會在識典古籍中留下自己的名字。這種將貢獻(xiàn)度與獎品掛鉤的設(shè)計,成功將嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)工作,轉(zhuǎn)變?yōu)橐粓雒總€人都能參與的文化活動。
![]()
〓 根據(jù)不同勘校貢獻(xiàn)度可領(lǐng)取不同獎勵
如果說洪業(yè)當(dāng)年的“引得編纂處”,是學(xué)者以筆為器、以紙為田的工坊,那么今天的數(shù)字平臺,正是對這種精神的現(xiàn)代化延續(xù)。不同的是,昔日十余人伏案抄錄,如今,數(shù)萬名志愿者與AI模型并肩完成同樣的工作。
在這條從紙端到云端的道路上,技術(shù)并未取代學(xué)術(shù),而是回到了洪業(yè)的原點(diǎn)——讓知識能夠被檢、被證、被繼。
1979年秋,洪業(yè)去世前一年,他與幾位老友聚談,提起故人,他嘆道:“過世了,都過世了。杜甫有句詩說,訪舊半為鬼,我現(xiàn)在是相知多為鬼。”朋友笑著說:“咱們也老了。”洪業(yè)答:“不久都過去了。”
但一切并沒有過去。那些他寫下的一張張卡片,如今化為數(shù)據(jù)庫里的索引,那些散佚殘缺的典籍,在無數(shù)人手中被重新點(diǎn)亮。學(xué)術(shù)的傳承不僅只是專家的工作,而是依靠系統(tǒng)的可證與眾人的協(xié)作——沒有儀式,也不喧嘩,它只是在人與古籍之間,靜靜地延續(xù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.