第一批用AI「偷懶」的人，搶救了13億字古籍

2025-12-29 14:18:02　來源: 鳳凰WEEKLY

北京舉報

分享至

作者/何偉

編輯/劉暮

近期，哈佛燕京圖書館的古籍珍藏在“識典古籍”平臺上線。在這批海量數(shù)據(jù)中，人們得以一睹宋刻《十誦律》、元刻《隋書》、明抄《永樂大典》、清抄《杜詩》等稀世典籍的高清書影，還能檢索到齊思和、顧頡剛、容庚、鄭德坤等學(xué)者留下的校勘痕跡與研究路徑。

哈佛燕京圖書館素以館藏豐富、孤本眾多聞名，現(xiàn)藏古籍總數(shù)達(dá)13300余部（約15萬冊），包含宋元明清各代刻本及稿抄本。其中，善本數(shù)量約4000部，學(xué)術(shù)價值極高。

館藏的一大亮點(diǎn)是地方志與叢書：3000余部方志約占中國大陸現(xiàn)存總量的39%，1400余部叢書則涵蓋了半部《中國叢書綜錄》。此外，館內(nèi)還珍藏有《永樂大典》兩卷、毛氏汲古閣抄本以及大量明清禁書，皆為難得一見的文獻(xiàn)珍品。

〓識典古籍哈佛燕京數(shù)據(jù)庫網(wǎng)頁截圖

這批數(shù)據(jù)的上線，不僅實(shí)現(xiàn)了中西文獻(xiàn)資源的合璧，更讓這筆知識遺產(chǎn)以最高清、最完整的姿態(tài)重回中文世界的視野。

為了讓這些沉睡的古籍真正活起來，2024年，由全國高等院校古籍整理研究工作委員會、字節(jié)跳動公益與北大數(shù)字人文中心聯(lián)合發(fā)起“我用AI校古籍”行動。依托技術(shù)與平臺的力量，將哈佛燕京圖書館7000部珍貴古籍轉(zhuǎn)化為可檢索的數(shù)字資源，免費(fèi)向公眾開放。

〓參與校正古籍任務(wù)可獲得的紀(jì)念品

這一盛大的古籍?dāng)?shù)字化工程背后，是一段跨越百年的學(xué)術(shù)因緣。2023年，哈佛燕京館方將全部善本影像無償捐贈給北大圖書館。而這一舉動，是上世紀(jì)二十年代“文獻(xiàn)雙生”制度的跨時空回響。

1928年，燕京大學(xué)與哈佛燕京圖書館之間建立了一項特殊的藏書機(jī)制：凡由學(xué)社經(jīng)費(fèi)購置的中文文獻(xiàn)皆一式兩份，一份留存燕京，一份寄送哈佛。同時，雙方藏書建設(shè)分工鮮明：燕京側(cè)重西文參考書、西方漢學(xué)著作和近代期刊，哈佛則側(cè)重宋元善本、罕見稿本和地方志，以此實(shí)現(xiàn)中西文獻(xiàn)資源的互補(bǔ) 。

遺憾的是，隨著戰(zhàn)火燃起，這座跨越太平洋的學(xué)術(shù)之橋一度中斷。諸多版本精良的古籍善本，帶著未竟的學(xué)術(shù)使命，留在了大洋彼岸。直到今天，通過數(shù)字化的方式，這段跨越百年的裂隙才得以彌合。

然而，單純的“文獻(xiàn)合璧”并不是終點(diǎn)，如何讓這浩如煙海的史料真正為人所用，才是更深層的命題。在這個意義上，“識典古籍”平臺上所能檢索到的每一段文字、每一個條目，不僅是數(shù)據(jù)的展示，也在賡續(xù)著一條更古老、更具奠基意義的學(xué)術(shù)脈絡(luò)——“索引”的傳統(tǒng)。它讓浩瀚如海的典籍可檢、可證，讓知識從分散的卷帙中煥發(fā)新生。

而在中國近現(xiàn)代學(xué)術(shù)史上，第一個以系統(tǒng)、嚴(yán)謹(jǐn)?shù)姆绞綖楣偶F(xiàn)代索引體系的人，正是當(dāng)年推動“文獻(xiàn)雙生”制度的洪業(yè)。他提出：“索引，是古籍之鑰” 。

洪業(yè)，1893年生于福州。青年時期，他遠(yuǎn)赴美國求學(xué)，先后在哥倫比亞大學(xué)等學(xué)府深造。1922年，洪業(yè)受校長司徒雷登邀請，回國擔(dān)任燕京大學(xué)歷史學(xué)助理教授。

〓洪業(yè)（左一）司徒雷登（左三）在燕京大學(xué)

當(dāng)時的燕京大學(xué)，正如彼時中國的學(xué)術(shù)界：設(shè)備簡陋，師資匱乏。圖書館除四書五經(jīng)外，學(xué)術(shù)參考書寥寥無幾。

洪業(yè)深感燕京大學(xué)需要大量基本參考書而沒錢買，便向美國友人募集資金，又爭取女院及霍爾遺產(chǎn)的資助，加上校長司徒雷登籌款，燕京圖書館藏書量迅速增長，成為當(dāng)時全國最完善的學(xué)術(shù)圖書館之一。

然而，比起購書，洪業(yè)更關(guān)注知識體系的重建。當(dāng)時，洪業(yè)放眼北京，京師圖書館和琉璃廠的舊書店藏書雖多，但缺乏系統(tǒng)編排，難以查閱。他意識到，如果知識如同散落的珍珠般無法被串聯(lián)和利用，學(xué)術(shù)的進(jìn)步將受到阻礙。他開始思考一個更關(guān)鍵的問題：應(yīng)該如何把中國古人積累的知識組合起來，讓未來的科學(xué)家、歷史學(xué)家能夠輕易索取？

他通過各種檢字方法，做了幾千張卡片，創(chuàng)立了“中國字庋擷法”（“庋擷（guǐ xié）”取“放進(jìn)、抽出”之意）。這套方法不是簡單的查字法，而是洪業(yè)將西方現(xiàn)代信息科學(xué)理念與中國古典文獻(xiàn)學(xué)結(jié)合的產(chǎn)物。

〓在美國時期的洪業(yè)

1928年，哈佛燕京學(xué)社在美國成立，洪業(yè)被聘為學(xué)社中國區(qū)的主要執(zhí)行人。他在北平創(chuàng)立“引得編纂處”，并參照哈佛大學(xué)圖書館的工作流程，制定了一套嚴(yán)苛的編纂制度：卡片統(tǒng)一規(guī)格、編纂校對分離、設(shè)互校、復(fù)審與排印三道工序。他強(qiáng)調(diào)，編纂并非抄錄，而是一種“整理學(xué)的訓(xùn)練”，要求學(xué)者在摘引時具備高度的判斷力與準(zhǔn)確度。

洪業(yè)在《引得編纂計劃書》中寫下：“凡學(xué)術(shù)之進(jìn)步，必賴材料之可檢。材料可檢，則學(xué)術(shù)可積。”至今仍被視為中國現(xiàn)代目錄學(xué)與信息學(xué)的思想源頭。

〓識典古籍網(wǎng)頁截圖

洪業(yè)的工作并不局限在書齋。他在圖書館制度、課程設(shè)置、人才培養(yǎng)等方面也有深度參與：他要求后輩“頭腦清楚且獨(dú)立”，重視外語能力與版本意識；對可造之才，推薦出國深造、再回國主持學(xué)科。許多后來在考古、歷史、語文學(xué)領(lǐng)域卓有成就的學(xué)人，都受過這套“引得式訓(xùn)練”。在編撰索引之余，洪業(yè)與同事推動了燕京與哈佛之間藏書的互補(bǔ)與共享，使“文獻(xiàn)雙生”的理念真正落地。

自1930年起，《引得叢刊》出版，累計達(dá)64種81冊，涵蓋經(jīng)史子集，如《周易》《禮記》《杜詩》等。洪業(yè)將自己的理論與經(jīng)驗匯集成專著《引得說》，系統(tǒng)闡述索引理論。他憑借《禮記引得序》厘清兩漢禮學(xué)淵源，于1937年獲得了法蘭西儒蓮獎（Prix Stanislas Julien）。

抗戰(zhàn)勝利后，洪業(yè)赴美，擔(dān)任哈佛燕京學(xué)社秘書，兼任講學(xué)與出版策劃工作。

1946年，洪業(yè)自美國回國，辭去燕京大學(xué)行政職務(wù)，重建引得編纂處。此后十年，是他學(xué)術(shù)生涯的第二個高峰。1946至1956年間，他與團(tuán)隊完成了《二十四史引得》《資治通鑒引得》《漢書引得》等大型索引，又陸續(xù)推出地名、人名、制度等專題索引，出版總數(shù)逾三十種、八十余冊，幾乎覆蓋經(jīng)、史、子、集諸部，成為 20 世紀(jì)上半葉中國文獻(xiàn)學(xué)史上最系統(tǒng)的工具書系列。每一部《引得》收錄十萬至二十萬條索引，洪業(yè)與同事以手抄卡片記錄字詞、頁碼與出處。

這些在常人眼中繁瑣的勞動，卻在當(dāng)時搭建起了中國近代學(xué)術(shù)體系中最早的“數(shù)據(jù)邏輯”。

這些書的直接影響，是讓討論必須“就章有據(jù)”，不再停留于印象式轉(zhuǎn)述；更長遠(yuǎn)的價值，則是把“可檢索、可驗證、可復(fù)用”變成學(xué)術(shù)交流的基礎(chǔ)。洪業(yè)常說：“引得不是結(jié)論，是入口。”有了這入口，后來的研究者才能沿著清晰的坐標(biāo)回到原典，完成比對與復(fù)演。

〓識典古籍網(wǎng)頁截圖

《哈佛亞洲學(xué)報》刊登了洪業(yè)的著作表，列出他在這一時期完成的四十一種學(xué)術(shù)成果，其中大多為中文，也有英文著作。可以說，洪業(yè)創(chuàng)辦的引得編纂體系，是二十世紀(jì)上半葉研究中國文化最重要的一系列參考書——它以現(xiàn)代方法重新整理古籍，用索引重建了學(xué)術(shù)秩序。自此之后，討論中國人物、典章與制度，不能再含糊帶過，必須指明出處；而那些歷經(jīng)千百年沉積的語義與史實(shí)，也因“引得”而逐漸澄明，“歷史真理”的標(biāo)準(zhǔn)被重新提升。

洪業(yè)在學(xué)社年報中提出“引得編纂處經(jīng)驗應(yīng)為中西目錄學(xué)互通之范”，強(qiáng)調(diào)“標(biāo)準(zhǔn)化與國際合作的重要性”。他認(rèn)為，學(xué)術(shù)必須被視為“公共基礎(chǔ)設(shè)施”，不是某個學(xué)者的個人事業(yè)，而是社會應(yīng)共同維護(hù)的知識系統(tǒng)。他多次在報告中指出：“學(xué)問若失其證據(jù)，終將淪為意見之爭。”

值得慶幸的是，洪業(yè)“共同維護(hù)”與“保留學(xué)問證據(jù)”的理念，在今天得以延續(xù)。

2022年，字節(jié)跳動公益與北京大學(xué)數(shù)字人文研究中心共建“北京大學(xué)——字節(jié)跳動數(shù)字人文開放實(shí)驗室”，新一輪古籍?dāng)?shù)字化合作從這里啟動。同年10月，“識典古籍”平臺上線，整合古籍影像、文本與智能檢索工具，成為國內(nèi)首個覆蓋古籍整理全流程的開放系統(tǒng)，正是延續(xù)了洪業(yè)倡導(dǎo)的“可檢索、可驗證、可復(fù)用”。

截至目前，平臺已收錄四萬三千余部古籍，支持全文檢索、注釋、標(biāo)點(diǎn)與比對，讓古籍從“束之高閣”真正走向公眾。

2024年，“我用AI校古籍”項目啟動。三萬四千名高校師生與社會志愿者參與OCR識別與校勘，累計整理古籍一萬九千余部，修訂文本超十三億字。他們在AI識別的基礎(chǔ)上逐字比對、補(bǔ)錄殘缺，使洪業(yè)當(dāng)年的“整理學(xué)訓(xùn)練”以新的方式傳承下來。

AI改變了工作流程，讓古籍整理的門檻大幅降低。一部傳統(tǒng)古籍需要幾個月才能整理完成，而現(xiàn)在只要幾周時間。

〓大眾可領(lǐng)取古籍校正任務(wù)

華東師范大學(xué)古典文獻(xiàn)學(xué)博士生劉帥便是一個典型案例。劉帥曾對古籍整理軟件頗為懷疑。然而，2024年9月，他聽說“我是‘校書官’”項目，一個月便整理出五千多萬字的古籍，感到震驚：“我之前一年能整理幾十萬字就很了不起了。”

使用識典古籍，勘校速度的提升十分驚人：劉帥頭一個月初步整理出200萬字的古籍，這是他過去速度的20倍。接下來的三個月里，他校點(diǎn)、標(biāo)注、排版、審閱的書目達(dá)到191種，總字?jǐn)?shù)超500萬。劉帥說：“AI在閱讀大量人類成果后，對古文具備了相當(dāng)?shù)摹Z感’。”

這種效率的飛躍，源于技術(shù)的更新迭代。

目前，平臺文字識別準(zhǔn)確率超96%，自動標(biāo)點(diǎn)準(zhǔn)確率達(dá)94%，命名實(shí)體識別（人名、地名、職官）接近98%。AI會用不同顏色標(biāo)記識別不確定的“疑難字”，提示志愿者對照底本進(jìn)行修改。

北京大學(xué)數(shù)字人文中心副主任楊浩指出，現(xiàn)在有了機(jī)器學(xué)習(xí)，AI先初步整理古籍，逐字校對，再由大眾志愿者來校對，最后把難點(diǎn)提交給專家。“AI改變了工作流程，分包制度降低了門檻，傳統(tǒng)的手工作坊變成流水線工廠了。”

不只是專家學(xué)者，普通人同樣可以在古籍校對中做出貢獻(xiàn)。

九衛(wèi)是一位機(jī)場的調(diào)度員。白天，他在機(jī)場做安全調(diào)度，到了夜晚便走進(jìn)書房，一頭扎進(jìn)古籍。他從小熱愛古籍，雖然聽從家人建議選了民航運(yùn)輸專業(yè)，但一直沒有放棄自己的愛好。成為“校書官”后，他對著古本核對，發(fā)現(xiàn)古籍中有些錯字代代相傳。能揪出這些錯誤，讓他很有成就感。在識典古籍這個精神世界中，九衛(wèi)得以將世俗壓力拋之腦后。同時，在完成多項古籍校勘任務(wù)后，他加入了“進(jìn)階組”，可以和專家學(xué)者們一起探討、校正。

〓九衛(wèi)在參與校對中

“識典古籍”以“智能+眾包”的模式，使古籍整理從孤立的學(xué)者書齋，轉(zhuǎn)化為可協(xié)作的公共行動，真正實(shí)現(xiàn)了洪業(yè)“共同維護(hù)知識系統(tǒng)”的理想。

為了激發(fā)公眾持續(xù)的參與熱情，平臺設(shè)計了一套激勵機(jī)制：志愿者可通過校對貢獻(xiàn)，領(lǐng)取不同等級的獎勵。前期的獎勵是可拼在一起的冰箱貼，象征著知識的累積和協(xié)作。最高的榮譽(yù)，則是被稱為“金典典”的獎杯——貢獻(xiàn)需投入1000小時以上。這樣高的要求，還是有50人完成了任務(wù)。同時，每一個參與校正的人，都會在識典古籍中留下自己的名字。這種將貢獻(xiàn)度與獎品掛鉤的設(shè)計，成功將嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)工作，轉(zhuǎn)變?yōu)橐粓雒總€人都能參與的文化活動。

〓根據(jù)不同勘校貢獻(xiàn)度可領(lǐng)取不同獎勵

如果說洪業(yè)當(dāng)年的“引得編纂處”，是學(xué)者以筆為器、以紙為田的工坊，那么今天的數(shù)字平臺，正是對這種精神的現(xiàn)代化延續(xù)。不同的是，昔日十余人伏案抄錄，如今，數(shù)萬名志愿者與AI模型并肩完成同樣的工作。

在這條從紙端到云端的道路上，技術(shù)并未取代學(xué)術(shù)，而是回到了洪業(yè)的原點(diǎn)——讓知識能夠被檢、被證、被繼。

1979年秋，洪業(yè)去世前一年，他與幾位老友聚談，提起故人，他嘆道：“過世了，都過世了。杜甫有句詩說，訪舊半為鬼，我現(xiàn)在是相知多為鬼。”朋友笑著說：“咱們也老了。”洪業(yè)答：“不久都過去了。”

但一切并沒有過去。那些他寫下的一張張卡片，如今化為數(shù)據(jù)庫里的索引，那些散佚殘缺的典籍，在無數(shù)人手中被重新點(diǎn)亮。學(xué)術(shù)的傳承不僅只是專家的工作，而是依靠系統(tǒng)的可證與眾人的協(xié)作——沒有儀式，也不喧嘩，它只是在人與古籍之間，靜靜地延續(xù)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.