網易首頁 > 網易號 > 正文申請入駐

基于古籍NER語義分析的城市歷史空間解譯研究

2026-04-26 17:34:14　來源: 江西地名研究

江西舉報

分享至

江西地名研究

關注我們，獲取更多地名資訊

摘要：當前城市歷史空間普遍面臨認知淺層化的困境。基于相關古籍數據的空間解譯方法存在效率低下、難以系統化提取空間信息等局限，本研究構建了基于命名實體識別（NER）與地理信息編碼的古籍智能空間解譯方法體系，以清代民俗志《燕京歲時記》為研究對象，通過文本清洗、命名實體識別、古今地名映射與地理編碼等技術，系統提取了清代北京城102個空間實體及其關聯的民俗活動，構建了“時間－空間－活動”三維數據矩陣，并通過地圖編碼系統將其映射至現代城市空間。研究揭示了清代北京城市空間呈現的季節性活動輪轉、層級化功能分布與時空耦合等運行規律，為古籍數字化解譯與城市歷史空間活化利用提供了新的技術范式與實踐參考。

關鍵詞：城市歷史空間；命名實體識別；空間解譯；城市功能；《燕京歲時記》

0 引言

城市歷史空間映射著城市發展的社會形態和文化記憶，其正面臨著保護淺層化的困境——大部分保護利用方式仍停留在對其視覺觀賞功能的靜態維護。這一現象揭示了歷史空間活化存在的系統性問題。

古籍文獻作為城市歷史空間的重要考證材料，如何從中挖掘信息、解譯古人營城與活動方式，仍是一個亟待解決的問題。學界研究主要沿襲傳統人文考證范式，聚焦海量文本考據與歷史解釋，這會面臨兩種系統性制約。

首先是方法層面的局限性：傳統研究主要依賴研究者的個人經驗進行知識提取。這種模式無法滿足當今數據量激增的情況下，從文本中高效提取有效信息的要求。

其次是數據層面的割裂性：傳統解譯結果多缺乏地理空間數據支持。這種“文本黑箱”狀態使時空特征、使用規律等關鍵數據信息被封存，無法為研究提供量化依據。

近年來，命名實體識別技術（named-entityrecognition,NER）的發展，為古籍信息挖掘提供了有力支撐。該技術可從文本中提取出特定類別實體（如地點、人物、活動等），快速得到可供分析的結構化數據。例如，謝韜基于NER中的LSTM-CRF模型，成功實現了《史記》和《宋詞》中六百余萬字的自動化映射；謝靖等通過構建微調模型實現了古代醫學文獻中專有名詞的提取。

然而，NER方法在古籍處理的應用場景中，仍存在一定限制：空間信息與活動信息交織在敘述性文本中，難以系統提取潛在特征；古籍地名與現代地名存在差異，需進行歷史地理映射來提取空間信息。

因此，本研究在NER結果的基礎上，通過與地理信息編碼技術結合，提取了《燕京歲時記》中102個空間點位信息，揭示了清代北京民俗活動與城市空間的耦合規律。其創新意義體現在三個層面：

（1）方法創新：構建了一套可視化的古籍空間信息解析技術體系，形成了從文本到空間的完整可復現鏈條。

（2）理論創新：揭示了歷史空間中季節輪轉、層級化分布等時空耦合規律，為城市歷史研究提供了新視角。

（3）應用創新：通過歷史地理映射，將多元功能的歷史空間精準落位至現代城市基底，為量化研究與保護活化提供了直觀的可視化決策支持。

1 解譯背景

1.1 數據來源

《燕京歲時記》是研究清代北京空間格局與民俗活動的重要史料，由清代學者富察敦崇所著。全書按農歷十二個月份編排，詳細記錄了清代北京城市空間內各個節令的習俗活動及對應的空間內容。

縱觀全書，《燕京歲時記》具有明顯的時空特征：一方面，全書按農歷月份編排，呈現出鮮明的時間序列；另一方面，書中大量記錄了各類活動發生的地點。這種時空結合的記載方式，為分析清代北京城的時空使用規律提供了清晰的材料。

1.2研究目標

本研究基于NER技術對《燕京歲時記》展開深入解析，構建了完整的“文本清洗與分詞—實體識別與地名提取—古今地名映射與標準化—地理編碼與地圖可視化”方法體系。該體系有效提升了實體識別的準確率與空間定位的精確度，其核心目的在于建立一套可復制、可推廣的文字型古籍空間解譯范式，具體研究工作圍繞以下三個層面展開：

（1）建立《燕京歲時記》文本的結構化數據庫，系統提取書中的地點實體和活動實體。

（2）構建基于地點實體和活動實體的地理信息系統結構化數據，將歷史文本與城市空間相鏈接。

（3）分析清代北京民俗活動與城市空間的季節性耦合關系，并將其映射至現代城市空間，提出未來城市歷史空間活化策略。

2 解譯過程

2.1文本清洗與分詞

《燕京歲時記》文本處理是整個研究的基礎環節，主要解決了古籍數字化過程中的數據標準化問題：

首先，將原始文檔統一轉換為UTF-8編碼，確保后續處理過程中的字符一致性。根據原書的章節結構，將文本按照“正月.docx”到“臘月.docx”進行分割，便于后續分析各月份的空間活動特點。

在分詞處理環節，基于jieba詞典庫，結合隱馬爾可夫模型（HMM）進行輔助識別。jieba詞典提供了基礎的詞匯切分能力，而HMM則通過計算單字發射轉移概率，能夠識別詞典中未登錄的專有名詞，特別是古代地名。這種雙重機制設計主要考慮到古代地名和文化活動在現代詞典中往往缺乏對應條目，對識別精度造成影響。

采用隨機抽樣供3位專家核查，確保切分質量。最終輸出包含五個處理后文件（ph1~ph5），分別代表不同處理深度的文本，以供后續實體識別（見圖1）。

2.2實體識別與地名提取

在完成基礎分詞后，進入最核心的實體識別與地名提取階段。該階段的主要目標是從分詞后的文本中精確識別出所有與空間相關的地名實體，同時保留其在原文中的語境信息（見圖2）。

采用BERT-BiLSTM-CRF命名實體識別（NER）模型，構建歷史地名的識別模型（BiLSTM隱藏層維度=256，Dropout神經元丟棄率=0.3，訓練50輪），同時捕捉詞匯的上下文語義信息和標簽轉移規律。

應用過程中，NER模型對文本中的地名實體進行識別并輸出置信度分數。如圖2所示，系統能夠識別出多個地名實體（entity1~entity6），并篩選高置信度的地名實體，同時對低置信度實體進行人工復核。設置以下實體類別（見表1），提取《燕京歲時記》中的關鍵信息（見表2）。

為提高地名識別的準確性，采用雙重驗證機制：首先通過高置信度LOC（地點）標簽進行初步篩選，然后通過《中國古今地名大詞典》二次確認。當遇到文本中出現但NER未能正確識別的地名時，會通過字典匹配補充，直至獲得最終的正確結果。

2.3古今地名映射與標準化

《燕京歲時記》中記載的地名與現代地名存在差異，因此，古今地名映射與標準化階段旨在建立清代地名與現代地理位置的對應關系。通過《中國古今地名大詞典》構建映射表，包含了L01~L0n的對應關系。如圖3所示，該映射表將識別出的歷史地名與現代地點進行配對。

在映射過程中，采用三級評分，即高分、中等分、低分（score:high，score:medium，score:low）來標識映射的可信度。高分匹配表示古今地名存在明確的對應關系，通常是文獻中有明確記載的重要地標；中等分匹配表示存在較為可靠的對應關系，但有細節位置的不確定性；低分匹配則表示只能大致確定區域位置，精確度存在較大的不確定性。

對于無法直接找到現代對應的歷史地名，采用基于歷史文獻和考古發現的推斷方法。通過分析書中地名的空間關系描述（如“東距某處”“位于某處西南”），結合其他歷史文獻的交叉驗證，人工推斷地點大致位置（精度30m）。對于已不存在的地點，系統標記了其原址所在的現代地理位置。最終構建了“時間（季節、月份）－空間（經緯度坐標、清代地點、現代位置）－民俗活動（2.2中的命名實體識別結果）”的數據矩陣（見表3）。

2.4地理編碼與地圖可視化

地理編碼與地圖可視化階段可將前述文本分析結果轉化為直觀的空間表達，使歷史空間信息在現代地圖上呈現。

如圖4所示，將標準化后的地名數據進行地理編碼，轉換為地理坐標系統中的經緯度信息。將每個地點的坐標信息和歷史地名編號導入地理信息系統處理，使歷史地名與現代地理位置關聯。并利用OpenstreetAPI進行點位可視化，針對歷史空間信息的特點進行了多層數據注入（見圖4）：

（1）地名信息：為每個地點添加了原始《燕京歲時記》中的描述文本（月份、清代地名、分類）。

（2）位置信息：添加古代城市空間的現代映射位置（現代地名、經緯度坐標）。

（3）原文信息（相關活動記載）。

3 結論分析

研究將提取的102個空間點位數據導入ArcGIS進行核密度分析，清代北京城市空間呈現出“中心集聚、功能分異、季節律動”的總體特征（見圖5）。這體現了傳統都城民俗活動與城市空間的三大耦合機制。

3.1中心集聚的同心圓格局

核密度分析顯示，《燕京歲時記》記載的民俗活動點位呈現顯著的向心集聚特征。102個點位中，有78個點位分布于中心城區內，核心區域（紅色高密度區域）集中在內城周邊，形成以皇城為中心的同心圓式空間結構。根據地理坐標分析可得，點位經度集中于116.01°E至116.64°E，緯度跨度39.85°N至40.39°N，平均距北中心點（約116.40°E，39.91°N）約7.4km，呈現典型的距離衰減規律。

這種空間分布格局體現了清代北京作為政治文化中心的空間組織邏輯：

（1）內城核心區承載著密度最高的民俗活動，如正陽門、地安門等交通樞紐節點，以及護國寺、隆福寺等宗教商業復合空間，形成日常活動的主要承載區。

（2）外圍郊區則以妙峰山、西山八剎等大型宗教朝圣地為主，構成季節性活動的輻射網絡。

核密度圖的梯度變化直觀反映了這一空間組織特征：由中心向外圍活動密度逐漸降低，但空間功能逐漸豐富，形成“核心區域-次核心區域-外圍區域”的三級空間體系（見圖5）。

3.2功能分異的復合共生結構

從功能分類視角審視，102個點位主要涵蓋了宗教與信仰場所（36.3%）、自然與觀光景點（16.7%）、商業與市集（13.7%）、交通與防御節點（13.7%）、民俗活動地點（6.9%）、政治與行政功能場所（3.9%）等多種類型，呈現出功能多元化特征。其中，宗教與信仰場所占比超過1/3，廟會類活動出現頻率最高，達24種（見表4），凸顯其在清代百姓生活中的核心地位；商業與市集、交通與防御節點的高比例則反映了城市日常運行的基礎支撐體系；自然與觀光景點承載的郊游類活動覆蓋7個月的時間周期（見圖6），表明清代北京休閑游憩的城市功能已不可或缺。

同時，多種功能類型呈現出復合共生的空間特征，使得單一空間在不同時段承載不同活動，顯著提升城市空間的利用效率與活力強度：

（1）交通與防御節點空間作為城市骨架，以北京內城九座城門為代表的節點不僅承擔軍事功能，更是重要的糧運、木材等商業物資集散地。

（2）護國寺、隆福寺等場所兼具“宗教與信仰場所-商業與市集”雙重屬性，體現了典型的廟會經濟模式。

（3）太廟、地壇等政治與行政功能空間既作為大型禮制活動的場所，又在節慶之時對周邊起到商業帶動效果。

3.3季節律動的人流潮汐分布

清代北京城市空間使用呈現顯著的“四時輪轉”特征，“春夏外拓[見圖7（a）]、秋冬回聚[見圖7（b）]”的季節波動規律十分明顯。正月作為歲首，民俗活動點位占全年總量的27.5%，集中體現了春節城市空間的高強度使用；四月（9.8%）、六月（8.8%）、九月（7.8%）形成次高峰，分別對應清明踏青、年中祭祀、中秋登高等重要節令。

以季節尺度分析，同樣具有明顯的分異特征：

（1）春季（正月至三月）：活動以城市中心區為核心展開，23個活動點位中約78%分布于內城節點，其中正月集中在城內寺廟空間，三月向郊區過渡[見圖8（a）]。

（2）夏季（四月至六月）：活動呈現離心式擴散，25個點位中62%分布于城郊，以妙峰山等西部區域最為突出，體現自然環境對城市功能的季節性重塑[見圖8（b）]。

（3）秋季（七月至九月）：活動呈多中心分布格局，城東運河二閘與城郊西山八剎共同構成活動軸線，登高、祭祀等行為使空間使用強度較夏季提升[見圖8（c）]。

（4）冬季（十月至臘月）：表現出強烈向心集聚性，琉璃廠、正陽門等商業區集中全年約1/3的年節活動，什剎海等水域通過冰嬉功能轉換延續空間活力[見圖8（d）]。

3.4空間活化策略

基于上述分析，提出以下歷史空間活化策略：

（1）重建時序化的空間使用節律。建議引入“時序化運營”理念，根據季節變化組織差異化活動。如什剎海水域空間可恢復“夏賞荷，冬嬉冰”的功能轉換。

（2）激活功能復合化的空間價值。應根據空間的歷史功能疊合特征進行復合化設計。如東岳廟、白云觀等可在文物保護前提下重建“廟會經濟”的現代形態。

（3）構建網絡化的遺產保護體系。沿歷史民俗活動路徑劃定文化遺產廊道，通過步道、標識系統建設，使公眾完整體驗城鄉文化空間的串聯關系。

4 結語

本研究證實，基于NER語義分析的古籍解譯方法，相較于傳統研究能夠有效破解歷史空間認知的“文本黑箱”問題。研究將其與地理編碼技術結合，實現了《燕京歲時記》“圖文-時空-語義”三重協同解析，揭示了清代北京城市空間“四時異趣，功能共生”的季節性活動輪轉、層級化功能分布與時空耦合等機理。這種解譯范式不僅為傳統研究提供了新的技術路徑，更為當代城市歷史空間活化利用提供了實踐參考，降低了大眾對城市歷史空間的認知門檻。

本研究的局限性仍需客觀審視：技術層面，NER模型對文言虛詞的識別仍存在一定誤判率，如“花兒市”被拆分為“花”和“兒市”，空間實體定位偏移；理論層面，未能充分揭示古代城市管理對民俗空間分布的約束作用（如皇家儀式的空間壟斷性）。

對此，未來研究可在兩個方向深化：其一，開發針對文言古籍的自適應NER模型，通過引入注意力機制提升實體識別精度；其二，建立歷史空間使用強度評價體系，結合計量史學方法量化時空耦合的經濟社會效應。唯有實現技術突破與理論創新的協同共進，方能使城市歷史空間活化為文化遺產保護之源。

作者：王揚子；姚朋；邵明；

張若楠；石淇榕；曹則煜；陶培元

來源：《城市建筑》2026年第1期

選稿：耿曈

編輯：歐陽莉艷

校對：王昱婷

審訂：董進康

責編：耿曈

（由于版面內容有限，文章注釋內容請參照原文）

微信掃碼加入

中國地名研究交流群

QQ掃碼加入

江西地名研究交流群

歡迎來稿！歡迎交流！

轉載請注明來源：“江西地名研究”微信公眾號

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.