![]()
江西地名研究
關注我們,獲取更多地名資訊
![]()
摘要:為解決不同行業政務信息資源的融合,實現智慧城市各行業數據的共享,深入挖掘和發揮數據價值,提出一種基于地名地址匹配的數據融合方法,分別對含空間坐標和僅包含位置描述的兩種不同類型政務數據進行匹配,提出利用分區單元計算、構建分級分詞地名地址數據庫和文本模糊匹配等關鍵技術,提高了地名地址匹配的效率和準確度。并通過在智慧蓉城建設項目中實踐應用,證實該方法能有效提升匹配效率和精度,實現多源、異構、海量政務數據的高效融合。
關鍵詞:地名地址匹配;數據融合;政務信息集成;智慧城市;地理實體
![]()
0 引言
![]()
隨著大數據技術應用及智慧城市建設,我國政務信息建設的重心正逐步由信息化建設轉向政務信息資源的共享應用階段發展。新型智慧城市的基礎是各行業數據的匯聚與融合,形成基礎動態權威的綜合信息,用于城市治理的決策依據。但由于各部門信息化進程和業務需求不同,造成了不同區域、不同部門間的數據難以共享的“信息孤島”現象。2019年龔健雅院士在新型基礎測繪技術體系高級研修班上提出了地理實體作為連接自然地理信息與人文社會經濟信息的橋梁和紐帶,可通過地理實體編碼實現基礎地理信息數據庫、人口庫、法人庫、不動產庫的關聯。據統計約80%的政務信息均與空間位置有直接或間接的關系,地名地址作為關聯和載體可實現不同部門間的數據融合和共享。如何建立適用于大數據環境下的地名地址匹配方法,建立地理實體與政務專題數據的關聯,實現多源、異構、海量數據的高效、快速融合,已成為政務信息資源共享應用的關鍵。
本文依托智慧蓉城實景三維成都建設項目,通過對政務信息數據進行深入分析,針對含空間坐標的政務數據提出利用分區單元進行語義和位置的地名地址匹配方法,針對僅含位置描述的數據提出通過利用地名地址詞典庫對中文地址進行分級分詞處理,以提高地名地址匹配效率和準確度,探索適合成都市地名地址特點的多源、異構、海量政務信息融合方法。
![]()
1 數據源分析
![]()
1.1 政務信息分析
政務信息涉及國民經濟、自然資源、不動產、人口、法人等多個領域,具有數據量大、表現形式多樣、碎片化等特點,其共同點是一般都包含地名地址信息。政務信息在與地理實體進行關聯時,必須首先找到與空間位置相關的信息,才能準確地與對應實體進行關聯。一般分以下3種情況:
(1)最理想的情況是不同行業數據均帶有地理實體編碼信息。不同政府部門通過建立統一的數據標準,對同一實體的不同行業形態數據均采用了統一的實體編碼,可直接通過實體編碼進行關聯和掛接。此種情況數據融合最為簡單直接,但對部門協同和共建共享要求較高,就目前國內建設情況來說還較難實現。
(2)其次是某些行業數據帶有空間坐標信息。如國土、規劃、房管、交通、民政等部門專題數據大多有空間坐標信息,雖然數據標準、幾何精度、屬性采集和表達方式不同,但總體來說其空間位置較為接近。本文節3提出一種基于空間位置的地名地址匹配方法,同時考慮空間位置和語義特征雙重因子,通過與現有的地名地址數據庫進行匹配度分析,找到匹配度最高的進行關聯。經過數據融合,一來提高了地名地址數據庫的完整性和權威性,另外也為政務信息共享、深入挖掘數據價值奠定了基礎。
(3)最常見的是大多行業數據僅有位置描述無空間坐標信息。如公安、稅務、工商、城管等部門數據中,通常以文本形式描述行政區域、道路、門牌號等地名地址信息。由于中文地名地址的特殊性,中文地名地址的匹配一直以來也是地理信息領域研究的熱點和難點問題。本文節4提出一種基于位置描述的匹配方法,通過構建成都市地名地址詞典庫,對不規范的文本描述的位置信息通過模糊匹配技術先進行規范化、分級分詞處理,再與現有地名地址數據庫進行分級匹配,將其空間化后再與地理實體進行關聯。
1.2 地名地址分析
成都市地名地址數據庫較為規范、完整,包含成都市域范圍內的地名和門址、樓址以及空間坐標信息,且所有記錄均含行政區劃名稱、道路名、門牌號及樓棟號、院落名等標準分詞信息,可以此為基礎作為標準地址模型的空間定位依據,如表1所示。
![]()
![]()
2 基于空間位置的地名地址匹配方法
![]()
2.1 設計思路
對于有空間坐標的數據融合相比僅有位置描述的相對簡單,一是要同時考慮語義和空間位置雙重因素的影響,二是與解決海量數據的匹配效率問題。設計思路:首先創建分區單元,將專題數據和地名地址數據分別與分區單元面進行空間疊加分析,獲取分區單元信息;以分區為計算單位依次計算每條專題數據與位于同一分區內所有地名地址的匹配度,比較得到匹配度最高的地名地址,并輸出結果。基于空間位置的地名地址匹配方法思路如圖1所示。
![]()
2.2 實現關鍵技術
(1)數據預處理
由于不同部門的專題數據中位置描述信息不規范、不統一,需對位置描述信息進行規范化處理。比如對樓棟號的描述就有“1、壹、A、甲······”,分隔符也有“下劃線、分隔符、左右斜杠······”等多種表達,應先對數據進行規范化預處理以提高匹配度。
(2)分區單元確定
為提高海量數據的匹配效率和匹配精度,縮小比較范圍和計算量,需確定分區單元。分區單元粒度的劃分由數據源的幾何精度確定,如精度較高一般能落在同一院落內部則優先選用院落面進行分區;否則可采用由道路或水系分割形成的街區面、社區或村行政區劃面等。
(3)模糊匹配計算
將數據覆蓋范圍劃分成不同的分區單元后,利用空間疊加分析將地名地址數據和專題數據分別獲取分區單元信息,將同一分區單元的數據進行模糊匹配,計算其相似度。利用Python計算每條專題數據與同一分區單元內所有地名地址數據的匹配相似度S1、S2、S3······Sn,得到匹配度最高Smax的地名地址及其兩者之間的連線,輸出匹配結果。其中:
S max =max{S 1 、S 2 、S 3 ······S n }
根據輸出的匹配結果,含匹配最大相似度、匹配名稱和距離等信息,結合人工進一步分析對比。
2.3 應用與分析
為驗證該方法的有效性,在智慧蓉城地理實體生產與更新建設項目中,利用本方法對收集到的政務云平臺約51萬條地址數據與成都市現有約22萬條地址數據庫進行匹配和融合。從數據來源上,政務云平臺數據大多來自部門專題數據以及互聯網數據,成都市現有地址數據庫來源于外業調繪;從覆蓋區域上,政務云平臺數據覆蓋全市域,成都市現有地址數據庫主要覆蓋城市建成區,但有重復覆蓋區域;從幾何精度和現勢性上,成都市現有地址數據庫均優于政務云平臺數據。分區范圍優先選用院落面,如無院落面則用街區面、社區或村面。
利用本方法計算匹配結果,語義完全一致而位置接近的(約2.3萬條,占4.5%)直接采用原地名地址數據庫數據,語義不一致但與周圍相比符合邏輯的(約26萬條,占51%)以及完全新增(約21.5萬條,占42.15%)的可用于補充完善地址數據庫,有矛盾的如同一位置但門牌號或樓棟號不一致等進行標注(約1.2萬條,占23.5%)待外業進一步核實。利用本方法節省了約75%人工對比工作量,極大地提高了數據融合的效率和準確度,提升了成都市地名地址數據庫的完整性、時效性和權威性。
![]()
3 基于位置描述的地名地址匹配算法
![]()
3.1 設計思路
對于僅有位置描述無空間坐標的地名地址匹配,關鍵是對位置描述信息進行中文地址分級分詞規范化處理,并基于規范化分詞結果與地名地址數據空間庫進行逐級匹配,進而得到匹配度最高的空間化結果。為提高不規范的位置描述信息的中文分詞精度和準確度,引入完整性、規范性的地名地址詞典庫,可有效簡化分詞算法。再將分級分詞結果依次與現有的各級別地名地址數據庫依次進行匹配,得到最終匹配結果,如圖2所示。
![]()
3.2 實現關鍵技術
(1)地名地址詞典庫構建
為提高不規范、非結構化中文地址信息分詞的正確性和效率,需構建完整、豐富的地名地址詞典庫。將地名地址庫中包含的所有名稱信息單獨導出為地名地址詞典庫,如不同級別的行政區劃名稱(“四川省”“成都市”“**街辦/鎮”“**社區、村”)、管理單元名稱(“**工業園區”“*科技園”等)、道路名、院落名等,并同時添加歷史地名、行政區劃改革前后的所有地名(如“郫都區”“郫縣”等)。地名地址詞典庫中存放了可能涉及的各類各級地名信息,是分詞算法匹配的主要對象,可為不規范的地名地址描述的中文分詞提供完整、規范的地名關鍵詞信息,可有效簡化分詞算法,提高地名地址分詞的識別率和準確性。
(2)中文地址分級分詞
由于不同部門的專題數據中,位置描述信息不規范、不統一,需對位置描述信息進行規范化中文分詞處理。根據我國地名地址描述規范,一般分為行政區劃名、街道名或小區名、門樓址或標志物名三個層次,而在實際表述中包括街道名+門址+樓址、街道名+門址、小區名+樓址、街道名+小區名+樓址等多種形式。可利用前期構建的地名地址詞典庫,依次對位置描述信息進行模糊匹配,如位置描述信息中包含地名地址詞典庫中的分級名稱,如“四川省”“成都市”“錦江區”“柳江街道/街辦/街道辦事處”“墨香路”或“火炬動力港”等詞匯,如匹配成功則自動拆分成不同層級分詞模型。基于地名地址詞典庫的中文地址分級分詞方法思路如圖3所示。對位置描述進行中文分級分詞結果示例如表2所示。
![]()
![]()
(3)不同分級的地名地址匹配
根據位置描述拆分的分級分詞模型,判斷該位置描述信息的可自動匹配到哪個層級模型或哪種精度。匹配精度除了與位置描述信息的規范性、完整性有關外,也取決于地名地址數據庫的采集粒度、精度、完整性、現勢性等因素,如成都市地名地址數據庫最小粒度為樓址但有些城市的采集粒度可能細化到單元、房間號等,地名信息采集的完整性和現勢性也有所不同。在進行地址匹配時,優先對最小粒度的地址進行匹配,如含樓址信息的應優先匹配到樓址,其次為門址、院落、道路、村組、社區等。
3.3 應用與分析
在成都市違建普查和環衛設施普查項目中,提供的違建項目地址描述大多是“小區+樓址”形式,環衛設施同時存在“街道名+門址”“小區”等多種形式。利用本方法先基于成都市分級分詞地名庫對地址描述進行自動中文地址分級分詞,進而與地名地址數據庫進行匹配,得到空間化的初步成果,分詞及匹配結果示例如表2所示。實踐證明,匹配效率與地名地址詞典庫的完整性以及原始地址描述準確性有直接關系,如原始地址描述較為準確完整匹配效率可達90%以上。此外,由于原始地址描述的詳細程度和具體定位不同,還需根據初步定位結果及余詞信息做進一步人工核實。
![]()
4 結語
![]()
地名地址作為連接空間數據和非空間數據的紐帶,是實現城市政務信息共享的前提。本文通過地名地址匹配技術,分別實現了對含空間坐標和只有位置描述的兩類政務信息融合的方法。實踐證明,本文方法不僅能提高多源、異構、海量政務信息資源的整合效率,且為實現政務數據與地理實體的關聯,打通不同行業信息的壁壘,推動智慧城市建設和數據共享奠定了基礎。
作者:李新雙,陳軍勝,劉化冰,趙麗麗
來源:《城市勘測》2024年3期
選稿:耿 曈
編輯:杜佳玲
校對:汪依婷
審訂:賀雨婷
責編:耿 曈
(由于版面內容有限,文章注釋內容請參照原文)
![]()
微信掃碼加入
中國地名研究交流群
QQ掃碼加入
江西地名研究交流群
歡迎來稿!歡迎交流!
轉載請注明來源:“江西地名研究”微信公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.