<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      基于地名地址的多源異構數據融合方法研究

      0
      分享至


      江西地名研究

      關注我們,獲取更多地名資訊


      摘要:為解決不同行業政務信息資源的融合,實現智慧城市各行業數據的共享,深入挖掘和發揮數據價值,提出一種基于地名地址匹配的數據融合方法,分別對含空間坐標和僅包含位置描述的兩種不同類型政務數據進行匹配,提出利用分區單元計算、構建分級分詞地名地址數據庫和文本模糊匹配等關鍵技術,提高了地名地址匹配的效率和準確度。并通過在智慧蓉城建設項目中實踐應用,證實該方法能有效提升匹配效率和精度,實現多源、異構、海量政務數據的高效融合。

      關鍵詞:地名地址匹配;數據融合;政務信息集成;智慧城市;地理實體


      0 引言


      隨著大數據技術應用及智慧城市建設,我國政務信息建設的重心正逐步由信息化建設轉向政務信息資源的共享應用階段發展。新型智慧城市的基礎是各行業數據的匯聚與融合,形成基礎動態權威的綜合信息,用于城市治理的決策依據。但由于各部門信息化進程和業務需求不同,造成了不同區域、不同部門間的數據難以共享的“信息孤島”現象。2019年龔健雅院士在新型基礎測繪技術體系高級研修班上提出了地理實體作為連接自然地理信息與人文社會經濟信息的橋梁和紐帶,可通過地理實體編碼實現基礎地理信息數據庫、人口庫、法人庫、不動產庫的關聯。據統計約80%的政務信息均與空間位置有直接或間接的關系,地名地址作為關聯和載體可實現不同部門間的數據融合和共享。如何建立適用于大數據環境下的地名地址匹配方法,建立地理實體與政務專題數據的關聯,實現多源、異構、海量數據的高效、快速融合,已成為政務信息資源共享應用的關鍵。

      本文依托智慧蓉城實景三維成都建設項目,通過對政務信息數據進行深入分析,針對含空間坐標的政務數據提出利用分區單元進行語義和位置的地名地址匹配方法,針對僅含位置描述的數據提出通過利用地名地址詞典庫對中文地址進行分級分詞處理,以提高地名地址匹配效率和準確度,探索適合成都市地名地址特點的多源、異構、海量政務信息融合方法。


      1 數據源分析


      1.1 政務信息分析

      政務信息涉及國民經濟、自然資源、不動產、人口、法人等多個領域,具有數據量大、表現形式多樣、碎片化等特點,其共同點是一般都包含地名地址信息。政務信息在與地理實體進行關聯時,必須首先找到與空間位置相關的信息,才能準確地與對應實體進行關聯。一般分以下3種情況:

      (1)最理想的情況是不同行業數據均帶有地理實體編碼信息。不同政府部門通過建立統一的數據標準,對同一實體的不同行業形態數據均采用了統一的實體編碼,可直接通過實體編碼進行關聯和掛接。此種情況數據融合最為簡單直接,但對部門協同和共建共享要求較高,就目前國內建設情況來說還較難實現。

      (2)其次是某些行業數據帶有空間坐標信息。如國土、規劃、房管、交通、民政等部門專題數據大多有空間坐標信息,雖然數據標準、幾何精度、屬性采集和表達方式不同,但總體來說其空間位置較為接近。本文節3提出一種基于空間位置的地名地址匹配方法,同時考慮空間位置和語義特征雙重因子,通過與現有的地名地址數據庫進行匹配度分析,找到匹配度最高的進行關聯。經過數據融合,一來提高了地名地址數據庫的完整性和權威性,另外也為政務信息共享、深入挖掘數據價值奠定了基礎。

      (3)最常見的是大多行業數據僅有位置描述無空間坐標信息。如公安、稅務、工商、城管等部門數據中,通常以文本形式描述行政區域、道路、門牌號等地名地址信息。由于中文地名地址的特殊性,中文地名地址的匹配一直以來也是地理信息領域研究的熱點和難點問題。本文節4提出一種基于位置描述的匹配方法,通過構建成都市地名地址詞典庫,對不規范的文本描述的位置信息通過模糊匹配技術先進行規范化、分級分詞處理,再與現有地名地址數據庫進行分級匹配,將其空間化后再與地理實體進行關聯。

      1.2 地名地址分析

      成都市地名地址數據庫較為規范、完整,包含成都市域范圍內的地名和門址、樓址以及空間坐標信息,且所有記錄均含行政區劃名稱、道路名、門牌號及樓棟號、院落名等標準分詞信息,可以此為基礎作為標準地址模型的空間定位依據,如表1所示。



      2 基于空間位置的地名地址匹配方法


      2.1 設計思路

      對于有空間坐標的數據融合相比僅有位置描述的相對簡單,一是要同時考慮語義和空間位置雙重因素的影響,二是與解決海量數據的匹配效率問題。設計思路:首先創建分區單元,將專題數據和地名地址數據分別與分區單元面進行空間疊加分析,獲取分區單元信息;以分區為計算單位依次計算每條專題數據與位于同一分區內所有地名地址的匹配度,比較得到匹配度最高的地名地址,并輸出結果。基于空間位置的地名地址匹配方法思路如圖1所示。


      2.2 實現關鍵技術

      (1)數據預處理

      由于不同部門的專題數據中位置描述信息不規范、不統一,需對位置描述信息進行規范化處理。比如對樓棟號的描述就有“1、壹、A、甲······”,分隔符也有“下劃線、分隔符、左右斜杠······”等多種表達,應先對數據進行規范化預處理以提高匹配度。

      (2)分區單元確定

      為提高海量數據的匹配效率和匹配精度,縮小比較范圍和計算量,需確定分區單元。分區單元粒度的劃分由數據源的幾何精度確定,如精度較高一般能落在同一院落內部則優先選用院落面進行分區;否則可采用由道路或水系分割形成的街區面、社區或村行政區劃面等。

      (3)模糊匹配計算

      將數據覆蓋范圍劃分成不同的分區單元后,利用空間疊加分析將地名地址數據和專題數據分別獲取分區單元信息,將同一分區單元的數據進行模糊匹配,計算其相似度。利用Python計算每條專題數據與同一分區單元內所有地名地址數據的匹配相似度S1、S2、S3······Sn,得到匹配度最高Smax的地名地址及其兩者之間的連線,輸出匹配結果。其中:

      S max =max{S 1 、S 2 、S 3 ······S n }

      根據輸出的匹配結果,含匹配最大相似度、匹配名稱和距離等信息,結合人工進一步分析對比。

      2.3 應用與分析

      為驗證該方法的有效性,在智慧蓉城地理實體生產與更新建設項目中,利用本方法對收集到的政務云平臺約51萬條地址數據與成都市現有約22萬條地址數據庫進行匹配和融合。從數據來源上,政務云平臺數據大多來自部門專題數據以及互聯網數據,成都市現有地址數據庫來源于外業調繪;從覆蓋區域上,政務云平臺數據覆蓋全市域,成都市現有地址數據庫主要覆蓋城市建成區,但有重復覆蓋區域;從幾何精度和現勢性上,成都市現有地址數據庫均優于政務云平臺數據。分區范圍優先選用院落面,如無院落面則用街區面、社區或村面。

      利用本方法計算匹配結果,語義完全一致而位置接近的(約2.3萬條,占4.5%)直接采用原地名地址數據庫數據,語義不一致但與周圍相比符合邏輯的(約26萬條,占51%)以及完全新增(約21.5萬條,占42.15%)的可用于補充完善地址數據庫,有矛盾的如同一位置但門牌號或樓棟號不一致等進行標注(約1.2萬條,占23.5%)待外業進一步核實。利用本方法節省了約75%人工對比工作量,極大地提高了數據融合的效率和準確度,提升了成都市地名地址數據庫的完整性、時效性和權威性。


      3 基于位置描述的地名地址匹配算法


      3.1 設計思路

      對于僅有位置描述無空間坐標的地名地址匹配,關鍵是對位置描述信息進行中文地址分級分詞規范化處理,并基于規范化分詞結果與地名地址數據空間庫進行逐級匹配,進而得到匹配度最高的空間化結果。為提高不規范的位置描述信息的中文分詞精度和準確度,引入完整性、規范性的地名地址詞典庫,可有效簡化分詞算法。再將分級分詞結果依次與現有的各級別地名地址數據庫依次進行匹配,得到最終匹配結果,如圖2所示。


      3.2 實現關鍵技術

      (1)地名地址詞典庫構建

      為提高不規范、非結構化中文地址信息分詞的正確性和效率,需構建完整、豐富的地名地址詞典庫。將地名地址庫中包含的所有名稱信息單獨導出為地名地址詞典庫,如不同級別的行政區劃名稱(“四川省”“成都市”“**街辦/鎮”“**社區、村”)、管理單元名稱(“**工業園區”“*科技園”等)、道路名、院落名等,并同時添加歷史地名、行政區劃改革前后的所有地名(如“郫都區”“郫縣”等)。地名地址詞典庫中存放了可能涉及的各類各級地名信息,是分詞算法匹配的主要對象,可為不規范的地名地址描述的中文分詞提供完整、規范的地名關鍵詞信息,可有效簡化分詞算法,提高地名地址分詞的識別率和準確性。

      (2)中文地址分級分詞

      由于不同部門的專題數據中,位置描述信息不規范、不統一,需對位置描述信息進行規范化中文分詞處理。根據我國地名地址描述規范,一般分為行政區劃名、街道名或小區名、門樓址或標志物名三個層次,而在實際表述中包括街道名+門址+樓址、街道名+門址、小區名+樓址、街道名+小區名+樓址等多種形式。可利用前期構建的地名地址詞典庫,依次對位置描述信息進行模糊匹配,如位置描述信息中包含地名地址詞典庫中的分級名稱,如“四川省”“成都市”“錦江區”“柳江街道/街辦/街道辦事處”“墨香路”或“火炬動力港”等詞匯,如匹配成功則自動拆分成不同層級分詞模型。基于地名地址詞典庫的中文地址分級分詞方法思路如圖3所示。對位置描述進行中文分級分詞結果示例如表2所示。



      (3)不同分級的地名地址匹配

      根據位置描述拆分的分級分詞模型,判斷該位置描述信息的可自動匹配到哪個層級模型或哪種精度。匹配精度除了與位置描述信息的規范性、完整性有關外,也取決于地名地址數據庫的采集粒度、精度、完整性、現勢性等因素,如成都市地名地址數據庫最小粒度為樓址但有些城市的采集粒度可能細化到單元、房間號等,地名信息采集的完整性和現勢性也有所不同。在進行地址匹配時,優先對最小粒度的地址進行匹配,如含樓址信息的應優先匹配到樓址,其次為門址、院落、道路、村組、社區等。

      3.3 應用與分析

      在成都市違建普查和環衛設施普查項目中,提供的違建項目地址描述大多是“小區+樓址”形式,環衛設施同時存在“街道名+門址”“小區”等多種形式。利用本方法先基于成都市分級分詞地名庫對地址描述進行自動中文地址分級分詞,進而與地名地址數據庫進行匹配,得到空間化的初步成果,分詞及匹配結果示例如表2所示。實踐證明,匹配效率與地名地址詞典庫的完整性以及原始地址描述準確性有直接關系,如原始地址描述較為準確完整匹配效率可達90%以上。此外,由于原始地址描述的詳細程度和具體定位不同,還需根據初步定位結果及余詞信息做進一步人工核實。


      4 結語


      地名地址作為連接空間數據和非空間數據的紐帶,是實現城市政務信息共享的前提。本文通過地名地址匹配技術,分別實現了對含空間坐標和只有位置描述的兩類政務信息融合的方法。實踐證明,本文方法不僅能提高多源、異構、海量政務信息資源的整合效率,且為實現政務數據與地理實體的關聯,打通不同行業信息的壁壘,推動智慧城市建設和數據共享奠定了基礎。

      作者:李新雙,陳軍勝,劉化冰,趙麗麗

      來源:《城市勘測》2024年3期

      選稿:耿 曈

      編輯:杜佳玲

      校對:汪依婷

      審訂:賀雨婷

      責編:耿 曈

      (由于版面內容有限,文章注釋內容請參照原文)


      微信掃碼加入

      中國地名研究交流群

      QQ掃碼加入

      江西地名研究交流群

      歡迎來稿!歡迎交流!

      轉載請注明來源:“江西地名研究”微信公眾號

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      絕不向中國低頭?寧愿裁員9000人賣公司,也不將技術轉讓給中國

      絕不向中國低頭?寧愿裁員9000人賣公司,也不將技術轉讓給中國

      博覽歷史
      2025-12-17 05:10:04
      討厭一個人,其實不用翻臉的,最有水平的處理方式是:森田理論

      討厭一個人,其實不用翻臉的,最有水平的處理方式是:森田理論

      德魯克博雅管理
      2025-12-09 17:05:19
      萬科王石最新照片:戴上了假發,古稀之年依然不服老

      萬科王石最新照片:戴上了假發,古稀之年依然不服老

      微微熱評
      2025-12-17 11:28:02
      日本智庫發現中國核動力航母關鍵線索?全面解析來了

      日本智庫發現中國核動力航母關鍵線索?全面解析來了

      兵國大事
      2025-12-17 00:05:19
      一覺醒來北京南到上海虹橋,京滬夜班高鐵0點出發5點到?12306回應:系大客流臨時增開,目前僅有12月22日運行

      一覺醒來北京南到上海虹橋,京滬夜班高鐵0點出發5點到?12306回應:系大客流臨時增開,目前僅有12月22日運行

      縱相新聞
      2025-12-17 23:39:06
      “亞洲鋰都”風云再起?采礦許可證密集注銷,江特電機擬被注銷礦區去年9月就已停產

      “亞洲鋰都”風云再起?采礦許可證密集注銷,江特電機擬被注銷礦區去年9月就已停產

      時代周報
      2025-12-17 19:15:08
      都體談戴維低迷原因:性格內向、語言困難并且遭到老隊員孤立

      都體談戴維低迷原因:性格內向、語言困難并且遭到老隊員孤立

      懂球帝
      2025-12-17 10:55:02
      趕在被賴清德逮捕前,鄭麗文整合人馬,在為什么做準備?

      趕在被賴清德逮捕前,鄭麗文整合人馬,在為什么做準備?

      別跟我提回憶
      2025-12-16 21:30:56
      曼城傳奇爆猛料!席爾瓦直言瓜迪奧拉最大槽點

      曼城傳奇爆猛料!席爾瓦直言瓜迪奧拉最大槽點

      奶蓋熊本熊
      2025-12-18 00:43:17
      全國最好的醫院排名,建議收藏!

      全國最好的醫院排名,建議收藏!

      霹靂炮
      2025-11-24 22:55:34
      A股:突然大利好!國家隊入場,明天很有可能迎大級別的反彈?

      A股:突然大利好!國家隊入場,明天很有可能迎大級別的反彈?

      夜深愛雜談
      2025-12-17 18:09:25
      最后關頭,高市政府通告中國,希望送回大熊貓,中方誤判了日本?

      最后關頭,高市政府通告中國,希望送回大熊貓,中方誤判了日本?

      影孖看世界
      2025-12-17 20:21:04
      2028年奧運會男足名額分配:亞足聯2.5個名額,歐足聯4個名額

      2028年奧運會男足名額分配:亞足聯2.5個名額,歐足聯4個名額

      懂球帝
      2025-12-17 22:03:05
      離職9年高管突然手撕360!疑周鴻祎財務造假幾十億,360股價暴跌

      離職9年高管突然手撕360!疑周鴻祎財務造假幾十億,360股價暴跌

      派大星紀錄片
      2025-12-17 14:54:30
      SpaceX據悉通知員工進入IPO前靜默期

      SpaceX據悉通知員工進入IPO前靜默期

      界面新聞
      2025-12-17 15:33:44
      給人養了7年閑人,廣汽終于要關閉洛杉磯的研發中心

      給人養了7年閑人,廣汽終于要關閉洛杉磯的研發中心

      與車同樂
      2025-12-04 10:05:02
      國籍爭議不到1年,人民日報公開點名谷愛凌,鄧亞萍的話有人信了

      國籍爭議不到1年,人民日報公開點名谷愛凌,鄧亞萍的話有人信了

      法老不說教
      2025-12-17 16:27:33
      月薪三萬都讀不起深圳高中?雙休+不補課,已讓中產家庭瀕臨崩潰

      月薪三萬都讀不起深圳高中?雙休+不補課,已讓中產家庭瀕臨崩潰

      妍妍教育日記
      2025-12-17 19:28:20
      他又“瘋”了?馬斯克凌晨發戰爭警告,稱所有人都無處可逃!

      他又“瘋”了?馬斯克凌晨發戰爭警告,稱所有人都無處可逃!

      達文西看世界
      2025-12-16 17:20:43
      反制來了!昨天中方終于出手,荷蘭沒收中企股份嘗到苦果了!

      反制來了!昨天中方終于出手,荷蘭沒收中企股份嘗到苦果了!

      青青子衿
      2025-12-17 20:15:09
      2025-12-18 03:08:49
      江西地名研究 incentive-icons
      江西地名研究
      分享地名研究信息、行業資訊。
      3107文章數 300關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      墜亡女教師有已婚哥哥和未婚弟弟 父母被指不愿退彩禮

      頭條要聞

      墜亡女教師有已婚哥哥和未婚弟弟 父母被指不愿退彩禮

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      藝術
      家居
      房產
      旅游
      軍事航空

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      家居要聞

      溫馨獨棟 駝色與淺色碰撞

      房產要聞

      封關前夕!豪庭銘苑超前交付,敬呈海口生活新范本

      旅游要聞

      圍爐煮茶雅興足 暖游京冬樂趣多

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产乱人对白| 中文字幕无码人妻| 内射网站| 欧美乱大交xxxxx疯狂俱乐部| 乌克兰少妇videos高潮| 国产国语性生话播放| 人妻a?v| 第一福利精品导航| 人妻自拍网| 天天综合91| 亚洲综合无码一区二区| 五月婷婷开心中文字幕| 久久精品女人天堂av| 日韩高清在线中文字带字幕| 湘乡市| 国产精品污双胞胎在线观看| 黑人巨茎大战白人美女| 堆龙德庆县| 女人天堂久久| 男女做aj视频免费的网站| 亚洲成人视频| 望城县| 无码av中文一区二区三区桃花岛| 日韩伦理片| 亚洲精品1| 屯门区| 亚洲国产成人久久一区久久| 兴安盟| jizzjizzyou| 亚洲国产无套无码av电影| 日本a在线播放| 最新的国产成人精品2022| 2020国产欧洲精品网站| 欧美第3页| 日韩精品极品视频在线观看免费| 久久天天躁狠狠躁夜夜av| 亚洲精品国产av成拍色拍个| 林甸县| 熟女视频在线看| 久久综合亚洲色一区二区三区| 中国女人和老外的毛片|