![]()
江西地名研究
關(guān)注我們,獲取更多地名資訊
摘要:針對眾源數(shù)據(jù)中外文地名分類體系差距大,側(cè)重不同無法準(zhǔn)確映射的問題,提出了一種基于通名同現(xiàn)關(guān)系的類別映射方法,以實現(xiàn)類別的準(zhǔn)確映射。地名由專名和通名組成,通名是地名中用來區(qū)分各個地理實體類別的詞。以地名數(shù)據(jù)集進(jìn)行標(biāo)注,對數(shù)據(jù)集的標(biāo)注結(jié)果進(jìn)行分析,可實現(xiàn)外文類別與中文類別的映射關(guān)系,同時,以geonames地名數(shù)據(jù)為實驗數(shù)據(jù),將該文提出的方法與基于規(guī)則、基于字面相似度的方法結(jié)果進(jìn)行了比較。試驗證明,該方法在大規(guī)模數(shù)據(jù)集上的映射效果顯著,能夠有效實現(xiàn)外文體系與中文體系類別之間的一對一、一對多及雙向映射關(guān)系,同時數(shù)據(jù)映射效率明顯優(yōu)于其他方法,其在不同國家地名數(shù)據(jù)上具有適用性,有利于中外分類體系類別映射研究,對于建設(shè)標(biāo)準(zhǔn)化的全球地名數(shù)據(jù)庫有重要意義。
關(guān)鍵詞:同現(xiàn)映射;類別映射;分類體系
0
引言
目前,世界上大多數(shù)發(fā)達(dá)國家建立了自己的地名信息系統(tǒng)。我國地名信息建設(shè)近幾年發(fā)展快速,民政部組織建設(shè)了全國地名數(shù)據(jù)庫,但是缺少一個覆蓋全球、可靠且具有統(tǒng)一技術(shù)標(biāo)準(zhǔn)的全球地名數(shù)據(jù)庫。全球地名數(shù)據(jù)資源涉及范圍廣、國家多、語種多,不同國家和地區(qū)經(jīng)濟(jì)發(fā)展水平懸殊,信息資源差距明顯,互聯(lián)網(wǎng)發(fā)展不均衡。由于分類體系差異大,存在各自獨立的分類準(zhǔn)則,對我國地名信息標(biāo)準(zhǔn)化建設(shè)造成一定影響,來自眾源數(shù)據(jù)的外文類別準(zhǔn)確映射到中文類別的問題急需解決。
地名分類體系主要以地理實體為主要區(qū)分目標(biāo),不同地名分類體系對地理實體的囊括范圍不同造成了分類的差異。分類法映射把分類法和分類法中的類目分別作為集合和集合中的元素,從類目概念出發(fā),對一個分類法中的類目與另一個分類法中的一個或多個類目建立對應(yīng)關(guān)系的過程。目前類別映射分為基于規(guī)則、基于統(tǒng)計、基于機器學(xué)習(xí)、基于深度學(xué)習(xí)、基于知識圖譜的映射等方法。最基礎(chǔ)的是簡單規(guī)則映射,根據(jù)明確的、預(yù)先定義好的規(guī)則進(jìn)行類別映射。其次是決策樹映射,該方法通過對數(shù)據(jù)特征進(jìn)行層層判斷來實現(xiàn)類別映射。每個內(nèi)部節(jié)點是一個屬性上的測試,分支是測試輸出,葉節(jié)點是類別。
基于機器學(xué)習(xí)的映射方法有樸素貝葉斯映射、支持向量機(SVM)映射等,SVM是通過尋找一個最優(yōu)超平面,將不同類別的數(shù)據(jù)點分隔開,從而實現(xiàn)類別映射。對于線性可分的數(shù)據(jù),SVM可以找到一個線性超平面;對于非線性數(shù)據(jù),可以通過核函數(shù)將數(shù)據(jù)映射到高維空間,使其變得線性可分,文獻(xiàn)[3]針對興趣點(POI)數(shù)據(jù)提出一種基于詞向量計算工具Word2vec和支持向量機的POI分類方法;近年來基于機器學(xué)習(xí)的映射方法研究更廣泛,比如K近鄰(KNN)方法,對于一個待分類樣本,計算它與訓(xùn)練集中所有樣本的距離,選取距離最近的K個樣本,根據(jù)這K個樣本的類別來確定待分類樣本的類別,通常采用多數(shù)表決的方式,文獻(xiàn)[4]提出了一種基于動態(tài)權(quán)重的地理要素類別語義相似度算法,根據(jù)不同類型的特征屬性提出相應(yīng)的相似度算法;文獻(xiàn)[5]提出了一種結(jié)合字面相似度計算方法和語義對照模式,自動生成地理信息分類體系對照關(guān)系的方法;人工神經(jīng)網(wǎng)絡(luò)映射由大量的神經(jīng)元相互連接組成,通過對訓(xùn)練數(shù)據(jù)的學(xué)習(xí),自動提取數(shù)據(jù)的特征和模式,實現(xiàn)類別映射,文獻(xiàn)[6]通過語料訓(xùn)練得到一個關(guān)于類目的分類器,利用機器學(xué)習(xí)得到專利與圖書的類目映射;文獻(xiàn)[7]采用基于中心結(jié)構(gòu)模型的語義映射方法,初步構(gòu)建關(guān)聯(lián)映射表,收集生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)基于inctes學(xué)科分析工具與期刊同現(xiàn)兩種方法完成映射結(jié)果的優(yōu)化與驗證;文獻(xiàn)[8]將詞共現(xiàn)概念模型引入到文本相似度比較中,找出高頻的共現(xiàn)詞集,加強同一類別文本相似度比較的能力;而目前大多數(shù)學(xué)者基于深度學(xué)習(xí)研究映射方法,文獻(xiàn)[9]提出了基于BERT預(yù)訓(xùn)練上下文語言模型的李生網(wǎng)絡(luò)模型,對CLC與IPC的類目映射關(guān)系進(jìn)行研究;文獻(xiàn)[10]通過關(guān)鍵詞提取、預(yù)訓(xùn)練語言模型、相似度計算及結(jié)果推薦,構(gòu)建基于深度學(xué)習(xí)的物品編碼映射模型,實現(xiàn)了關(guān)于物品編碼的類別映射;文獻(xiàn)[11]提出一種顧及描述知識的地理要素分類映射方法,建立綜合相似性度量模型來評估地理要素類別的語義相似性;文獻(xiàn)[12]提出了一種將社會網(wǎng)絡(luò)分析思想與同現(xiàn)映射相融合的映射方法,對每個單位數(shù)據(jù)進(jìn)行分類標(biāo)注,結(jié)合類目相似度得到類目映射關(guān)系。基于知識圖譜的本體的映射研究,利用知識圖譜的本體結(jié)構(gòu)和語義關(guān)系,根據(jù)實體的屬性和與其他實體的關(guān)系,將其映射到合適的類別。文獻(xiàn)[13]提出一種基于本體屬性特征學(xué)習(xí)的地理要素分類語義映射方法;文獻(xiàn)[14]提出一種基于類別核心詞的概念映射方法,在概念空間上完成文本分類工作;文獻(xiàn)[15]提出了一種新的基于本體屬性特征學(xué)習(xí)的地理類別映射方法,該方法利用本體屬性和地理類別的分類層次結(jié)構(gòu),用新的層次編碼方法來描述類別的分類層次,并識別每個類別的分類狀態(tài)然后采用一種基于BP神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)映射機制,建立本體屬性特征向量與分類狀態(tài)之間的非線性關(guān)系,可以支持類別映射。
文獻(xiàn)[16]分析天津市陸海地理要素分類分級差異,基于語義建立地形圖和電子海圖要素類別之間的對應(yīng)關(guān)系,實現(xiàn)天津市陸海地理信息數(shù)據(jù)的語義融合;文獻(xiàn)[17]通過語義映射方法實現(xiàn)IFC與CityGML標(biāo)準(zhǔn)的轉(zhuǎn)換,驗證了BIM與3D GIS結(jié)合對智慧城市三維建模的促進(jìn)作用;文獻(xiàn)[18]針對IFC與CityGML標(biāo)準(zhǔn)轉(zhuǎn)換中的信息丟失和幾何不精確問題,提出一種基于建筑構(gòu)件類型和語義分析的完整映射方法,實現(xiàn)BIM到多層次CityGML模型的轉(zhuǎn)換,文獻(xiàn)[19]采用人工輔助方式提取通名,建立地名通名與地理要素類型之間的映射關(guān)系。目前關(guān)于地理信息領(lǐng)域的類別映射方法研究較少,基于人工的類別映射,耗時高、成本大,易出錯且一致性差,難以擴(kuò)展和適應(yīng)變化;基于相似度和基于機器學(xué)習(xí)的映射均需要對語義或字面結(jié)構(gòu)進(jìn)行處理,處理跨語言、跨文化的地名映射時仍存在局限性,難以避免由語義或語種問題而導(dǎo)致的誤差。若干個詞經(jīng)常共同出現(xiàn)(共現(xiàn))在文本的同一窗口單元(如一句話、一個自然段等),則認(rèn)為這若干個詞在意義上是相互關(guān)聯(lián)的。共現(xiàn)的概念最早出現(xiàn)在情報學(xué)中,通過對共現(xiàn)現(xiàn)象的分析可以更多地了解事物之間的關(guān)聯(lián)性。充分理解詞匯之間的共現(xiàn)關(guān)系,可以幫助我們挖掘出許多詞匯間相關(guān)聯(lián)的語義關(guān)系及深層含義,同時對自然語言分析起著重要作用。共現(xiàn)的概率越高,其相互關(guān)聯(lián)越緊密,并且表示一定的語義概念。本文結(jié)合分類與映射思想,提出基于通名的類別同現(xiàn)映射方法:結(jié)合通名可以避免由于分類體系差異大,側(cè)重不同造成分類錯誤,含有通名的地名作為大規(guī)模數(shù)據(jù)集,標(biāo)注外文類別與類中文類別,計算同一類別組同現(xiàn)的條數(shù),用Jaccard系數(shù)計算相似值并建立比較標(biāo)準(zhǔn),能夠獲得具有普適性的映射關(guān)系,在其他國家含有相同類別組時能夠快速映射中文類別。
1
中外分類體系分析
從編制體例上看,外文地名分類體系常采用等級列舉式體系分類法,適用于地名的分層管理,特別是行政區(qū)劃、地理空間分級等層級分明的場景。中文地名分類體系常采用線分類法,在編制原則、體系結(jié)構(gòu)、聚類方式等方面有顯著差異,難以準(zhǔn)確映射,比如外文類別“學(xué)校”不區(qū)分中小學(xué),外文分類體系常按照地理實體的類型和功能進(jìn)行聚類,遵循從大到小、從一般到具體的邏輯逐級展開,層次清晰,形成一個覆蓋自然地貌、行政區(qū)劃、歷史遺跡等涵蓋廣泛的分類體系,更注重地理實體的層次性和全球適用性,包含海底地形地貌等類別,更為廣泛,沒有針對性。中文地名分類體系描述特定活動與服務(wù)場所的點位,注重服務(wù)的本地化和實用性,其編制原則以數(shù)據(jù)源融合為基礎(chǔ),重點擴(kuò)展了實體店鋪、政府機關(guān)、地名等類別,具有唯一性、安全性、擴(kuò)展性特點,一般有大類、中類和小類三級分類結(jié)構(gòu),配以標(biāo)簽和提示詞,提供具體分類參考信息,便于數(shù)據(jù)的查詢與標(biāo)注。
2
基于通名的同現(xiàn)映射方法
2.1
方法原理
本文提出基于通名的同現(xiàn)映射方法能夠較為準(zhǔn)確地實現(xiàn)外文體系與中文體系之間的類別映射。其特點在于:①以基于同現(xiàn)的映射為基礎(chǔ),可以避免中外地名分類體系差異大,側(cè)重點不同,類別與類別映射由此產(chǎn)生誤差;②基于同現(xiàn)的映射作為目前得到較多驗證和應(yīng)用的映射方法,對數(shù)據(jù)集的要求很高,單條地名作為單位數(shù)據(jù),在此基礎(chǔ)上結(jié)合地名通名,從該視角對外文類別與中文類別進(jìn)行匹配,更為高效和準(zhǔn)確。同一個形式的通名在不同類別的含義不同,如外文通名“park”的中文含義有公園和停車場的意思,需要根據(jù)單位數(shù)據(jù)含有的地理信息標(biāo)注符合的類別。當(dāng)有足夠量的結(jié)合通名后被外文體系與中文體系共同標(biāo)引的數(shù)據(jù)時,能夠較為精準(zhǔn)地反映類別間的聯(lián)系。
2.2
數(shù)據(jù)處理流程
2.2.1 數(shù)據(jù)標(biāo)注
針對外文地名數(shù)據(jù)構(gòu)建了雙層次特征編碼模型。首先通過外文分類體系的有限類別獲取標(biāo)準(zhǔn)化的源類別中文譯名,并基于雙語通名映射庫提取通名中文特征(如“酒店”);繼而采用Jieba分詞工具對通名及源類別文本進(jìn)行語義解構(gòu),通過中國科學(xué)院地名詞向量預(yù)訓(xùn)練模型CAS-GeoBERT生成細(xì)粒度詞向量,以通名詞向量均值與源類別詞向量均值拼接形成復(fù)合特征向量;對于目標(biāo)分類體系中的國內(nèi)地理實體類別,直接利用同源詞向量模型生成基準(zhǔn)向量表征。通過計算跨域特征向量與國內(nèi)類別向量的余弦相似度實現(xiàn)自動分類,對未登錄詞導(dǎo)致的零向量異常及低相似度樣本啟動人工校正機制,數(shù)據(jù)標(biāo)注過程如圖1所示。
![]()
2.2.2 劃分?jǐn)?shù)據(jù)集
在原始數(shù)據(jù)集的基礎(chǔ)上,單位數(shù)據(jù)因類別不同會有重復(fù),為保證類別標(biāo)注統(tǒng)一,逐步建立同現(xiàn)映射所需初始數(shù)據(jù)集與特殊數(shù)據(jù)集,具體步驟如圖2所示。
![]()
1)外文地名為初始鏈接條件,并篩選出每個單位數(shù)據(jù)的通名為原始數(shù)據(jù)集;
2)以單位數(shù)據(jù)有通名地名和無通名地名為區(qū)分作為初始數(shù)據(jù)集;同時篩選完全一樣的單位數(shù)據(jù),包含有通名和無通名情況,為特殊數(shù)據(jù)集。
3)無通名地名以原始來源包含信息判斷“通名”,外文體系類別和中文體系類別對每一個單位數(shù)據(jù)分別標(biāo)注,初始數(shù)據(jù)集與特殊數(shù)據(jù)集中重復(fù)地名標(biāo)注需統(tǒng)一,形成標(biāo)注數(shù)據(jù)集。
2.3
相似度計算
由外文體系類別集合位M={m1,m2,···,mx}和中文體系類別集合為N={n1,n2,···,ny},給定外文體系矩陣W=(w1,w2,···,wi)和中文矩陣體系V=(v1,v2,···,vj)其中每個單位數(shù)據(jù)都有與之對應(yīng)的m(n)標(biāo)注,將W與V中的元素組合形成新的數(shù)據(jù)矩陣E=WT×V,通過統(tǒng)計矩陣E中不同類別的頻次來計算其相似度。
相似度的計算方法有很多種,本文采用Jaccard系數(shù)來計算類別間的相似度,給定兩個集合A,B,Jaccard系數(shù)定義為A與B交集的大小與A與B并集的大小的比值,定義見式(1)。
![]()
與Jaccard系數(shù)相關(guān)的指標(biāo)叫Jaccard距離,用于描述集合之間的相似度。Jaccard距離越大,樣本相似度越低,定義見式(2)。
![]()
Jaccard系數(shù)在本文計算源類別與目標(biāo)類別相似度計算,見式(3)~式(6)。
![]()
式中:m和n分別為源類別與目標(biāo)類別;Sim(m,n)為源類別m和目標(biāo)類別n之間的相似系數(shù),取值范圍為[0,1],數(shù)值越大,則類別之間的相似程度越高;式(4)和式(5)中假定N為標(biāo)注數(shù)據(jù)集中單位數(shù)據(jù)總量,N(m?,n)為標(biāo)注數(shù)據(jù)集中同時被類別m和類別n標(biāo)注的單位數(shù)據(jù)總量,N(m?,n?)為標(biāo)注數(shù)據(jù)集中既未被類別m,又未被類別n標(biāo)注的單位數(shù)據(jù)總量,故源類別m與目標(biāo)類別n之間的相似度公式可以轉(zhuǎn)化為式(6)。
根據(jù)式(6)可以計算出兩者的相似度。為進(jìn)一步通過相似度取值大小判斷兩者是否存在映射,需要建立比較標(biāo)準(zhǔn)。從外文體系視角來看,設(shè)定當(dāng)外文體系中某一類別mx與中文體系中某一類別ny之間的相似度取值大于類別mx與中文體系全部類別之間相似度最大值的1/4時,判斷類別mx與類別ny間存在映射關(guān)系;基于中文體系視角同理。類別間存在映射的相似度判斷標(biāo)準(zhǔn)見式(7)和式(8)。
![]()
綜上,通過相似度計算以及取值標(biāo)準(zhǔn)的設(shè)定可合理判斷兩者是否存在映射,進(jìn)而分別從外文體系與中文體系兩個角度,推斷兩種分類體系類別間的映射關(guān)系。
3
實驗結(jié)果與分析
3.1
實驗數(shù)據(jù)
3.1.1 分類體系選取
基于通名的類別同現(xiàn)映射需要確定中外分類體系,美國地質(zhì)調(diào)查局地名信息系統(tǒng)、Gazetteer for Scotland、英國國家地名數(shù)據(jù)庫、Open Street Map(OSM)、Geonames等地名數(shù)據(jù)庫都蘊含大量地理信息。從宏觀角度上看,Geonames數(shù)據(jù)質(zhì)量覆蓋范圍廣泛、種類豐富,并且數(shù)據(jù)庫是開源的,用戶可以自由訪問、下載并用于商業(yè)或?qū)W術(shù)研究,更適用于跨文化、國際化的應(yīng)用場景,故外文地名分類體系選用geonames分類體系。中文地名分類體系選用天地圖(Map World)分類體系,主要采用的國家標(biāo)準(zhǔn)GB/T 35648—2017。天地圖是國家測繪地理信息局建設(shè)的地理信息綜合服務(wù)網(wǎng)站,是我國自主構(gòu)建的地理信息分類體系,主要面向國內(nèi)的地圖服務(wù)與地理信息應(yīng)用場景。
3.1.2 數(shù)據(jù)集
基于通名的類別同現(xiàn)映射其次需要確定數(shù)據(jù)集,考慮到中外分類體系的應(yīng)用性特征,數(shù)據(jù)要考慮國土面積、地理實體分布密度、數(shù)據(jù)豐富度與多樣性等方面。geonames是一個基于社區(qū)眾包的開源地圖項目,其數(shù)據(jù)由用戶貢獻(xiàn)和維護(hù),地名數(shù)據(jù)包含全球的地理信息,包括道路、建筑物、水體、公園、地標(biāo)等。故選取geonames官網(wǎng)下載新西蘭、墨西哥、南非、智利國家的地名,并進(jìn)行樣本均衡性處理共計71043條單位數(shù)據(jù)。
對用于映射研究的標(biāo)注數(shù)據(jù)集中單位數(shù)據(jù)的中文體系和外文體系類別進(jìn)行初步計量,發(fā)現(xiàn)基于通名的單位數(shù)據(jù),涉及geonames676個類別中的281個,主要涉及天地圖371個小類中的128個,基于geonames視角標(biāo)注單位數(shù)據(jù)的原始類別部分結(jié)果(包含1000條以上地名的類別)如表1所示。
![]()
基于天地圖視角標(biāo)注單位數(shù)據(jù)的類別(包含1000條以上地名的類別)部分結(jié)果如表2所示。對比兩表,由此可見,天地圖中對自然地物的分類比較粗糙,而geonames中自然地物分類更加細(xì)致;對于非自然地物,天地圖比geonames分類體系更為精準(zhǔn)。
![]()
3.2
基于通名的同現(xiàn)映射示例
對天地圖中與geonames中兩個視角超過1000條單位數(shù)據(jù)的類別的映射關(guān)系進(jìn)行分析。以geonames中的“htl”為例,具體分析過程如下:一方面,從geonames角度出發(fā),在標(biāo)注數(shù)據(jù)集中篩選出“htl”的單位數(shù)據(jù),統(tǒng)計該部分?jǐn)?shù)據(jù),結(jié)果共涉及天地圖中17個類別,計算標(biāo)注數(shù)據(jù)集中同時被“htl”和天地圖類別“星級賓館”標(biāo)注的單位數(shù)據(jù)總量N(htl,星級賓館)=1816,未被兩者標(biāo)注的單位數(shù)據(jù)總量N()=N?(htl,星級賓館)=67880,標(biāo)注數(shù)據(jù)集中單位數(shù)據(jù)總量N為固定值71043,則類別“htl”與類別“星級賓館”之間的相似度Sim(htl,星級賓館)==0.5741。同理可分別計算出其他N(htl,旅館、招待所)=776,N(htl,酒店式公寓)=148,N(htl,度假村、療養(yǎng)院)=118,N(htl,民宿)=92,N(htl,商業(yè)性住宿)=52,N(htl,農(nóng)林牧漁生產(chǎn))=36,N(htl,野生動物保護(hù)區(qū))=26,N(htl,居民住宿)=25,N(htl,自然地物)=21,N(htl,會議中心、展覽中心)=20,N(htl,露營房車營地)=13,N(htl,自然村)=10,N(htl,運動場館)=4,N(htl,集鎮(zhèn))=2,N(htl,博彩)=1,N(htl,咖啡館)=1,N?(htl,旅館、招待所)=67599,N?(htl,酒店式公寓)=67880,N?(htl,度假村、療養(yǎng)院)=67828,N?(htl,民宿)=67878,N?(htl,商業(yè)性住宿)=0,N?(htl,農(nóng)林牧漁生產(chǎn))=64175,N?(htl,野生動物保護(hù)區(qū))=67842,N?(htl,居民住宿)=65176,N?(htl,自然地物)=61821,N?(htl,會議中心、展覽中心)=0,N?(htl,露營房車營地)=61599,N?(htl,自然村)=66929,N?(htl,運動場館)=67806,N?(htl,集鎮(zhèn))=67828,N?(htl,博彩)=67876,N?(htl,咖啡館)=67853;進(jìn)一步得到geonames類別htl與天地圖剩余16個類別間的相似度,結(jié)果如表3所示。
![]()
從表3可以看出geonames中的類別htl與天地圖中的類別“星級賓館”“旅館、招待所”間的相似度取值符合類別間存在映射的相似度判斷標(biāo)準(zhǔn),即相似度取值大于類別htl與天地圖全部類別之間的相似度最大值(0.58077)的1/4。另一方面,從天地圖視角出發(fā),在標(biāo)注數(shù)據(jù)集中篩選出被類別“星級賓館”標(biāo)注的單位數(shù)據(jù),發(fā)現(xiàn)只涉及geonames中htl、ghse類別,其次篩選被類別“旅館、招待所”標(biāo)注的單位數(shù)據(jù),涉及geonames的6個類別,分別計算類別“旅館、招待所”與6個geonames類別對應(yīng)的數(shù)據(jù)量N(m,旅館、招待所),N(m?,),由此計算出天地圖類別“旅館、招待所”與geonames類別間的相似度,結(jié)果如表4所示。
![]()
從表4可以看出,天地圖中“星級賓館”僅與geonames中htl的相似度取值符合類別間存在映射的相似度判斷標(biāo)準(zhǔn),類別“旅館、招待所”與geonames中htl、bldg的相似度取值大于類別“旅館、招待所”與geonames全部類別之間的相似度最大值(0.22513)的1/4。如圖3所示,在兩種分類體系中,源類別htl與目標(biāo)類別“星級賓館”、“旅館、招待所”之間為一對多的映射關(guān)系,類別“旅館、招待所”與類別htl、bldg之間為一對多的映射關(guān)系,在geonames視角bldg與“旅館、招待所”不符合映射相似度判斷標(biāo)準(zhǔn),故箭頭由天地圖視角“旅館、招待所”單向映射“bldg”。
![]()
3.3
實驗結(jié)果與分析
3.3.1 實驗結(jié)果
分別從geonames與天地圖兩個視角出發(fā),計算其余geonames類別與天地圖類別間的相似度。將geonames(天地圖)特定類別與天地圖(geonames)全部類別間的相似度視為一組,對組內(nèi)取值進(jìn)行比較。結(jié)合類別間映射判斷標(biāo)準(zhǔn)公式可以發(fā)現(xiàn),在geonames視角上的映射關(guān)系如圖3所示。
圖4橫坐標(biāo)為1000條數(shù)據(jù)以上的geonames類別,縱坐標(biāo)是基于通名與橫坐標(biāo)同現(xiàn)的天地圖類比,圖中標(biāo)記的為同現(xiàn)關(guān)系,其中紅色標(biāo)記表示符合判斷標(biāo)準(zhǔn)的類別即判斷為橫坐標(biāo)與縱坐標(biāo)的類別存在映射關(guān)系,藍(lán)色標(biāo)記為不符合判斷標(biāo)準(zhǔn)的類別。基于天地圖視角的映射關(guān)系,同樣為1000條數(shù)據(jù)以上的天地圖類別,由于包含1000條以上數(shù)據(jù)的天地圖類別有15個,與其同現(xiàn)的geonames類別有157個,散點圖很難清晰完整展示,比如“山”、“自然地物”與geonames中同現(xiàn)的類別數(shù)較多,主要因為天地圖分類體系對與自然地物的劃分比較籠統(tǒng),洼地、沼澤、冰川之類的單位數(shù)據(jù)全部標(biāo)注“自然地物”。
![]()
基于geonames和天地圖兩個視角,將兩種分類法中的所有類別同現(xiàn)映射結(jié)果可視化,通過重疊的連線可發(fā)現(xiàn)類別間的雙向映射關(guān)系,兩者互為非一對一映射關(guān)系,如圖5所示。兩者互為一對一映射關(guān)系,如圖6所示。
![]()
![]()
3.3.2 實驗分析
在本文中人工分類的結(jié)果作為標(biāo)準(zhǔn)值,并經(jīng)過專家組認(rèn)定,人工分類結(jié)果構(gòu)成標(biāo)準(zhǔn)摘要集,本文方法類別映射構(gòu)成自動摘要集,對比二者的重疊單元數(shù)量,并計算重疊單元在標(biāo)準(zhǔn)摘要集中的占比,來評定類別映射的質(zhì)量。本文基于通名的同現(xiàn)映射得到映射結(jié)果,同時為了驗證本文方法的有效性,用基于規(guī)則和基于字面相似度(外文類別翻譯為中文)的方法比較,并用準(zhǔn)確率、召回率和F1值對分類結(jié)果進(jìn)行評價分析,在地名類別映射實驗對比結(jié)果如表5所示。結(jié)果表明基于通名的同現(xiàn)映射是最優(yōu)選擇,但在規(guī)則明確、簡單的場景中,基于規(guī)則的映射也能提供可靠的結(jié)果,綜合來看基于通名的同現(xiàn)映射方法較好。
![]()
4
結(jié)束語
針對中外地名分類體系之間缺乏有效的關(guān)聯(lián)與映射這一問題,本文提出了一種基于通名的同現(xiàn)映射方法,建立了外文地名體系geonames與中文地名體系天地圖類別之間的有效鏈接,實現(xiàn)了geonames與天地圖類別之間的映射,探討了從geonames視角出發(fā)的類別映射關(guān)系、從天地圖視角出發(fā)的類別映射關(guān)系以及geonames與天地圖小類類別之間的雙向映射關(guān)系,同時對比基于規(guī)則的映射,基于字面相似度的映射的方法,有效證明本方法的優(yōu)勢。這些映射關(guān)系的識別有助于促進(jìn)中外文地名的分類的互操作性。該方法對數(shù)據(jù)集的數(shù)量和質(zhì)量都有較高的要求與標(biāo)準(zhǔn),數(shù)據(jù)集越完善,映射結(jié)果就越準(zhǔn)確。標(biāo)注數(shù)據(jù)集中各類別下單位數(shù)據(jù)的數(shù)量分布并不均勻,但由于視角不同,geonames視角下類別均衡后天地圖視角類別可能不均衡,比如geonames類別中的mt、pt、mts對應(yīng)的天地圖類別都為“山”。另外在處理特殊地名、罕見通名等情況時就面臨著需要人工校正的問題,外文類別直接翻譯為中文與中文類別直接進(jìn)行映射可以用基于相似度的方法,但是由于地名來自用戶貢獻(xiàn)的網(wǎng)站,存在地名分類錯誤的問題,但是結(jié)合通名會減少由此帶來的問題,后續(xù)會進(jìn)一步研究將通名特征融入源類別中,生成詞向量和子詞向量;將通名對應(yīng)中文翻譯特征融入目標(biāo)類別中,生成詞向量和字向量,用機器學(xué)習(xí)的方法預(yù)訓(xùn)練一個適合地名類別映射的模型。
作者:何新雨 趙江洪 王繼周 毛曦
來源:《測繪科學(xué)》2025年第9期
選稿:宋柄燃
編輯:宋柄燃
校對:鄭雨晴
審訂:楊 琪
責(zé)編:耿 曈
(由于版面內(nèi)容有限,文章注釋內(nèi)容請參照原文)

![]()
微信掃碼加入
中國地名研究交流群
QQ掃碼加入
江西地名研究交流群
歡迎來稿!歡迎交流!
轉(zhuǎn)載請注明來源:“江西地名研究”微信公眾號
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.