![]()
江西地名研究
關注我們,獲取更多地名資訊
摘要:針對眾源數據中外文地名分類體系差距大,側重不同無法準確映射的問題,提出了一種基于通名同現關系的類別映射方法,以實現類別的準確映射。地名由專名和通名組成,通名是地名中用來區分各個地理實體類別的詞。以地名數據集進行標注,對數據集的標注結果進行分析,可實現外文類別與中文類別的映射關系,同時,以geonames地名數據為實驗數據,將該文提出的方法與基于規則、基于字面相似度的方法結果進行了比較。試驗證明,該方法在大規模數據集上的映射效果顯著,能夠有效實現外文體系與中文體系類別之間的一對一、一對多及雙向映射關系,同時數據映射效率明顯優于其他方法,其在不同國家地名數據上具有適用性,有利于中外分類體系類別映射研究,對于建設標準化的全球地名數據庫有重要意義。
關鍵詞:同現映射;類別映射;分類體系
0
引言
目前,世界上大多數發達國家建立了自己的地名信息系統。我國地名信息建設近幾年發展快速,民政部組織建設了全國地名數據庫,但是缺少一個覆蓋全球、可靠且具有統一技術標準的全球地名數據庫。全球地名數據資源涉及范圍廣、國家多、語種多,不同國家和地區經濟發展水平懸殊,信息資源差距明顯,互聯網發展不均衡。由于分類體系差異大,存在各自獨立的分類準則,對我國地名信息標準化建設造成一定影響,來自眾源數據的外文類別準確映射到中文類別的問題急需解決。
地名分類體系主要以地理實體為主要區分目標,不同地名分類體系對地理實體的囊括范圍不同造成了分類的差異。分類法映射把分類法和分類法中的類目分別作為集合和集合中的元素,從類目概念出發,對一個分類法中的類目與另一個分類法中的一個或多個類目建立對應關系的過程。目前類別映射分為基于規則、基于統計、基于機器學習、基于深度學習、基于知識圖譜的映射等方法。最基礎的是簡單規則映射,根據明確的、預先定義好的規則進行類別映射。其次是決策樹映射,該方法通過對數據特征進行層層判斷來實現類別映射。每個內部節點是一個屬性上的測試,分支是測試輸出,葉節點是類別。
基于機器學習的映射方法有樸素貝葉斯映射、支持向量機(SVM)映射等,SVM是通過尋找一個最優超平面,將不同類別的數據點分隔開,從而實現類別映射。對于線性可分的數據,SVM可以找到一個線性超平面;對于非線性數據,可以通過核函數將數據映射到高維空間,使其變得線性可分,文獻[3]針對興趣點(POI)數據提出一種基于詞向量計算工具Word2vec和支持向量機的POI分類方法;近年來基于機器學習的映射方法研究更廣泛,比如K近鄰(KNN)方法,對于一個待分類樣本,計算它與訓練集中所有樣本的距離,選取距離最近的K個樣本,根據這K個樣本的類別來確定待分類樣本的類別,通常采用多數表決的方式,文獻[4]提出了一種基于動態權重的地理要素類別語義相似度算法,根據不同類型的特征屬性提出相應的相似度算法;文獻[5]提出了一種結合字面相似度計算方法和語義對照模式,自動生成地理信息分類體系對照關系的方法;人工神經網絡映射由大量的神經元相互連接組成,通過對訓練數據的學習,自動提取數據的特征和模式,實現類別映射,文獻[6]通過語料訓練得到一個關于類目的分類器,利用機器學習得到專利與圖書的類目映射;文獻[7]采用基于中心結構模型的語義映射方法,初步構建關聯映射表,收集生物醫學領域數據基于inctes學科分析工具與期刊同現兩種方法完成映射結果的優化與驗證;文獻[8]將詞共現概念模型引入到文本相似度比較中,找出高頻的共現詞集,加強同一類別文本相似度比較的能力;而目前大多數學者基于深度學習研究映射方法,文獻[9]提出了基于BERT預訓練上下文語言模型的李生網絡模型,對CLC與IPC的類目映射關系進行研究;文獻[10]通過關鍵詞提取、預訓練語言模型、相似度計算及結果推薦,構建基于深度學習的物品編碼映射模型,實現了關于物品編碼的類別映射;文獻[11]提出一種顧及描述知識的地理要素分類映射方法,建立綜合相似性度量模型來評估地理要素類別的語義相似性;文獻[12]提出了一種將社會網絡分析思想與同現映射相融合的映射方法,對每個單位數據進行分類標注,結合類目相似度得到類目映射關系。基于知識圖譜的本體的映射研究,利用知識圖譜的本體結構和語義關系,根據實體的屬性和與其他實體的關系,將其映射到合適的類別。文獻[13]提出一種基于本體屬性特征學習的地理要素分類語義映射方法;文獻[14]提出一種基于類別核心詞的概念映射方法,在概念空間上完成文本分類工作;文獻[15]提出了一種新的基于本體屬性特征學習的地理類別映射方法,該方法利用本體屬性和地理類別的分類層次結構,用新的層次編碼方法來描述類別的分類層次,并識別每個類別的分類狀態然后采用一種基于BP神經網絡的自學習映射機制,建立本體屬性特征向量與分類狀態之間的非線性關系,可以支持類別映射。
文獻[16]分析天津市陸海地理要素分類分級差異,基于語義建立地形圖和電子海圖要素類別之間的對應關系,實現天津市陸海地理信息數據的語義融合;文獻[17]通過語義映射方法實現IFC與CityGML標準的轉換,驗證了BIM與3D GIS結合對智慧城市三維建模的促進作用;文獻[18]針對IFC與CityGML標準轉換中的信息丟失和幾何不精確問題,提出一種基于建筑構件類型和語義分析的完整映射方法,實現BIM到多層次CityGML模型的轉換,文獻[19]采用人工輔助方式提取通名,建立地名通名與地理要素類型之間的映射關系。目前關于地理信息領域的類別映射方法研究較少,基于人工的類別映射,耗時高、成本大,易出錯且一致性差,難以擴展和適應變化;基于相似度和基于機器學習的映射均需要對語義或字面結構進行處理,處理跨語言、跨文化的地名映射時仍存在局限性,難以避免由語義或語種問題而導致的誤差。若干個詞經常共同出現(共現)在文本的同一窗口單元(如一句話、一個自然段等),則認為這若干個詞在意義上是相互關聯的。共現的概念最早出現在情報學中,通過對共現現象的分析可以更多地了解事物之間的關聯性。充分理解詞匯之間的共現關系,可以幫助我們挖掘出許多詞匯間相關聯的語義關系及深層含義,同時對自然語言分析起著重要作用。共現的概率越高,其相互關聯越緊密,并且表示一定的語義概念。本文結合分類與映射思想,提出基于通名的類別同現映射方法:結合通名可以避免由于分類體系差異大,側重不同造成分類錯誤,含有通名的地名作為大規模數據集,標注外文類別與類中文類別,計算同一類別組同現的條數,用Jaccard系數計算相似值并建立比較標準,能夠獲得具有普適性的映射關系,在其他國家含有相同類別組時能夠快速映射中文類別。
1
中外分類體系分析
從編制體例上看,外文地名分類體系常采用等級列舉式體系分類法,適用于地名的分層管理,特別是行政區劃、地理空間分級等層級分明的場景。中文地名分類體系常采用線分類法,在編制原則、體系結構、聚類方式等方面有顯著差異,難以準確映射,比如外文類別“學校”不區分中小學,外文分類體系常按照地理實體的類型和功能進行聚類,遵循從大到小、從一般到具體的邏輯逐級展開,層次清晰,形成一個覆蓋自然地貌、行政區劃、歷史遺跡等涵蓋廣泛的分類體系,更注重地理實體的層次性和全球適用性,包含海底地形地貌等類別,更為廣泛,沒有針對性。中文地名分類體系描述特定活動與服務場所的點位,注重服務的本地化和實用性,其編制原則以數據源融合為基礎,重點擴展了實體店鋪、政府機關、地名等類別,具有唯一性、安全性、擴展性特點,一般有大類、中類和小類三級分類結構,配以標簽和提示詞,提供具體分類參考信息,便于數據的查詢與標注。
2
基于通名的同現映射方法
2.1
方法原理
本文提出基于通名的同現映射方法能夠較為準確地實現外文體系與中文體系之間的類別映射。其特點在于:①以基于同現的映射為基礎,可以避免中外地名分類體系差異大,側重點不同,類別與類別映射由此產生誤差;②基于同現的映射作為目前得到較多驗證和應用的映射方法,對數據集的要求很高,單條地名作為單位數據,在此基礎上結合地名通名,從該視角對外文類別與中文類別進行匹配,更為高效和準確。同一個形式的通名在不同類別的含義不同,如外文通名“park”的中文含義有公園和停車場的意思,需要根據單位數據含有的地理信息標注符合的類別。當有足夠量的結合通名后被外文體系與中文體系共同標引的數據時,能夠較為精準地反映類別間的聯系。
2.2
數據處理流程
2.2.1 數據標注
針對外文地名數據構建了雙層次特征編碼模型。首先通過外文分類體系的有限類別獲取標準化的源類別中文譯名,并基于雙語通名映射庫提取通名中文特征(如“酒店”);繼而采用Jieba分詞工具對通名及源類別文本進行語義解構,通過中國科學院地名詞向量預訓練模型CAS-GeoBERT生成細粒度詞向量,以通名詞向量均值與源類別詞向量均值拼接形成復合特征向量;對于目標分類體系中的國內地理實體類別,直接利用同源詞向量模型生成基準向量表征。通過計算跨域特征向量與國內類別向量的余弦相似度實現自動分類,對未登錄詞導致的零向量異常及低相似度樣本啟動人工校正機制,數據標注過程如圖1所示。
![]()
2.2.2 劃分數據集
在原始數據集的基礎上,單位數據因類別不同會有重復,為保證類別標注統一,逐步建立同現映射所需初始數據集與特殊數據集,具體步驟如圖2所示。
![]()
1)外文地名為初始鏈接條件,并篩選出每個單位數據的通名為原始數據集;
2)以單位數據有通名地名和無通名地名為區分作為初始數據集;同時篩選完全一樣的單位數據,包含有通名和無通名情況,為特殊數據集。
3)無通名地名以原始來源包含信息判斷“通名”,外文體系類別和中文體系類別對每一個單位數據分別標注,初始數據集與特殊數據集中重復地名標注需統一,形成標注數據集。
2.3
相似度計算
由外文體系類別集合位M={m1,m2,···,mx}和中文體系類別集合為N={n1,n2,···,ny},給定外文體系矩陣W=(w1,w2,···,wi)和中文矩陣體系V=(v1,v2,···,vj)其中每個單位數據都有與之對應的m(n)標注,將W與V中的元素組合形成新的數據矩陣E=WT×V,通過統計矩陣E中不同類別的頻次來計算其相似度。
相似度的計算方法有很多種,本文采用Jaccard系數來計算類別間的相似度,給定兩個集合A,B,Jaccard系數定義為A與B交集的大小與A與B并集的大小的比值,定義見式(1)。
![]()
與Jaccard系數相關的指標叫Jaccard距離,用于描述集合之間的相似度。Jaccard距離越大,樣本相似度越低,定義見式(2)。
![]()
Jaccard系數在本文計算源類別與目標類別相似度計算,見式(3)~式(6)。
![]()
式中:m和n分別為源類別與目標類別;Sim(m,n)為源類別m和目標類別n之間的相似系數,取值范圍為[0,1],數值越大,則類別之間的相似程度越高;式(4)和式(5)中假定N為標注數據集中單位數據總量,N(m?,n)為標注數據集中同時被類別m和類別n標注的單位數據總量,N(m?,n?)為標注數據集中既未被類別m,又未被類別n標注的單位數據總量,故源類別m與目標類別n之間的相似度公式可以轉化為式(6)。
根據式(6)可以計算出兩者的相似度。為進一步通過相似度取值大小判斷兩者是否存在映射,需要建立比較標準。從外文體系視角來看,設定當外文體系中某一類別mx與中文體系中某一類別ny之間的相似度取值大于類別mx與中文體系全部類別之間相似度最大值的1/4時,判斷類別mx與類別ny間存在映射關系;基于中文體系視角同理。類別間存在映射的相似度判斷標準見式(7)和式(8)。
![]()
綜上,通過相似度計算以及取值標準的設定可合理判斷兩者是否存在映射,進而分別從外文體系與中文體系兩個角度,推斷兩種分類體系類別間的映射關系。
3
實驗結果與分析
3.1
實驗數據
3.1.1 分類體系選取
基于通名的類別同現映射需要確定中外分類體系,美國地質調查局地名信息系統、Gazetteer for Scotland、英國國家地名數據庫、Open Street Map(OSM)、Geonames等地名數據庫都蘊含大量地理信息。從宏觀角度上看,Geonames數據質量覆蓋范圍廣泛、種類豐富,并且數據庫是開源的,用戶可以自由訪問、下載并用于商業或學術研究,更適用于跨文化、國際化的應用場景,故外文地名分類體系選用geonames分類體系。中文地名分類體系選用天地圖(Map World)分類體系,主要采用的國家標準GB/T 35648—2017。天地圖是國家測繪地理信息局建設的地理信息綜合服務網站,是我國自主構建的地理信息分類體系,主要面向國內的地圖服務與地理信息應用場景。
3.1.2 數據集
基于通名的類別同現映射其次需要確定數據集,考慮到中外分類體系的應用性特征,數據要考慮國土面積、地理實體分布密度、數據豐富度與多樣性等方面。geonames是一個基于社區眾包的開源地圖項目,其數據由用戶貢獻和維護,地名數據包含全球的地理信息,包括道路、建筑物、水體、公園、地標等。故選取geonames官網下載新西蘭、墨西哥、南非、智利國家的地名,并進行樣本均衡性處理共計71043條單位數據。
對用于映射研究的標注數據集中單位數據的中文體系和外文體系類別進行初步計量,發現基于通名的單位數據,涉及geonames676個類別中的281個,主要涉及天地圖371個小類中的128個,基于geonames視角標注單位數據的原始類別部分結果(包含1000條以上地名的類別)如表1所示。
![]()
基于天地圖視角標注單位數據的類別(包含1000條以上地名的類別)部分結果如表2所示。對比兩表,由此可見,天地圖中對自然地物的分類比較粗糙,而geonames中自然地物分類更加細致;對于非自然地物,天地圖比geonames分類體系更為精準。
![]()
3.2
基于通名的同現映射示例
對天地圖中與geonames中兩個視角超過1000條單位數據的類別的映射關系進行分析。以geonames中的“htl”為例,具體分析過程如下:一方面,從geonames角度出發,在標注數據集中篩選出“htl”的單位數據,統計該部分數據,結果共涉及天地圖中17個類別,計算標注數據集中同時被“htl”和天地圖類別“星級賓館”標注的單位數據總量N(htl,星級賓館)=1816,未被兩者標注的單位數據總量N()=N?(htl,星級賓館)=67880,標注數據集中單位數據總量N為固定值71043,則類別“htl”與類別“星級賓館”之間的相似度Sim(htl,星級賓館)==0.5741。同理可分別計算出其他N(htl,旅館、招待所)=776,N(htl,酒店式公寓)=148,N(htl,度假村、療養院)=118,N(htl,民宿)=92,N(htl,商業性住宿)=52,N(htl,農林牧漁生產)=36,N(htl,野生動物保護區)=26,N(htl,居民住宿)=25,N(htl,自然地物)=21,N(htl,會議中心、展覽中心)=20,N(htl,露營房車營地)=13,N(htl,自然村)=10,N(htl,運動場館)=4,N(htl,集鎮)=2,N(htl,博彩)=1,N(htl,咖啡館)=1,N?(htl,旅館、招待所)=67599,N?(htl,酒店式公寓)=67880,N?(htl,度假村、療養院)=67828,N?(htl,民宿)=67878,N?(htl,商業性住宿)=0,N?(htl,農林牧漁生產)=64175,N?(htl,野生動物保護區)=67842,N?(htl,居民住宿)=65176,N?(htl,自然地物)=61821,N?(htl,會議中心、展覽中心)=0,N?(htl,露營房車營地)=61599,N?(htl,自然村)=66929,N?(htl,運動場館)=67806,N?(htl,集鎮)=67828,N?(htl,博彩)=67876,N?(htl,咖啡館)=67853;進一步得到geonames類別htl與天地圖剩余16個類別間的相似度,結果如表3所示。
![]()
從表3可以看出geonames中的類別htl與天地圖中的類別“星級賓館”“旅館、招待所”間的相似度取值符合類別間存在映射的相似度判斷標準,即相似度取值大于類別htl與天地圖全部類別之間的相似度最大值(0.58077)的1/4。另一方面,從天地圖視角出發,在標注數據集中篩選出被類別“星級賓館”標注的單位數據,發現只涉及geonames中htl、ghse類別,其次篩選被類別“旅館、招待所”標注的單位數據,涉及geonames的6個類別,分別計算類別“旅館、招待所”與6個geonames類別對應的數據量N(m,旅館、招待所),N(m?,),由此計算出天地圖類別“旅館、招待所”與geonames類別間的相似度,結果如表4所示。
![]()
從表4可以看出,天地圖中“星級賓館”僅與geonames中htl的相似度取值符合類別間存在映射的相似度判斷標準,類別“旅館、招待所”與geonames中htl、bldg的相似度取值大于類別“旅館、招待所”與geonames全部類別之間的相似度最大值(0.22513)的1/4。如圖3所示,在兩種分類體系中,源類別htl與目標類別“星級賓館”、“旅館、招待所”之間為一對多的映射關系,類別“旅館、招待所”與類別htl、bldg之間為一對多的映射關系,在geonames視角bldg與“旅館、招待所”不符合映射相似度判斷標準,故箭頭由天地圖視角“旅館、招待所”單向映射“bldg”。
![]()
3.3
實驗結果與分析
3.3.1 實驗結果
分別從geonames與天地圖兩個視角出發,計算其余geonames類別與天地圖類別間的相似度。將geonames(天地圖)特定類別與天地圖(geonames)全部類別間的相似度視為一組,對組內取值進行比較。結合類別間映射判斷標準公式可以發現,在geonames視角上的映射關系如圖3所示。
圖4橫坐標為1000條數據以上的geonames類別,縱坐標是基于通名與橫坐標同現的天地圖類比,圖中標記的為同現關系,其中紅色標記表示符合判斷標準的類別即判斷為橫坐標與縱坐標的類別存在映射關系,藍色標記為不符合判斷標準的類別。基于天地圖視角的映射關系,同樣為1000條數據以上的天地圖類別,由于包含1000條以上數據的天地圖類別有15個,與其同現的geonames類別有157個,散點圖很難清晰完整展示,比如“山”、“自然地物”與geonames中同現的類別數較多,主要因為天地圖分類體系對與自然地物的劃分比較籠統,洼地、沼澤、冰川之類的單位數據全部標注“自然地物”。
![]()
基于geonames和天地圖兩個視角,將兩種分類法中的所有類別同現映射結果可視化,通過重疊的連線可發現類別間的雙向映射關系,兩者互為非一對一映射關系,如圖5所示。兩者互為一對一映射關系,如圖6所示。
![]()
![]()
3.3.2 實驗分析
在本文中人工分類的結果作為標準值,并經過專家組認定,人工分類結果構成標準摘要集,本文方法類別映射構成自動摘要集,對比二者的重疊單元數量,并計算重疊單元在標準摘要集中的占比,來評定類別映射的質量。本文基于通名的同現映射得到映射結果,同時為了驗證本文方法的有效性,用基于規則和基于字面相似度(外文類別翻譯為中文)的方法比較,并用準確率、召回率和F1值對分類結果進行評價分析,在地名類別映射實驗對比結果如表5所示。結果表明基于通名的同現映射是最優選擇,但在規則明確、簡單的場景中,基于規則的映射也能提供可靠的結果,綜合來看基于通名的同現映射方法較好。
![]()
4
結束語
針對中外地名分類體系之間缺乏有效的關聯與映射這一問題,本文提出了一種基于通名的同現映射方法,建立了外文地名體系geonames與中文地名體系天地圖類別之間的有效鏈接,實現了geonames與天地圖類別之間的映射,探討了從geonames視角出發的類別映射關系、從天地圖視角出發的類別映射關系以及geonames與天地圖小類類別之間的雙向映射關系,同時對比基于規則的映射,基于字面相似度的映射的方法,有效證明本方法的優勢。這些映射關系的識別有助于促進中外文地名的分類的互操作性。該方法對數據集的數量和質量都有較高的要求與標準,數據集越完善,映射結果就越準確。標注數據集中各類別下單位數據的數量分布并不均勻,但由于視角不同,geonames視角下類別均衡后天地圖視角類別可能不均衡,比如geonames類別中的mt、pt、mts對應的天地圖類別都為“山”。另外在處理特殊地名、罕見通名等情況時就面臨著需要人工校正的問題,外文類別直接翻譯為中文與中文類別直接進行映射可以用基于相似度的方法,但是由于地名來自用戶貢獻的網站,存在地名分類錯誤的問題,但是結合通名會減少由此帶來的問題,后續會進一步研究將通名特征融入源類別中,生成詞向量和子詞向量;將通名對應中文翻譯特征融入目標類別中,生成詞向量和字向量,用機器學習的方法預訓練一個適合地名類別映射的模型。
作者:何新雨 趙江洪 王繼周 毛曦
來源:《測繪科學》2025年第9期
選稿:宋柄燃
編輯:宋柄燃
校對:鄭雨晴
審訂:楊 琪
責編:耿 曈
(由于版面內容有限,文章注釋內容請參照原文)

![]()
微信掃碼加入
中國地名研究交流群
QQ掃碼加入
江西地名研究交流群
歡迎來稿!歡迎交流!
轉載請注明來源:“江西地名研究”微信公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.