![]()
江西地名研究
關注我們,獲取更多地名資訊
摘要:近年人文社會科學研究中古舊地圖的使用規模和數字化處理需求不斷增加,古舊地圖的信息化迫在眉睫。文章以“數字歷史黃河”(DHYR)·圖形資料庫建設為例,介紹DHYR中圖形史料的RDF編目方案和古舊地圖地名信息自動化;通過清代基層水利單元“汛”“堡”重建黃河變遷事件研究案例,分析古舊地圖以及古舊地圖信息化方案在人文社會科學研究中的意義。RDF是用于描述知識圖譜實體及其關系的數據模型,能減少歷史地理信息化數據孤島現象,在DHYR中設計針對古舊地圖的編目方案和描述詞表;采用U-Net架構模型進行古舊地圖地名OCR識別,展現深度學習方法在古舊地圖信息自動化提取中的能力,提高歷史地名提取的效率和準確率。
關鍵詞:地名 古舊地圖 黃河 信息化
0
前言
![]()
古舊地圖是人文社會科學研究的重要史料,在光學字符識別(OCR)、地理信息系統(GIS)、數據庫技術等數據庫信息化手段支持下,可以最大限度挖掘古舊地圖中的地理信息,提升古舊地圖的使用效率。歷史地理學界針對古舊地圖的信息化處理已經進行多項實踐,如張萍等基于多種古舊地圖對西北“絲綢之路”交通路線和古代城市定位、韓昭慶研究康熙《皇輿全覽圖》投影方式、潘威等對近代灌渠體系的重建和分析,皆實踐了GIS手段在古舊地圖處理中的運用。不過,歷史地理學界將古舊地圖的信息化操作局限于GIS環境下的人工矢量化處理,限定了對古舊地圖的進一步研究和更廣泛使用。解決以上問題的方法是讓歷史地理信息化與圖情、計算機科學、信息管理等學科領域深度融合,在持續推動GIS在歷史地理學中應用的同時,充分利用大數據環境下的數據庫技術、圖形計算技術、深度學習技術。通過加強對古舊地圖的管理、處理、使用和分析等多項技能,為歷史地理學、地圖學史和數字人文發展提供更多可能性。而要落實這一目標,首先應解決古舊地圖文獻的數字化管理和圖幅內容的自動化提取。對古舊地圖的管理既是對圖幅作為文獻的數字化和編目,也是對圖幅內容的提取和數據化。
在歷史地理學研究中,使用古舊地圖需要信息化管理和圖幅內容的信息化提取,兩者實際為一有機整體。研究者首先需要建立古舊地圖資料庫,采用信息化手段管理大量古舊地圖文檔,在此基礎上采用OCR等手段實現古舊地圖信息提取的自動化,之后方才進入具體研究環節,即專題數據的使用層面。因此,古舊地圖的信息化管理以及圖幅內容的自動化提取是科研工作中的重要環節。實現這一目標,必須引入圖情知識體系(本文所用“圖情知識體系”一詞為圖書情報學的理論與技術體系總和,是筆者作為歷史地理學工作者對圖情學路徑的一種概括),尤其是圖情學界所采用的RDF編目、語義網和近年來大力提倡的OCR技術等,對推動歷史地理信息化具有重要意義。本文以清代河工圖的信息化處理方法為例,通過“數字歷史黃河”(DHYR)中的圖形資料庫的設計與實現,展現OCR、語義網技術、深度學習技術在歷史地理信息化建設中的重要作用,特別是對古舊地圖管理和使用中的重要作用。
![]()
1
“數字歷史黃河”·圖形資料庫
![]()
1.1 資料介紹
“數字歷史黃河”(DHYR)是由河南大學、云南大學共建共享共有的黃河歷史變遷古舊地圖資料庫,目的是實現黃河歷史變遷的數據管理、多維展示和輔助分析。黃河流域古舊地圖數量眾多,中國國家圖書館等單位建有古舊地圖管理平臺,對其已經收藏圖形,DHYR原則上不重復收錄,專門針對尚未得到系統收集、整理和電子化處理的古舊地圖,力求與其他單位藏圖互為補充。該系統的資料管理庫有專門的“圖形資料庫”(本文記為“DHYR·圖形資料庫”),其中收錄有清代河工圖、民國地形圖、黃河流域規劃圖、晚清西方黃河調查圖、近代工程藍圖、手繪草圖等多種圖像。圖1列舉了被DHYR·圖形資料庫收錄的圖形史料,其中,圖1-1為1753年徐城北岸黃河支岔圖(局部);圖1-2為1932年渭北引涇灌溉圖(局部);圖1-3為1946年陜西省水利廳黃河規劃圖·洛河(局部)。DHYR覆蓋范圍為黃河流域的青、寧、甘、陜、豫、魯、蘇7省,內容涉及黃河防洪工程、灌溉體系、交通布局、土地利用等,包括中、英、日等多種語言文字,已達2,100余幅,原圖收藏單位包括中國水利水電研究院、黃河水利委員會等重要機構,以及地方水利、檔案、博物館等系統。需要說明的是,沿黃地區的地形圖除水利部門繪制外,還有大量為軍事部門繪制,這類非水利機構暫時不收錄于DHYR內。
![]()
1.2 設計思路
DHYR·圖形資料庫的界面設計風格簡潔(見圖2)。DHYR·圖形資料庫建設的主要思路包括:持續收集有關黃河的各類圖形史料;修復破損史料;對圖形進行掃描,形成高精度電子文本;建設信息化管理方案,進行高效管理;與平臺其他資料庫和數據庫實現鏈接;充分挖掘史料價值,推動黃河變遷研究。之所以形成以上目的,主要在于這一工作面臨多種困難,包括:經費限制,本工作只能將經費用于收集與整理圖幅,突出內容建設,降低平臺建設難度;管理能力不足,作為高校小型科研團隊,缺乏公共圖書館那樣成熟的信息平臺管理能力,只能犧牲平臺功能,將其維持在團隊能夠運營的水平上。實際上,這是許多高校中小型科研團隊面臨的問題,這一問題造成大量的歷史地理專題數據庫無法持續運營。
![]()
DHYR·圖形資料庫在設計上采取較保守的策略,優先保證資料庫的穩定運行,在這一前提下逐步嘗試新技術運用。DHYR·圖形資料庫有四大功能模塊:(1)圖幅信息模塊:對圖形史料的基本信息進行輸入、編輯;(2)查詢檢索模塊:按照圖名、編碼、繪制者、管理者、時代等多種要素進行圖幅檢索;(3)用戶管理模塊:登記、管理DHYR使用者信息;(4)數據維護模塊:對數據進行存儲、備份、還原操作。圖形資料庫是DHYR的組成部分,庫結構采用HTML+CSS設計,后臺結構采用SQL-Server。
1.3 編目方案
1.3.1 元數據方案和語義網技術
本團隊在資料管理方式上,嘗試中國歷史地理學界內尚未被關注和使用的一些新方法,最重要的嘗試是借鑒圖情領域的元數據方案方法和語義網技術,對圖形史料進行編目和元數據記錄編碼。圖幅管理的重點在于編目方案設計,而歷史地理學界尚未重視標準化規范化的資源編目的重要性,導致嚴重的數據孤島現象。DHYR·圖形資料采用圖情領域的元數據方案設計方法和語義網領域的RDF(Resource Description Framework)模型和編碼格式。RDF是W3C提出的用于描述知識單元及其相互關系的數據模型和數據編碼標準,是特色歷史文獻資源編目中的主流方法。RDF將元數據記錄抽象為主體(subject)、謂詞(predict)與客體(object)3個組成部分,利用標準化的數據編碼方案描述資料庫中數據記錄的每一個知識節點。統一采用這種標準化規范化的方法,不僅能夠實現工作團隊內部和跨團隊的數據共享,更易與圖書館系統中的編目數據進行互操作和整合,將個人研究融入文化基礎設施體系,令歷史地理學專題數據具有更為廣闊的用戶群體,共同建設知識譜系。這是促進歷史地理信息管理規范化、數據共享便捷化、豐富數據維度的重要舉措。DHYR在歷史地理學界率先針對圖形史料采用此方法,將單幅圖形本身作為主體(subject)、描述圖形元數據規范詞表中的元素作為謂語(predict)、元素值作為客體(object)。比如,《道光黃河六省河工埽壩全圖》的“題名(dc:title)”這一元素的編碼結果為:《道光河工埽壩全圖》實體dc:title“道光河工埽壩全圖”。
1.3.2 元素集(詞表)設計
在確定編目基本原則的基礎上,具體編目方案設計需要充分考慮古舊圖形記錄的獨特性,不能簡單地將圖情管理系統中對現代正規出版物、檔案和一般古籍的編目方案套用至本工作。因此,需要制訂有針對性的元數據方案,設計專用于古舊地圖的元數據元素集(描述字段)。通過分析DHYR工作中已經收集的古舊地圖,發現一些描述字段對描述圖形具有重要作用,見表1中的“描述字段”列,包括描述性元數據和管理性元數據,是設計元數據元素集的基礎。在此基礎上,借鑒國際通用的都柏林核心(DC)元數據標準規范,復用其中的部分元素,并自定義一部分元素,還復用少量上海圖書館本體詞表中的部分屬性。隨著今后工作的進展,這一方案將進行更新、擴展和修正。
![]()
![]()
表1是對DHYR中古舊圖形進行描述的字段構成及其定義。通過這些字段,能清晰描述古舊圖形的時空信息、繪制信息和平臺管理信息。
(1)“空間范圍”字段采用經緯度坐標體現,這一做法可以在GIS環境中形成圖幅覆蓋范圍的空間可視化成果,更直觀地表現DHYR所收錄圖形史料的空間格局。
(2)“圖件標識符”“繪制人員標識符”“繪制機構標識符”等的編訂方式尚無行業標準,在歷史地理學界也無前期成果可供參考,因此參考地理學界內普遍使用的“郵政編碼方法”。“圖件標識符”采用7位整數進行編碼,首2位表示圖幅的歷史階段,如清代用“12”代表;第3位代表圖幅類型,如傳統時代的河工圖用“1”代表;后4位代表此類型序號,由“0000”開始。“繪制人員標識符”“繪制機構標識符”采用4位整數進行編碼,首2位表示人員、機構所處的歷史階段,后2位序號由“00”開始。“繪制人員標識符”“繪制機構標識符”分別是“水利人物數據庫”中的人物標識碼與“水利機構數據庫”的機構標識碼,通過標識碼可以實現跨庫鏈接。
2
基于深度學習的
古舊地圖地名識別
![]()
在完成古舊地圖管理信息化的基礎上,需要重視古舊地圖圖幅內容的自動提取。OCR(Optical Character Recognition)是圖形識別的一種,主流的OCR系統使用深度神經網絡,能夠實現高精度的文檔內容識別。
2.1 研制的必要性
在OCR系統支持下,歷史文獻識別的精度不斷提升,數字化進程大大加快,但通用OCR系統中的文檔分析與圖形識別方法難以直接應用到古舊地圖的處理之中,是因為古舊地圖清晰度、幅面整潔度等要素差異巨大。比如,手繪古舊地圖中,道路、邊界線、文本等不同的地理要素互相疊加,而手寫手繪也導致樣式存在隨機性誤差,因而古舊地圖中地名的識別難度更大。古舊地圖中地理要素的定位和提取非常重要,傳統上由人工進行,近年借助機器學習等手段訓練計算機實現自動提取圖幅內容的需求日益增多,一些研究涉及從多種地圖中提取地理信息和文本信息的方法。地理信息系統中的地名解析(Geoparsing或Toponym Resolution)是找出非結構化文本中提到的地名并將轉換為對應的經緯度坐標的過程。非結構話文本中自動檢測識別地名是自然語言處理(Natural Language Processing,NLP)中的命名實體識別(Named Entity Recognition,NER)。本研究與文本中地名解析目標一致,都是從文本中提取地名:筆者的處理對象是圖片,即掃描地圖,使用OCR方法提取文本;后者的處理對象是已經數字化的文本,使用訓練機器從中識別出表示地名的短語。筆者的工作與文本中地名解析的任務部分重疊:筆者從古舊地圖中識別出的文本默認都是地名,但識別文本中的地名是文本中地名解析的核心工作,其方法能為本研究提供思路;相同的部分是都需要將識別的地名(通過OCR或NER得到)進行歧義消除(Disambiguation),確保提取的文本單元是合法的地名,OCR提取的文本內容如何組合為正確的地名是本研究需要解決的關鍵問題。
2.2 深度學習與古舊地圖地名識別
利用機器學習方法從古舊地圖中識別地名需要大量的訓練數據,因此數據標注工作很關鍵。本研究采用逐步迭代的數據標注方法,起初使用通用的OCR檢測和識別古舊地圖中的文本,然后人工對檢測出的文本區域以及識別的文本內容進行校對,在新數據集上訓練新的地名文本檢測和識別模型,這樣每迭代一次模型的性能增強一次,經過若干次迭代,系統就具備較高的地名檢測和識別準確率。
古舊地圖中地名文本的檢測屬于對象檢測的一種,深度學習在該領域取得了成功。對象檢測主要分為“兩步法”(Two-Stage)和“一步法”(One-Stage)。“兩步法”對圖片進行特征提取后,得到候選框,再進行分類及回歸,代表算法是RCNN系列的目標檢測算法。“一步法”是在提取的圖片的特征圖上進行密集抽樣,產生大量的先驗框,然后進行分類和回歸,代表方法包括YOLO、SSD、RetinaNet。本研究使用一步法檢測中國古舊地圖中所有的單個漢字,訓練針對不同大小漢字的檢測模型。U-Net在智能語義分割任務中表現突出,最初是在醫療影像處理中得到成功應用,然后廣泛應用于對象檢測和語義分割任務,本研究采用這種結構的網絡進行字符級文本檢測。
由于文本檢測是字符級的,因此文本識別模型采用字符級識別模型。在文本識別領域,主流的OCR系統采用行(列)級別的識別模型,主要采用CTC(Connectionist Temporal Classification)算法搭配卷積神經網絡疊加循環卷積神經網絡(RNN)對圖片中包含的文本序列進行建模,一般而言文檔中的行和列相較于單個字符更易檢測。但是,地圖中的地名文本排列往往不像普通文獻那樣規則,而且有的地名字符間的距離較遠,所以行列級別的識別在地圖文本識別中并不像在一般文獻識別那么有效,因此使用卷積神經網絡進行字符級別的檢測和識別。
2.3 工作流程
檢測到的文字形成正確的地名需要將這些字符合并組成地名詞語,使用Min-Cost Flow算法,將檢測到的文字進行適當合并得到地名。圖片中的文本轉錄到計算機,主要包含兩個步驟:文本區域的檢測和文本的識別。前者從圖片中將包含文本的部分與圖片其余區域進行分割;后者將切割出的文本圖片進行識別,并將對應的文本存儲到計算機。
本研究的古舊地圖文本自動提取方法包括2項關鍵步驟:一是古舊地圖中地名文本的檢測與識別;二是合并檢測到的文本形成正確的地名。第一步實際上是OCR系統功能:檢測和識別圖片中文本。有些中文地圖中文字數量密集,使用主流的OCR框架往往很難正確檢測出所有包含的文字,也很難一步到位地將所有文字根據視覺特點(如排列、距離)直接生成正確的地名(見圖3)。
![]()
本系統工作流程見圖4。第一步,采取字符級別的文本檢測,即檢測地圖中所有的字符,并使用字符識別模型識別出這些字符。第二步,首先根據檢測到的字符的視覺特點,如相對位置、大小,構建一個K-NN的網絡。在網路中,每個檢測到的字符是一個節點,每個漢字代表的節點周圍距離它最近的K個其他漢字所對應的節點之間,添加一條有向邊邊的權重是它們在圖片中檢測到的限界框(Bounding Boxes)中心之間的歐式距離,這里的權重在后面的算法中也稱為耗費,在構建的這個網絡上使用Min-Cost Flow Algorithm將符合條件的字符連綴起來形成地名候選。后續研究將嘗試使用與該古舊地圖同時代的地名詞典(Gazetteer)對候選地名進行篩選和校對,從而獲得更準確的歷史地名。
![]()
2.4 系統關鍵部件
(1)文本檢測部件。在古舊地圖的字符檢測任務中,采用U-Net架構的深度神經網絡模型。該模型能夠進行圖片的語義分割(Semantic Segmentation),在歷史文獻自動處理領域得到廣泛應用,其中包括古舊地圖中的文本識別。因為目標是進行字符級的識別,所以字符檢測模型的數據標注采用單個字符的標注,標注的信息主要是字符的定界框(bounding boxes)。檢測出的單個字符輸入中文手寫體OCR系統進行識別,該系統能夠對簡體、繁體中文進行識別。
(2)文本識別部件。實施文本檢測的模塊需要記錄每個字符的坐標和尺寸,一方面為后續查詢定位提供服務,另一方面為第二步的字符合成地名提供輔助信息。地圖中的文本標注信息具有如下特點:一個地名用的字符大小一致,大小不一致的往往不屬于同一個地名;一個地名包含的字符往往聚在一起成為方向不定的一行(排列方向可能為多種傾斜角度)。本研究的方法是:首先根據第一步中獲得的每個字符的定界框(Bounding Box),將檢測到的字符進行分層(位置與原圖中一樣),大小近似的在同一層次,以解決大小字符之間的干擾。將同一層的文本視為同一級別,利用地名文本的視覺特點組合成地名候選。
(3)中文地名合成部件。第二步類似于解析文本中包含的地名(Geoparsing),采用基于Min-cost Flow Algorithm的地名合成算法,從無結構文本中識別出地名(自動化的實現需要自然語言理解相關技術),處理的是提取到的詞條,默認是地名。但OCR識別準確率難以在各種情況下都能達到100%準確率,古舊地圖中有些地名文本排列密度高、與背景疊加等原因使得提取到的詞條可能是錯誤的。因此,提取到的地名需要一個去模糊化(Toponym Disambiguation)過程,即確定提取的地名所屬歷史時期和所屬高層政區。
3
古舊地圖信息化處理
與清代黃河變遷研究
![]()
基于元數據方案、語義網技術和深度學習的古舊地圖管理、處理方法能夠實現古舊地圖中地理信息的高效挖掘。這些方法是否能在歷史地理學科研實踐中發揮作用呢?下文以清代黃河變遷研究為例,介紹該方法在歷史自然地理研究中的應用前景。
3.1 清代黃河下游的“汛”“堡”名稱提取
清代黃河下游依靠“汛”“堡”等基層水利管理單元實現修防、賑災、工程建設與管理、河銀征收、防盜等事務,是清代河政運作的基礎。“汛”依托于黃河一側河岸的堤防進行劃分,“堡”則是在“汛”之下由幾個河兵或河夫駐守的據點。“汛”“堡”等基層水利單元的提取和定位,可以為清代黃河變遷研究提供定位河務運作的空間框架,能夠將河銀收支、物料貿易網絡、河務官員流動路徑、堤防修護與決口等多項河務環節置于具體的地理空間下重新認識。但是,“汛”“堡”的整體狀況在文字性史料中并未得到全面記錄,僅有少數舉辦大型工程或發生決堤事件的“汛”“堡”名稱被記載。這一問題可以依靠清代河工圖解決。
利用DHYR·圖形資料庫,在規模龐大的清代河工圖中快速檢索到覆蓋下游全境、擁有“汛”-“堡”記錄的圖形史料。在史料搜尋方面,大致比傳統方法節省70%~80%的時間成本。以《道光黃河六省埽壩全圖》為例,利用本文提出的古舊地圖地名提取方法,訓練計算機對圖幅中“汛”“堡”名稱進行快速提取,形成格式化表格,能夠快速完成“汛”“堡”名錄的制作。如圖5所示,限界框(Bounding Boxes)標定100%的“汛”“堡”名稱,為后期實現定位提供基礎。
![]()
圖5是依據此方法重建的豫東河段“汛”“堡”空間格局。與孫濤提出的黃河蘭考以下河段“汛”界數據共同構成完整的“汛”“堡”空間數據。在此基礎上,根據文字性史料,可以判斷少數“堡”所在的經緯度位置,如中牟下汛的九堡即今中牟縣九堡村,此河段一直是豫東河防重點,現代建有“九堡控導工程”。少數“堡”的經緯度確定后,基本上可以在現代地圖上確定“汛”“堡”體系的基本格局,之后根據史料記錄和清代黃河下游形態、堤防格局推斷所有“堡”的位置,據此確定“汛”的范圍。
3.2 黃河重大變遷事件研究
19世紀以來,黃河下游最重要的變化即1855年(清咸豐五年)的“銅瓦廂改道”,黃河在今蘭考東壩頭一帶改道北流,奪大清河入渤海,結束了1128年以來形成的黃河“奪淮入黃海”局面,奠定了現代黃河下游基本格局。借助道光《豫省河工圖》(見圖6)及對其的信息化處理,可以重新認識“銅瓦廂改道”的過程、原因和影響。
![]()
重新討論“銅瓦廂改道”,首先需要準確認識決口點位置,長期以來,學界認為此次大改道決口點為黃河蘭考段的銅瓦廂,但通過閱讀清代河工檔案,結合實地調查,本研究發現1855年決口點為蘭陽上汛三堡。從道光《豫省河工圖》中發現,道光年間銅瓦廂段黃河已經緊逼河堤,銅瓦廂段形成托壩、挑水壩、雞嘴壩、格堤等復合工程構成的復雜體系,其中緊鄰黃河北岸的挑壩和格堤體系才是銅瓦廂埽工所在,黃河北擺的現象在道光時期已經非常明顯。因此,確定蘭陽上汛三堡所在位置非常重要。按前述操作方法,基于道光《豫省河工圖》,本研究確定蘭陽上汛三堡所在地(今蘭考東壩頭鎮東700米黃河河道內)。決口點位置的重新認識確定了決口點正是清代檔案中記錄的“蘭陽無工河段”,“銅瓦廂改道”的直接原因之一其實是清政府對“工”的布局出現問題,而非銅瓦廂本身工程出現問題。這一認識使得學界能夠重新思考1949年以來得出的一些認識,比如用銅瓦廂工程腐敗、太平天國戰爭導致清廷無暇顧及河務等解釋此次大改道的成因,而是回到清代河務制度本身,從制度結構性不足角度重新認識大改道的原因。“銅瓦廂改道”的重新認識僅是一個例證,實際上,古舊地圖在歷史時期黃河變遷(改道、決口、擺動以及管理方式)研究中的作用仍需更多案例進行驗證,進而總結為歷史自然地理的系統性研究方法,革新歷史地理學的研究方法。
4
結論與展望
![]()
(1)古舊地圖的信息化包括管理信息化、內容自動化提取和專題數據利用3個環節。
(2)編目方案能提高古舊地圖的管理效率。DHYR建設嘗試采用RDF方案對平臺圖形資料庫進行編目,這一方法實現了圖形資料信息的標準化,在提高信息檢索效率、實現跨庫鏈接以及不同知識體系融合方面發揮巨大作用,能解決歷史地理信息化中的數據孤島現象。
(3)基于深度學習的古舊地圖地名檢測和提取技術能夠快速、準確地整理古舊地圖中的地名信息。本研究所采用的“U-Net架構深度神經網絡模型”在處理古舊地圖中提高了信息采集的準確率和完整性,效果良好。
(4)信息化手段能夠支持中小型學術團隊進行批量文獻處理、數據重建與分析,克服人力、財力限制,完成較復雜的大型跨學科研究任務。歷史地理學界有必要學習圖情知識體系,增強與圖情學界的交流。
作者:潘威 張光偉 夏翠娟 孫濤
來源:《圖書館論壇》2021年第11期
選稿:耿 曈
編輯:宋柄燃
校對:杜佳玲
審訂:汪鴻琴
責編:楊 琪
(由于版面內容有限,文章注釋內容請參照原文)
![]()
![]()
微信掃碼加入
中國地名研究交流群
QQ掃碼加入
江西地名研究交流群
歡迎來稿!歡迎交流!
轉載請注明來源:“江西地名研究”微信公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.