![]()
江西地名研究
關注我們,獲取更多地名資訊
摘要:以地方志資料匯編《方志物產(chǎn)》(廣東分卷)為語料,設計并構建了古籍地名識別系統(tǒng)。采用規(guī)則與統(tǒng)計相結合的命名實體識別方法,實現(xiàn)了物產(chǎn)地名的自動識別。分析了命名實體識別技術在中國方志類古籍整理中的應用前景,為方志類古籍進行數(shù)字化整理、挖掘物產(chǎn)分布、物產(chǎn)引進和傳播等相關研究提供了新的途徑。
關鍵詞:地名識別;方志;命名實體;古籍數(shù)字化;古籍整理。
作為信息抽取中最有實用價值的一項關鍵技術,命名實體識別最初是在MUC-6(Message Understanding Conference)中作為一個子任務提出的。國外有關英文命名實體識別的研究開始較早,并達到了較高的水平,MUC會議測試的準確率和召回率可達到97%左右。目前中文命名實體識別的研究仍處于探索階段,國內有關中文命名實體識別的研究主要集中于人名和地名,其應用涉及生物醫(yī)學、電子產(chǎn)品、音樂等領域,研究針對的語料也主要是現(xiàn)代文獻。古籍命名實體識別研究較少,僅有古典文獻和中醫(yī)古籍。
中國方志類古籍起源早、持續(xù)久、類型全、數(shù)量多。據(jù)《中國地方志聯(lián)合目錄》的統(tǒng)計,僅保存至今的宋至民國時期的方志就有8264種,11萬余卷,占中國古籍的1/10左右。可見,中國方志無疑是地方文獻中的大宗,它既具有豐富堅實的史料基礎,更具備取之不盡、足資參證的史料價值。本文以地方志資料匯編《方志物產(chǎn)》(廣東分卷)為語料,探討命名實體識別技術在方志類古籍內容挖掘中的應用前景。通過借用規(guī)則與統(tǒng)計相結合的命名實體識別方法,從中識別出物產(chǎn)的地名,構建物產(chǎn)地名識別系統(tǒng),為物產(chǎn)分布、物產(chǎn)引進和傳播等相關研究提供信息平臺。
1 物產(chǎn)地名識別方法的選擇
物產(chǎn)的地名是專有名詞,屬于命名實體的范疇。目前,命名實體識別的方法主要有規(guī)則方法、統(tǒng)計方法以及規(guī)則和統(tǒng)計相結合的方法。規(guī)則方法,主要通過分析命名實體的內部和外部特征,人工構造規(guī)則模板實現(xiàn)命名實體的識別。統(tǒng)計方法,主要是針對命名實體語料庫來訓練某個字作為命名實體組成部分的概率值,并用它們來計算某個候選字段作為命名實體的概率,其中概率值大于一定閾值的字段為識別出的命名實體。規(guī)則與統(tǒng)計相結合的方法,是通過概率計算減少規(guī)則方法的復雜性與盲目性,而且可以降低統(tǒng)計方法對語料庫規(guī)模的要求。
方志類古籍中涉及的地名很多,但沒有明確規(guī)范的地名定義。有些地名涵蓋的地域范圍寬泛,如“南夷”、“西域”有些地名則比較具體;地名的長度沒有嚴格限制,短的如“廣”、“粵”,長的如“南海龍之都會新安龍穴洲”;古籍中涉及的外國地名,大都是舊稱,但對外國地名的翻譯缺乏統(tǒng)一規(guī)范,如“頗稜國”與“頗陵國”、“交阯”與“交趾”;時常多個地名一起出現(xiàn),但有地名出現(xiàn)的地方,其文字表述的含義又不盡相同,既有說明某一物產(chǎn)原產(chǎn)地的,如“甕菜本生東夷古倫國”,又有說明物產(chǎn)現(xiàn)有分布地的,如“龍豬出南雄龍王巖在城東百里”;既有說明物產(chǎn)引進傳播情況的,如“番薯種自外洋呂宋移來由閩而廣”,也有說明該地區(qū)沒有某一物產(chǎn)的,如“日月蠔今惠來等處有之揭無此物”。這些復雜的地名表述情況,加之古籍的書寫又不分句讀,大都沒有標點符號,這就加大了地名識別的難度。已有的地名識別相關研究大都在進行地名識別之前先做分詞處理,這就勢必造成一些問題。如忽略了地名用字的特殊性,把地名用字等同于一般字做同樣的簡單分詞處理,造成分詞結果的錯漏;當?shù)孛泻谐S迷~或地名與地名前后字組成常用詞時,常用的分詞方法還會降低地名識別的正確率。
分析方志類古籍發(fā)現(xiàn),古籍中地名的結尾常有地名特征詞出現(xiàn),如“國”、“府”、“州”、“縣”、“郡”等地名還常與一些介詞、動詞、方位詞之類的指示詞一起出現(xiàn),如“丹竹出仁化”、“蕉布產(chǎn)潮州肇慶”、“安石榴種自涂林安石國得來”等,這些特征詞和指示詞即為命名實體識別方法中所謂的“規(guī)則”。我們可以提取這些規(guī)則,采用規(guī)則與統(tǒng)計相結合的命名實體識別方法來進行方志類古籍地名的智能化識別研究。
2 物產(chǎn)地名識別系統(tǒng)的設計
2.1 文檔處理及物產(chǎn)粗分詞
方志類古籍地名識別的基礎工作是建立古籍的數(shù)字文檔及數(shù)據(jù)庫。本文所研究的語料中,物產(chǎn)的行文敘述格式多種多樣,缺乏統(tǒng)一規(guī)范。借鑒前人的研究成果,對文本內容格式做規(guī)范處理,格式如下:
手抄本名稱
屬省序號
志書名稱
成書年代
起始頁碼
序言
物產(chǎn)屬名1
物產(chǎn)名1說明文字(可有可無)
物產(chǎn)名2說明文字(可有可無)
物產(chǎn)屬名2
物產(chǎn)名1說明文字(可有可無)
物產(chǎn)名2說明文字(可有可無)
綜論
按上述格式對文檔進行規(guī)范處理后,每一種物產(chǎn)都分行列出,物產(chǎn)名和該物產(chǎn)的解釋說明文字之間有一空格。這一過程實現(xiàn)了物產(chǎn)的粗分詞,通過計算機切分和人工析取粗略地分出了物產(chǎn)名詞。與此同時,也為數(shù)據(jù)庫的設計提供了依據(jù),為文檔的批量入庫做好了準備。
2.2 物產(chǎn)地名識別
借用規(guī)則為主、統(tǒng)計為輔的命名實體識別方法,選擇方志類古籍為語料,具體識別步驟如下:
2.2.1 構建地名標引詞典
方志中的地名大都是古代地名,參閱《古今地名對照表》、《古代地名通俗稱謂大全》以及明、清和民國時期廣東省行政區(qū)劃等相關資料,收集、整理、統(tǒng)計古代地名,構建地名標引詞典。
2.2.2 構建地名識別規(guī)則庫
(1)選取清朝康熙23年至民國32年間的《大埔縣志》、《埔陽縣志》、《惠來縣志》、《饒平縣志》、《揭陽縣志》等富含多種地名表述方式的志書作為訓練語料,抽取并統(tǒng)計地名的上下文信息,生成地名識別規(guī)則庫(見表1)。
![]()
表1中,“-”代表要識別的地名,根據(jù)地名在規(guī)則詞中的位置(前、后、中間),把規(guī)則分為三種類型:左開右閉型、左閉右開型、兩端封閉型。對于左開右閉和左閉右開這兩種類型的規(guī)則,除規(guī)則外另截取5個漢字。對于兩端封閉型,若中間詞串長度不超過5個字符,則全部截取。
(2)選取其余部分廣東方志作為測試語料,用規(guī)則庫中的規(guī)則信息匹配測試語料中的物產(chǎn)解釋,通過對匹配結果的統(tǒng)計分析,計算規(guī)則的頻度,以此來判斷規(guī)則的可信程度。
不同的規(guī)則在識別地名時,其正確率是不同的。為了表示規(guī)則的可信程度,引入規(guī)則頻度這一概念。規(guī)則頻度的定義如下:
其中表示規(guī)則R識別地名正確的個數(shù);表示規(guī)則R識別地名總數(shù)。
(3)根據(jù)匹配結果和規(guī)則頻度的反饋信息,通過增加獎懲規(guī)則,對規(guī)則庫進行修正和完善。增加的規(guī)則如:
獎勵規(guī)則:
①若候選地名中出現(xiàn)“國”、“府”、“州”、“縣”、“郡”等地名特征詞,(見表2)。
懲罰規(guī)則:
②若候選地名長度大于5個漢字長。
③若候選地名右側2個漢字內出現(xiàn)“記”、“志”、“叢話”等表示書名的字詞。
④若候選地名左側1個漢字是“按”、“見”、“案”等表示引用文獻的字詞。
⑤若候選地名中出現(xiàn)“一”、“二”······“十”等數(shù)詞。
⑥若候選地名中出現(xiàn)“上”、“中”、“底”、“邊”等方位詞。
⑦若規(guī)則字和前后漢字組成固定詞語,如“蔓生”、“野生”、“飛出”、“出入”、“土產(chǎn)”、“水產(chǎn)”等。
![]()
2.2.3 物產(chǎn)地名識別
(1)運用規(guī)則庫匹配物產(chǎn)解釋,產(chǎn)生候選地名;
(2)通過獎懲規(guī)則對不同類型的規(guī)則產(chǎn)生的候選地名做相應的過濾處理;
(3)用地名標引詞典掃描經(jīng)過處理的候選地名,進一步修正通過規(guī)則識別的地名。具體識別算法如下:
①讀入一條物產(chǎn)解釋;
②判斷物產(chǎn)解釋是否為空;
③是 執(zhí)行空地名信息插入,轉①;
④否 遍歷規(guī)則信息;
⑤根據(jù)規(guī)則類型,獲取地名信息;
⑥判斷地名信息是否為空;
⑦是 地名置空,轉④;
⑧否 遍歷懲罰規(guī)則;
⑨根據(jù)當前匹配規(guī)則的類型,執(zhí)行相應的懲罰規(guī)則過濾處理;
⑩判斷懲罰規(guī)則遍歷是否結束;
?否 轉⑧;
?是 判斷地名信息是否為空;
?地名置空,轉④;
?否 遍歷獎勵規(guī)則,過濾地名信息;
?用地名表掃描經(jīng)過處理的候選地名,修正識別地名;
?地名信息插入;
?判斷規(guī)則信息遍歷是否結束;
?否 轉④;
?是 判斷物產(chǎn)解釋遍歷是否結束;
?否 轉①;
?是 結束退出。
方志物產(chǎn)地名識別流程見圖1。
![]()
3 物產(chǎn)地名識別系統(tǒng)的實現(xiàn)
3.1 系統(tǒng)開發(fā)軟件的選擇
系統(tǒng)開發(fā)運行的環(huán)境是Microsoft·NETFramework 。項目的類型為ASP?NET,ASP?NET是由ASP(Active Server Pages)發(fā)展而來,它是完全基于對象的,每個對象都有自己的屬性、方法和事件,開發(fā)人員只要選用相應的控件并調整其屬性,就可以建立業(yè)務解決方案,這種結構為Web應用的開發(fā)提供了一種面向對象的方法,使得Web應用的開發(fā)更為簡易、方便和靈活。系統(tǒng)開發(fā)的語言選用C#,開發(fā)的工具選用VVisual Studio 2008。后臺數(shù)據(jù)庫選用MicrosoftSQL Server2005,SQL Server2005是微軟基于客戶端/服務器模式的數(shù)據(jù)庫系統(tǒng),適用于大型數(shù)據(jù)庫管理和電子商務,能確保數(shù)據(jù)的完整性和安全性,可為方志內容挖掘和知識發(fā)現(xiàn)提供支持,且SQL Server2005支持Unicode,適合古籍特殊數(shù)據(jù)存儲,因而選作后臺數(shù)據(jù)庫。數(shù)據(jù)訪問采用ADO·NET技術,ADO·NET是由ADO(ActiveX Data Objects ActiveX數(shù)據(jù)對象)發(fā)展而來,它是一種無連接、基于消息的數(shù)據(jù)訪問模型。數(shù)據(jù)源上的數(shù)據(jù)可作為XML文檔進行傳輸和存儲,這樣,只要應用能夠解析XML,就能夠實現(xiàn)數(shù)據(jù)訪問。基于B/S模式的設計思想,便于系統(tǒng)擴充應用和更新維護,用Internet訪問Web頁面,實現(xiàn)文件管理、規(guī)則庫管理、地名識別、信息統(tǒng)計等功能。
3.2 系統(tǒng)實現(xiàn)
系統(tǒng)主要包括文件管理、信息抓取入庫、規(guī)則和獎懲規(guī)則管理、地名識別、信息查詢與統(tǒng)計等功能。
文件管理:瀏覽、上傳需要進行地名識別的文件,支持多文件上傳。已上傳的文件可以通過文件名查詢,文件的詳細內容可以點擊查看,也可以隨時刪除文件。
信息抓取入庫:將已上傳的文件按照標注的代碼轉入數(shù)據(jù)庫,同時完成物產(chǎn)粗分詞的過程界面,如圖2。
規(guī)則和獎懲規(guī)則管理:查詢、添加、編輯和刪除地名識別規(guī)則及獎懲規(guī)則。編輯獎懲規(guī)則時,選定一條規(guī)則,從判斷方向、字符長度、規(guī)則狀態(tài)、過濾信息等選項進行編輯。
地名識別:對已抓取入庫的文件進行物產(chǎn)地名的識別,識別結果分“已編輯”和“未編輯”兩類分別顯示。“已編輯”是抓取到地名信息的結果,可逐頁瀏覽每個物產(chǎn)的物產(chǎn)名、地名、規(guī)則等信息,系統(tǒng)實現(xiàn)了同一物產(chǎn)相關信息的集中顯示;“未編輯”是未能抓取到地名信息的結果。識別結果的顯示界面中,用戶均可點擊查看物產(chǎn)的詳細信息,必要時可根據(jù)物產(chǎn)的解釋人工添加、修改地名和規(guī)則信息界面如圖3。
信息查詢與統(tǒng)計:顯示全部的地名識別結果,提供物產(chǎn)名、物產(chǎn)屬名、物產(chǎn)地名、規(guī)則信息、志書名稱、成書年代等檢索入口和排序依據(jù),可分類統(tǒng)計信息,并具有去重及篩選的功能。
![]()
3.3 系統(tǒng)測評
3.3.1測評指標
為衡量系統(tǒng)的識別效果,采用三個評估指標對系統(tǒng)進行測評,分別是準確率P、召回率R和綜合指標F。它們的定義如下:
![]()
其中α是準確率P和召回率R之間的權衡因子,這里我們認為P和R同等重要,因此α取1,此時綜合指標稱為F-1值。
3.3.2測評方法
隨機抽取10個文件作為測試集,請相關專家仔細研讀后人工識別出正確的物產(chǎn)地名,同時標出地名對應的規(guī)則信息。由于一條物產(chǎn)解釋中有可能涉及多個規(guī)則和地名,例如:
芒果 種傳外國實大如鵝子狀生則酸熟則甜惟新會香山有之
此物產(chǎn)解釋中包含的地名信息:芒果 種傳外國 惟新會香山有之
為方便測試,將這一條解釋中的地名信息作為兩對識別結果來加以記錄:
芒果 種傳外國
芒果 惟新會香山有之
這樣,專家人工識別出的正確的物產(chǎn)地名643對,計算機識別出的物產(chǎn)地名841對。測試時把計算機識別出的物產(chǎn)地名和人工識別出的正確的物產(chǎn)地名逐一對比,找出相同的對數(shù),結果見表3。
3.3.3測評結果及錯誤原因分析
計算得出,準確率為63.38%,召回率為82.89%,綜合指標為71.83%。通過對識別結果的分析,筆者認為導致系統(tǒng)誤識別和漏識別的原因主要有三點:一是規(guī)則庫的覆蓋面有限,識別規(guī)則不能涵蓋所有的地名信息,導致漏識;懲罰規(guī)則也不可能窮舉所有可能導致地名誤識別的情況,導致誤識。二是規(guī)則匹配對規(guī)則之間存在沖突,導致重復識別。三是原始方志資料數(shù)字化處理過程中存在生字、錯字,當利用地名初始標引詞典對候選地名做最后的修正時,計算機無法識別、修正錯誤的地名信息,降低了識別結果的召回率和準確率。
4 結語
本文嘗試將命名實體識別技術應用到方志類古籍的內容挖掘中,一方面,為方志類古籍的整理和開發(fā)利用提供了一種新方法、新技術;另一方面,也為命名實體識別技術的應用研究開辟了新領域。從實證研究的效果看是可行的,要達到實際應用的程度,有待通過提高電子文本質量、增加規(guī)則和優(yōu)化算法等途徑進一步提高地名識別的準確率和召回率。
作者:朱鎖玲,包平
來源:《中國圖書館學報》2011年第3期
選稿:耿 曈
編輯:王玉鳳
校對:宋柄燃
審訂:歐陽莉艷
責編:耿 曈
(由于版面有限,文章注釋內容請參照原文)
![]()
![]()
微信掃碼加入
中國地名研究交流群
QQ掃碼加入
江西地名研究交流群
歡迎來稿!歡迎交流!
轉載請注明來源:“江西地名研究”微信公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.