![]()
![]()
![]()
從“存史”到“算史”,讓方志數(shù)據(jù)真正服務于科學決策,這正是延續(xù)千載修志傳統(tǒng)、構建中國自主知識體系的時代使命。
原文 :《從“存史”到“算史”:地方志的數(shù)智化轉型》
作者 |上海市地方志辦公室研究室副主任 陳暢 上海中僑職業(yè)技術大學教授 馬海兵
圖片 |網(wǎng)絡
伴隨“十五五”規(guī)劃布局與新質生產(chǎn)力理論提出,數(shù)字技術對傳統(tǒng)文化的賦能邁向知識生產(chǎn)方式變革,方志也被重新界定為全域性、全時空的高置信度地情數(shù)據(jù)要素。傳統(tǒng)檢索方式已難以滿足方志典籍的知識挖掘需求,生成式人工智能為此提供新契機。依托成熟的視覺語言模型與圖檢索增強生成技術,方志可被重構為可計算的三維知識空間,時間軸、地理坐標、語義網(wǎng)絡在其中交織貫通。那么,如何借人工智能重構方志治理范式,推動其從被動的資源保存向主動的知識計算轉型,即由“存史”走向“算史”,成為數(shù)字文明時代的重要課題。
既有的數(shù)字化建設:堅實的物理底座
“十四五”時期,多地統(tǒng)籌推進志鑒成果數(shù)字化與新編志鑒同步入庫機制,加快資源轉化和結構化處理,地方志數(shù)字資源總量持續(xù)擴大、質量穩(wěn)步提升。一方面,專題數(shù)據(jù)庫、地情數(shù)據(jù)庫、史志數(shù)字資源庫等建設不斷深化,內容涵蓋歷史沿革、風土人情、重大事件、人物傳記等多個維度;另一方面,針對資源標準不統(tǒng)一問題,部分地區(qū)制定地方志數(shù)據(jù)規(guī)范和操作手冊,推動數(shù)據(jù)采集、著錄、存儲標準化。很多數(shù)字方志館已具備全文檢索、模擬翻頁、關鍵詞聯(lián)想等功能,支持多模式閱讀與知識關聯(lián)分析,顯著提升資源可用性與服務精準度。一些地區(qū)還打造集存儲、展示、檢索、服務于一體的綜合性數(shù)字方志應用體系,積極推動方志數(shù)據(jù)從靜態(tài)保存向動態(tài)服務轉型。可以說,數(shù)字資源建設正扎實推進,數(shù)據(jù)治理能力正不斷提升。
![]()
如上海市地方志辦公室建設的“上海數(shù)字方志一體化系統(tǒng)”,實現(xiàn)了方志資源的規(guī)模化匯聚與物理可達:通過大規(guī)模數(shù)字化掃描與基礎文本識別,實體志書被轉化為觸手可及的數(shù)字鏡像,徹底解決了傳統(tǒng)方志“藏在深閨人未識”的傳播困境,為“十五五”時期的高質量發(fā)展奠定了堅實的物理底座。其中,智庫平臺提供基礎與高級查詢功能,初步實現(xiàn)從物理庫存向數(shù)字倉庫的轉型,確保地情資料有庫可查;智造平臺集成了框架結構、總述、大事記等編纂輔助小工具,為修志者提供高效的數(shù)字化協(xié)同環(huán)境;智服平臺則通過大數(shù)據(jù)可視化中心及“云游滬上”方志場景,實現(xiàn)方志資源面向社會公眾的多維展示。這些基于物理遷移的數(shù)字化成果,是未來開展增量賦能工作的關鍵基石。
語義解構的待墾區(qū):從有庫向有智躍升
方志數(shù)據(jù)具有顯著的二元結構特征。一類是1949年以前的古籍善本,其特點是文言晦澀、版面復雜;另一類是1949年以后的新方志,其特點是數(shù)據(jù)密集、體例規(guī)范,其中最大的價值洼地在于數(shù)以萬計的統(tǒng)計表格。這些表格記錄了數(shù)十年經(jīng)濟社會的量化軌跡,卻因跨頁斷裂、多級表頭嵌套等結構化難題,長期處于不可計算狀態(tài)。中國地方志跨越千年,古今概念漂移導致的語義鴻溝,是地方志數(shù)智化轉型面臨的核心挑戰(zhàn)。而方志的獨特價值恰恰在于其復雜性:千年古籍與當代新志并存,文言豎排與現(xiàn)代表格共處。這種古今異構的張力,要求設計一種雙軌并行的治理范式。
以機器認知和生成式人工智能的視角審視“十四五”時期的方志信息化建設成果,其僅實現(xiàn)了數(shù)字化,而非智能化。當前,數(shù)字化產(chǎn)物主要以PDF或離散文本形式存在,對于大語言模型而言,這與掃描圖片并無本質區(qū)別:字符可見而語義不可達。無論是新方志中記錄經(jīng)濟社會發(fā)展的海量統(tǒng)計表格,還是傳統(tǒng)方志中蘊含復雜關系的傳記文本,在缺乏深度語義解析的情況下,都僅是數(shù)字字符的堆砌,而非可計算的知識。這就導致大模型在面對跨文本邏輯推理的高階咨詢時(如分析近代上海工業(yè)空間布局演變或跨世紀氣候災害統(tǒng)計),往往顯得支撐力不足。
![]()
“十四五”時期完成的方志資源物理遷移,僅是一個起點。順應國家“數(shù)據(jù)要素×”行動的要求,建立地方志垂域模型,推動方志資源從非結構化的電子文獻向結構化的數(shù)據(jù)要素躍升,已成為打破應用天花板、釋放新質生產(chǎn)力的必由之路。在國家文化數(shù)字化戰(zhàn)略與“數(shù)據(jù)要素×”行動的雙重驅動下,地方志正走向數(shù)智化躍升的歷史性拐點。
混合專家大模型:地方志價值再現(xiàn)
為了應對上述挑戰(zhàn),需構建雙層技術架構:知識層解決古今語義對齊問題,模型層解決異構數(shù)據(jù)處理問題。在知識層,核心理論框架應包含一套時空映射超級本體。這套機制的設計哲學是柔性對齊而非剛性統(tǒng)一,不采取強行統(tǒng)一詞匯的激進策略,而是通過知識圖譜的屬性鏈接,實現(xiàn)語義的動態(tài)關聯(lián)。具體而言,將采用同義映射模式,將名稱變化但內涵一致的概念進行對齊,如松江府與松江區(qū)在特定語境下的行政延續(xù);建立上下位關系模式,如將錢莊界定為金融機構在清代的特定表現(xiàn)形態(tài),實現(xiàn)從宏觀產(chǎn)業(yè)到微觀實體的穿透式關聯(lián);引入時間切片模式,對同一名稱在不同時期指代不同地理實體的復雜情形進行隔離處理。通過這一三維坐標系的建立,方志典籍中的文獻將被轉化為可供大模型精準調用的數(shù)據(jù)資產(chǎn)。
![]()
在模型層,建立地方志垂域模型必須充分考慮方志業(yè)務的復雜性,這就需要采用混合專家系統(tǒng)(Mixture of Experts, MoE)架構。其核心思想是術業(yè)有專攻,即把模型拆分成多個專家子模塊,每個專家深耕一個垂直領域,由路由網(wǎng)絡根據(jù)輸入特征動態(tài)分配任務。專家子模塊分為古文專家、數(shù)理專家與歸納專家三類:古文專家負責文白對譯,數(shù)理專家負責趨勢分析,歸納專家負責宏觀敘事。系統(tǒng)通過路由機制自動識別任務特征,檢測到豎排版面,則分發(fā)至古文專家;檢測到數(shù)值序列,則引導至數(shù)理專家。MoE架構的精妙之處在于路由機制,它決定了每個查詢由哪些專家處理、各占多大權重。更值得關注的是多專家協(xié)同場景。如分析徐家匯地區(qū)的商業(yè)演變時,路由機制將同時調用古文專家處理晚清筆記史料、數(shù)理專家處理現(xiàn)代商業(yè)普查表格,并由歸納專家最終整合這些異質信息。這種協(xié)同不是簡單的拼接,而是語義層面的融合,在最終輸出的報告中,古今數(shù)據(jù)被置于同一分析框架下,形成連貫的歷史敘事。MoE架構這一參數(shù)分配策略,既確保了在處理具體史料時的專業(yè)精度,又保障了面對宏觀敘事時的邏輯廣度,真正實現(xiàn)從單一通用大模型向復合型專業(yè)智能系統(tǒng)的進化。
[全文將刊發(fā)于《上海地方志》(季刊)2026年第2期]
文章為社會科學報“思想工坊”融媒體原創(chuàng)出品,原載于社會科學報第1990期第5版,未經(jīng)允許禁止轉載,文中內容僅代表作者觀點,不代表本報立場。
本期責編:程鑫云
![]()
《社會科學報》2026年征訂
點擊下方圖片網(wǎng)上訂報↓↓↓
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.