網易首頁 > 網易號 > 正文申請入駐

觀點丨徐擁軍成徐慧：如何建設面向人工智能的高質量檔案數據集？

2026-03-13 15:36:17　來源: 人大國發院

北京舉報

分享至

徐擁軍

中國人民大學國家發展與戰略研究院研究員

信息資源管理學院教授

成徐慧

中國人民大學信息資源管理學院碩士生

在數智時代，高質量數據集作為人工智能模型訓練與應用的基石，已成為國家科技發展與戰略安全的核心稀缺要素。《中共中央關于制定國民經濟和社會發展第十五個五年規劃的建議》要求：“強化算力、算法、數據等高效供給。”《國務院關于深入實施“人工智能+”行動的意見》提出：“加強數據供給創新。以應用為導向，持續加強人工智能高質量數據集建設。”在此背景下，加強優質數據供給，以高質量數據集驅動人工智能創新發展變得愈發關鍵。

檔案作為人類社會活動的原始記錄，在高質量數據集建設方面具有突出優勢。目前，已有電子疾病檔案（EDR）數據集、公共信用檔案數據集等入選國家數據局高質量數據集典型案例，初步展現了檔案資源向高質量語料轉化的可行路徑。檔案部門應該面向人工智能積極行動，將檔案信息化建設重心轉向高質量檔案數據集建設。

面向場景開展數據需求識別與規劃設計

建設高質量檔案數據集，首要前提是弄清楚“數據要用來干什么”，將數據需求與具體應用場景緊密耦合。具體而言，高質量檔案數據集的建設需求應當從三個方面入手加以系統梳理：一是面向外部模型的通用需求，如支持人工智能模型的價值對齊。二是面向數據要素市場的開發需求，如檔案資源在醫療健康、城市治理、文化創意、金融風控等領域的深度利用。三是面向檔案業務的內部應用需求，如檔案鑒定、開放審核、利用服務、編研選題等環節的智能輔助。在此基礎上，圍繞不同應用場景，開展系統化的數據規劃設計，界定所需檔案數據的來源、屬性與范圍，并制定涵蓋全流程的實施計劃，明確數據采集、預處理、標注、模型驗證等環節的責任分工、時間安排與質量控制要求，形成可執行的路線圖。

為提高高質量檔案數據集的建設效率，建議在數據集規劃設計階段統籌考慮既有檔案數字化成果、檔案數據庫，有效整合分散資源，避免重復采集與處理。因此，高質量檔案數據集對檔案信息化建設也提出了更高要求。例如，在檔案數據化階段，應同步考慮樣本切分、語義標注和脫敏處理等需求，使數據化成果成為數據集建設的前期基礎。在檔案數據庫建模時，既要滿足管理需要，也要盡量保留有助于數據集構建的結構信息與語義線索，避免因過度簡化而削弱后續數據集建設空間。

統籌推進數據采集與預處理

對既有檔案數據庫和數字化成果開展資源盤點和可用性評估，識別其中可通過格式轉換、字段映射、批量抽取等方式直接轉化為訓練樣本的部分，將其作為數據集建設的“優先利用層”；對尚未數字化或數字化質量難以滿足要求的檔案，則納入增量采集范圍，通過補掃、重掃、補錄等方式完善數據來源。在此基礎上，對檔案數據進行預處理。針對掃描件、版式文件、結構化元數據和自由文本等不同形態的檔案數據，通過版面分析、OCR、版式還原、字段解析等過程，完成結構轉換。進而根據不同任務需求，將文本拆分為文件級、段落級、句子級或字段級等多粒度樣本，并繼承保留全宗號、案卷號、時間節點、責任主體等既有元數據字段，維持必要的上下文關聯，使模型既能學習局部特征，又能把握檔案形成過程和業務邏輯。

圍繞完整性、準確性、一致性等關鍵質量特征，構建自動檢測與人工抽查相結合的質檢機制，重點識別并修正OCR誤識、字段錯位、時間格式混亂、重復記錄、缺頁漏頁等問題，對嚴重影響使用的數據予以標記或剔除，避免“臟數據”在下游應用環節被放大。針對含有個人隱私、國家秘密等敏感信息的檔案數據，按照相關法律法規要求，采用匿名化、去標識化、模糊化、分級展示等方式進行脫敏，并明確可用范圍和使用限制，確保在不損害檔案真實性和研究價值的前提下，將數據使用風險控制在可接受水平。

構建面向語義的數據標注體系

數據標注是對初級數據進行加工處理，并轉換為機器可識別信息的過程。在數據預處理階段保留的全宗號等基礎管理元數據主要服務于檔案管理，對檔案內容所包含的事件結構、語義關系和制度語境缺乏刻畫能力，難以滿足人工智能模型在實體識別、關系抽取、因果推理等方面的訓練需求。因此，有必要在現有元數據之上疊加一層面向語義的數據標注體系，將檔案知識結構和業務規則顯性化為模型可學習的目標變量。

以應用場景和任務需求為牽引，形成場景任務標簽。例如，對于醫療健康等專業檔案，可增加疾病分類、診療過程節點、干預措施與結果指標等標簽；在開放審核場景中則增加涉密信息類型、個人隱私敏感度、公開風險等級等標簽。

在具體標注過程中，根據不同任務的復雜程度和專業要求，合理配置領域專家、檔案工作人員和數據標注人員，將業務規章和專業經驗固化為標注指南，通過試標、示例庫建設和標注培訓，減少標注者之間的理解差異。在流程設計上，可采用“初標—復核—抽檢”相結合的方式，對關鍵任務或高風險標簽（如開放屬性、風險類別等）實施更高強度的復核比例。同時，運用一致性指標和錯誤分析報告，對易混淆標簽、模糊規則進行針對性修訂，使標簽體系和標注規程在實踐中不斷迭代。

建立閉環反饋的模型驗證機制

數據標注完成后，需通過模型驗證環節檢驗高質量數據集對人工智能任務的支持能力。模型驗證的核心目標，在于判斷數據集是否具備支撐語義理解與知識推理等任務的能力、是否能夠有效提升下游模型性能。為此，應圍繞具體應用場景，設定具有代表性的基準任務和評估指標，對結構識別、術語抽取、情境判斷等典型任務進行系統測試，以綜合判斷數據集的訓練有效性與場景適配性。

當模型在相應任務上的表現達到預期，說明數據集在樣本覆蓋、標簽體系與語義深度等方面具備較高的匹配度；反之，則需啟動“診斷—反饋—優化”的閉環機制。具體而言，一方面，要首先厘清問題是否主要源于數據質量，而非算法設計；另一方面，應對訓練與驗證過程中暴露出的錯誤樣本和系統性偏差進行歸納，據此優化樣本構成、調整結構轉換規則、細化標注規范或修訂標簽體系。

綜上，推動檔案高質量數據集建設，關鍵在于打破組織與資源壁壘，實現跨領域的系統規劃與多元協同。一方面，應堅持試點先行、示范帶動的推進思路，依托國家高水平數字檔案館（室）、重點科研項目或區域性平臺率先布局數據集建設與模型測試任務，探索形成可復制、可推廣的技術方案和經驗模式。另一方面，要推動協同共建，構建良好生態。既要鼓勵檔案館、高校、科研機構與技術企業等多元主體深度參與，在檔案本體構建、語義標注與模型評估等關鍵環節協同攻關，也要秉持長期主義理念，推動檔案數據的持續治理與動態更新，構建可滾動優化的檔案數據資產體系。

檔案高質量數據集的建設是一項復雜的系統工程，涉及法規標準、數據治理、技術研發、平臺建設與場景應用等多個環節，需要多方共建、協同推進，以充分釋放檔案作為數據要素的潛力，將靜態資源轉化為驅動人工智能創新的智慧動能。

文章來源：《中國檔案》

微信編輯：張菁菁

人大國發院是中國人民大學集全校之力重點打造的中國特色新型高校智庫，現任理事長為學校黨委書記張東剛，現任院長為林尚立教授。2015年入選全國首批“國家高端智庫”建設試點單位，并入選全球智庫百強，2018年初在“中國大學智庫機構百強排行榜”中名列第一。2019年在國家高端智庫綜合評估中入選第一檔次梯隊，是唯一入選第一檔次梯隊的高校智庫。

人大國發院積極打造“新平臺、大網絡，跨學科、重交叉，促創新、高產出”的高端智庫平臺。圍繞經濟治理與經濟發展、政治治理與法治建設、社會治理與社會創新、公共外交與國際關系四大研究領域，匯聚全校一流學科優質資源，在基礎建設、決策咨詢、公共外交、理論創新、輿論引導和內部治理等方面取得了顯著成效。人大國發院以“中國特色新型高校智庫的引領者”為目標，扎根中國大地，堅守國家戰略，秉承時代使命，致力于建設成為具有全球影響力的世界一流大學智庫。

微信二維碼

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.