
作 者 | 孫中東
來 源 | 孫中東
![]()
在當代全球金融體系中,數據治理的內涵正在經歷從“技術資產管理”向“業務知識管理”的根本性轉變。隨著監管要求的日益嚴苛,尤其是巴塞爾銀行監管委員會(BCBS)第239號原則(BCBS 239)的全面落地,以及生成式人工智能(Generative AI)和AI智能體(Agentic AI)在金融領域的滲透,傳統的數據管理手段已顯捉襟見肘。本體(Ontology)與數據血緣(Lineage)的結合,不僅為解決銀行內部數據碎片化、孤島化提供了技術路徑,更成為了構建現代銀行業“語義治理”體系的核心基石。本文旨在深入探討本體與血緣關系的理論交織,剖析高盛、摩根大通等全球領先銀行的應用實踐,并洞察2026年及以后的未來發展趨勢。
![]()
第一章 本體與數據血緣的理論邏輯與協同機制
在數據治理的語境下,本體與血緣代表了兩種維度的知識表征。本體側重于定義現實世界中的“概念”及其“相互關系”,而血緣則側重于追蹤數據的“流向”與“演變軌跡”。
![]()
語義本體(Semantic Ontology)的深度架構
語義本體不僅是一個結構化的框架,更是一種知識表示的載體,它允許系統以模擬人類感知的方式組織信息 。在銀行業復雜的業務場景中,一個“客戶”概念可能在信貸系統中體現為“借款人”,在財富管理系統中體現為“投資者”,在合規系統中體現為“被審查對象”。本體通過建立共享詞匯表和互操作規則,消除了這種語義歧義 。
本體的核心要素構建了這種語義的一致性:
本體組件
銀行業務定義
治理功能
類(Classes)
定義通用概念,如“金融產品”、“法律實體”、“交易事件”。
建立跨系統的一致性分類標準,消除概念混淆 。
實例(Instances)
類中的具體實體,如“摩根大通銀行”是“法律實體”的實例。
為具體數據記錄提供業務背景標簽 。
屬性(Properties)
描述類與實例的特征及其相互關系,如“客戶”擁有“賬戶”。
定義實體間的關聯邏輯,支持復雜業務規則的建模 。
傳遞性關系(Transitivity)
如果A是B的母公司,B是C的母公司,則A是C的母公司。
支持自動化的風險傳導分析和所有權穿透 。
![]()
數據血緣的技術屬性與業務升華
數據血緣傳統上被定義為追蹤數據從源頭到目的地的流動過程,涵蓋了處理、轉換的全生命周期 。對于銀行而言,血緣不僅是IT工程師的故障排除工具,更是風險模型準確性的“審計追蹤。
現代血緣已從單一的“技術血緣”演變為“語義血緣”(Semantic Lineage)。語義血緣不僅展示表與表之間的SQL關聯,更揭示了業務術語與底層物理資產之間的依賴關系 。通過將數據目錄與業務術語表集成,銀行可以清晰地看到某項“流動性指標”是由哪些具體的數據庫列經過何種邏輯計算而成的。
![]()
本體對血緣的治理賦能:解耦與語義契約
本體作為血緣之上的“語義治理層”,解決了傳統血緣系統“脆弱”的問題 。在高度碎片化的異構系統中,物理架構的微小變動往往導致血緣鏈路的中斷。本體通過建立一種獨立于底層系統的“語義契約”,實現了業務含義與物理實現的解耦 。
這種協同機制表現在以下幾個維度:
語義推理與自動化鏈路構建:利用本體的層次結構,可以自動推斷隱含的數據依賴,減少手動標注的工作量 。
跨系統語義對齊:當銀行添加新的數據源(如并購產生的新系統)時,只需將其物理架構映射到已有的本體架構中,即可無縫接入現有的血緣網絡 。
政策與規則的集中執行:通過本體層而非物理層實施數據訪問控制和PII(個人隱私信息)標記,確保血緣路徑上的所有節點都遵循一致的安全策略5。
第二章 監管驅動力:BCBS 239與合規治理的深度集成
BCBS 239 是巴塞爾銀行監管委員會(BCBS)于 2013 年 1 月發布的《有效風險數據匯總和風險報告原則》,核心是通過 14 項原則(分 4 大類)強化銀行風險數據治理、跨業務線 / 實體的數據整合能力與風險報告質量,以提升危機下的風險管控與決策效率,最初主要針對全球系統重要性銀行(G-SIBs),后逐步延伸至國內系統重要性銀行(D-SIBs)等。該原則是銀行業加強數據治理的根本驅動力 。該原則強調了準確、全面和及時的風險數據匯總能力,這是識別和管理重大財務風險的關鍵 。
![]()
BCBS 239核心原則與血緣能力的匹配性
BCBS 239不僅要求銀行能夠生成報告,更要求銀行能夠證明這些報告數據的“來源”和“處理過程” 。數據血緣在此過程中提供了不可替代的審計路徑。
BCBS 239領域
核心要求
本體與血緣的支撐作用
治理與基礎設施
建立穩健的數據管理框架,整合至戰略優先級 。
通過本體明確數據所有權(Ownership)和問責機制 。
風險數據匯總
確保在壓力環境下數據的準確性、完整性和及時性 。
自動化血緣減少對手動核對的依賴,實現暴露風險的溯源 。
風險報告
報告必須清晰、簡潔且可操作 。
語義血緣確保報告消費者理解指標的定義及其業務來源 。
監管審查
監管機構定期評估合規性并跟蹤進展 。
提供透明的“藍圖”,使歐洲央行(ECB)等機構能驗證合規性 。
![]()
計算透明度與變更溯源
在BCBS 239的應用實踐中,銀行必須展示風險模型的輸入數據來自何處,以及經過了哪些業務規則轉換 。例如,一份政策記錄如何變成儲備估計值,其中涉及的每一步計算規則都必須是透明且可追溯的 。當銀行修改某個計算指標時,利用本體驅動的血緣系統可以立即識別出該變更對下游所有分析模型和合規報告的影響 。
這種透明度不僅是為了滿足外部審計,更是為了提升內部決策的質量。成熟的銀行利用血緣分析可以顯著縮短解決數據質量問題的周期(平均減少34%),并將合規審計的時間成本降低57% 。
![]()
第三章 全球銀行應用案例深度剖析
領先的金融機構已不再滿足于零散的數據工具,而是構建了集成了本體建模與自動化血緣的綜合性數據平臺。
![]()
高盛(Goldman Sachs):Legend 平臺的開源治理之路
高盛開發的 Legend 平臺(原名 Alloy)是金融行業數據建模與治理的標桿 。高盛花費七年時間打磨這一平臺,并于2020年通過金融科技開源基金會(FINOS)向全球開源 。
Legend 的核心架構與建模范式
Legend 提供了一個端到端的數據平臺體驗,涵蓋了從數據發現、建模到交付的全生命周期 。
Legend Studio:提供直觀的可視化建模環境,使業務專家和工程師能夠共同描述數據概念及其關聯,構建“信息圖譜“。
Legend-Pure 語言:作為平臺的基礎,Pure 是一種基于 UML 的不可變函數式編程語言,用于表達復雜的業務規則和質量標準 。
自動化血緣與執行引擎:Legend 內置了自動化血緣捕捉機制,從物理數據源到產品化的數據服務,每一步轉換邏輯都被記錄在案 。其執行引擎支持將邏輯查詢轉化為 SQL、JSON Schema 等多種格式,確保了跨系統的互操作性12 。
跨云治理與 BigQuery 的集成
高盛通過將 Legend 與 Google Cloud(如 BigQuery 和 BigLake)集成,實現了在公有云環境下的嚴苛治理 。利用 Legend 的 Lambda 表達式,高盛可以跨組織共享邏輯數據查詢,同時通過 Legend 的連接器與身份和訪問管理(IAM)系統深度綁定,確保用戶只能訪問其權限范圍內的模型化數據 。這種做法極大地縮短了新工具的入駐和集成時間,因為 Legend 作為統一的語義入口管理了所有的授權規則 。
![]()
摩根大通(JPMorgan Chase):知識圖譜與代理式 AI 的飛躍
摩根大通利用知識圖譜(Knowledge Graph)技術統一了內部的數據孤島,并將其作為構建研究助手和高級搜索能力的基礎設施18。
欺詐預警與代理式架構
通過從傳統模型轉向由共同知識圖譜支撐的智能體AI(Agentic AI),摩根大通在欺詐監測領域實現了顯著突破。
虛假預警大幅下降:在實施該技術后,虛假欺詐預警率下降了95%,顯著降低了運營成本并提升了客戶體驗 。
多代理協同執行:在復雜的風險管理工作流中,專門負責流動性、信用和資本的獨立代理能夠在一個共同的知識圖譜上共享上下文,協同完成交易執行、風險儀表盤更新及監管報告生成 。這種水平擴展的架構使得銀行可以快速支持新的資產類別或地理區域,而無需重寫核心引擎 。
DFML 系統與專利布局
摩根大通在數據流管理與數據人工智能(Data AI)領域申請了多項專利,特別是關于數據流機器學習(DFML)的專利 。該系統利用機器學習自動管理數據流,并提供出色的治理功能:
來源(Provenance):明確特定數據的原始出處 。
血緣(Lineage):記錄數據是如何被獲取和處理的 。
影響力分析(Impact):評估特定數據點對下游應用的影響力,為風險控制提供深度洞察 。
匯豐銀行(HSBC)與德意志銀行:語義標準的應用
匯豐銀行將數據與分析戰略視為核心競爭優勢,重點布局數據采集、管理與分析的統一化 。在 BCBS 239 項目中,匯豐利用參考數據執行(Reference Data Execution)來實現跨系統的語義一致性 。
同時,德意志銀行(Deutsche Bank)等機構正在探索通過神經符號系統(Neuro-symbolic systems)整合文本報告數據與符號邏輯框架,以支持 ESG(環境、社會與治理)分析 。這代表了本體技術的新方向,即通過 AI 自動化提取非結構化數據中的業務邏輯,并將其轉化為結構化的本體知識模型。
第四章 技術挑戰:遺留系統與組織轉型的陣痛
盡管前景廣闊,但在全球銀行業實施本體與血緣的深度集成面臨著巨大的現實阻礙,其中最為嚴峻的是遺留系統的負重。
![]()
遺留核心系統的“數據陷阱”
許多全球銀行仍依賴于基于大型機(Mainframe)和 COBOL 語言開發的遺留系統 。
架構僵化:單體架構深度交織,細微的邏輯修改都可能引發系統性風險,這使得在其之上構建現代元數據標簽異常困難 。
數據孤島化:數據被鎖定在碎片化的結構中,難以實現統一的“客戶全景視圖”,嚴重阻礙了 AI 模型的訓練和高級分析的應用 。
人才斷層:精通 COBOL 等舊語言的專業人才正在枯竭,導致維護成本不斷飆升,且難以通過 API 與現代金融生態系統對接 。
![]()
整合過程中的技術復雜度
將本體引入遺留系統并非簡單的“打補丁”,而是一個耗資巨大、周期冗長的過程 。
實時處理缺陷:舊系統往往不支持實時數據流處理,這導致基于實時血緣的合規決策存在延遲,增加了銀行在洗錢監測等領域的風險暴露 。
解釋性難題:監管機構要求 AI 模型必須具有可解釋性(Explainability)。當銀行試圖在舊系統之上構建復雜的深度學習模型時,往往難以提供清晰、可審計的決策鏈條 。
![]()
![]()
第五章 創新范式:AI 與大模型驅動的自動化治理
為了應對手動維護血緣和本體的沉重負擔,銀行業正積極引入大語言模型(LLM)來重塑治理流程。
![]()
基于 LLM 的自動化血緣解析
傳統的數據血緣解析依賴于硬編碼的鉤子或復雜的 SQL 解析器,對于非 SQL 腳本(如 Python、Shell、Python)的解析效果極差 。
解析效率提升:研究表明,擁有 1000 億參數的 LLM 在表級血緣解析中的準確率已超過 95%,顯著優于傳統方法 。
工作流標準化:LLM 可以自動化處理提示構建、血緣提取及結果標準化(輸出為 JSON 格式),實現了異構系統間血緣信息的無縫交換 。
代碼意圖理解:LLM 不僅能提取數據流向,還能解釋算法意圖,建議代碼優化方案,幫助合規人員理解復雜的模型邏輯 。
![]()
威脅建模與合規自動化的深度融合
在銀行業特殊的網絡安全與合規場景中,本體與 LLM 的結合正催生出新的應用。例如,利用 ThreatModeling-LLM 框架,銀行可以根據系統描述自動識別潛在的安全威脅,并將其映射到等保 2.0 、NIST 800-53 等監管標準,自動建議緩解措施 。這種自動化不僅提升了效率,更確保了安全控制與全球合規要求的精準對齊。
![]()
第六章 架構演進:數據網格(Data Mesh)中的分布式治理
隨著銀行數據規模的指數級增長,傳統的集中式數據平臺(如數據倉庫、數據湖)正面臨嚴重的擴展性瓶頸。數據網格作為一種去中心化的架構范式,正成為全球領先銀行的選擇 。
![]()
去中心化所有權與聯邦治理
數據網格主張將數據所有權從中心化 IT 團隊交還給具體的業務領域(Domains),如信貸、風控、營銷部門 。
數據即產品:每個業務領域將其數據作為獨立的產品進行管理,并對數據的質量、治理和 SLA(服務等級協議)負責 。
聯邦計算治理:雖然所有權是分布式的,但必須遵循全局共享的語義規則。本體在此充當了“通用翻譯器”,確保各領域的數據產品能夠跨部門互操作 。
![]()
語義數據網格的價值實現
通過將知識圖譜與數據網格集成,銀行可以構建“語義數據網格”。
語義發現:用戶可以通過業務術語跨領域搜索數據,而無需關心數據存儲的具體物理位置 。
數據合同(Data Cont racts)標準化:知識圖譜確保數據合同在語義上是正確的,保證了實體間關系的邏輯有效性 。
策略即代碼(Policy-as-Code):利用自動化工具在元數據層實施全局訪問政策。當一個領域團隊發布新的數據產品時,系統會自動標記敏感字段(如客戶余額),并根據全局本體規則應用加密和脫敏策略 。
第七章 未來展望:2026-2030 年銀行業治理趨勢
展望未來五年,銀行業的數據治理將從“事后審計”轉向“實時、主動、智能”的全面語義化階段。
![]()
主動元數據(Active Metadata)的崛起
Gartner 預測,到 2026 年,30% 的組織將采用主動元數據實踐 。
動態同步:元數據將不再是靜態的文檔,而是在系統間持續流動的實時信號 。
智能成本優化:主動元數據將監控資產的流行度和使用模式,自動歸檔長期閑置的數據集,幫助銀行將云數倉支出降低 15% 至 30% 。
即時根因分析:當合規報表數據異常時,主動元數據驅動的自動化血緣可以在分鐘級定位到上游邏輯變更,顯著降低事故處理時間 。
![]()
前沿計算技術的跨界融合
未來銀行業將見證量子計算、聯邦學習與治理架構的深度融合。
![]()
![]()
智能體銀行(Augmented Banking)的實現
到 2030 年,預計銀行業將邁入“智能體銀行”時代,人類專家與 AI 代理將形成高度共生的關系 。AI 不再只是提供數據,而是通過推理系統理解法律依賴和客戶關系,主動建議戰略決策方案并提供完整的推理鏈條。這種能力的底層核心,正是由本體定義的業務語義框架和由血緣定義的知識驗證路徑。
![]()
第八章 結論與戰略建議
本體與數據血緣的深度融合,不僅是應對監管合規的技術手段,更是銀行業實現數字化轉型的必經之路。通過構建語義化的治理體系,銀行可以將冰冷的物理數據轉化為可理解、可推理、可審計的知識資產。
針對全球銀行決策者,本文提出以下戰略建議:
從語義層切入治理戰略:不再僅僅關注“表和列”,而是優先構建跨部門的業務本體模型。建議參考金融行業業務本體(FIBO)等行業標準,結合自身業務特色進行擴展 。
擁抱開源與標準化生態:積極參與 Legend、OpenLineage 等開源項目,利用行業共建的力量降低開發成本,并確保治理框架的長期互操作性 。
加速治理流程的 AI 化:投入資源研發基于 LLM 的自動化血緣提取和元數據分類工具,將數據管理員從繁重的手動標注中解放出來,轉向更高價值的戰略治理 。
構建分布式數據網格基礎設施:為去中心化的數據產品提供自助服務式的基礎設施,并通過聯邦計算治理確保全局一致性,以應對數據規模的指數級增長 。
在 2026 年及以后的競爭格局中,那些能夠通過本體與血緣實現“知識自治”和“語義閉環”的銀行,將不僅在合規性上保持領先,更將在人工智能時代擁有不可逾越的競爭優勢。
引用的著作
1.Semantic Ontology: Understanding Data Relationships and Hierarchies - CastorDoc, https://www.castordoc.com/data-strategy/semantic-ontology-understanding-data-relationships-and-hierarchies
2.Build trust in banking with data lineage - IBM, https://www.ibm.com/think/topics/data-lineage-for-banking
3.Tracing semantic lineage | Talend Data Catalog User Guide Help, https://help.qlik.com/talend/en-US/data-catalog-user-guide/8.0/tracing-semantic-lineage
4.Technical & Semantical Lineage - Blindata, https://blindata.io/product/data-lineage/technical-and-semantical-lineage/
5.Why Ontologies are Key for Data Governance in the LLM Era | by ..., https://medium.com/timbr-ai/why-ontologies-are-key-for-data-governance-in-the-llm-era-47412f263112
6.What is AI-Powered Data Lineage? A Complete Guide | Devoteam, https://www.devoteam.com/expert-view/what-is-ai-powered-data-lineage-a-complete-guide/
7.Implementation of the Principles for effective risk data aggregation and risk reporting (BCBS 239 Principles) - Bank for International Settlements, https://www.bis.org/publ/bcbs_nl36.htm
8.Four ways data lineage powers BCBS 239 compliance | Collibra, https://www.collibra.com/blog/four-ways-data-lineage-powers-bcbs-239-compliance
9.BCBS 239 Principles: Complete Guide for 2026 - OvalEdge, https://www.ovaledge.com/blog/bcbs-239-principles
10. DATAVERSITY? Demo Day, https://content.dataversity.net/rs/656-WMW-918/images/FEB23-DVDD-Solidatus.pdf
11. Your trusted source for data conversion and transformation insights - Zengines, https://www.zengines.ai/resources
12. finos/legend: The Legend project - GitHub, https://github.com/finos/legend
13. CASE STUDY - The FINOS Legend Studio Pilot: an Open Source Success Story in Financial Services, https://www.finos.org/hubfs/FINOS/assets/FINOS%20Legend%20Case%20Study%202021.pdf
14. Goldman Sachs Open Sources its Data Modeling Platform through FINOS - REGnosys, https://regnosys.com/press/goldman-sachs-open-sources-its-data-modeling-platform-through-finos/
15. What is Legend? | Legend, https://legend.finos.org/docs/overview/legend-overview
16. Goldman Sachs: Accelerating time to value in data ... - awsstatic.com, https://d1.awsstatic.com/events/Summits/reinvent2022/FSI201_Goldman-Sachs-Accelerating-time-to-value-in-data-analytics.pdf
17. How Goldman Sachs' open-source data platform, Legend, democratizes access to information - Google Cloud, https://cloud.google.com/transform/goldman-sachs-legend-open-source-data-management
18. What Is a Knowledge Graph — and Why It Matters | Towards Data Science, https://towardsdatascience.com/what-is-a-knowledge-graph-and-why-it-matters/
19. Agentic AI In Financial Services Market Size, Share & 2030 Growth Trends Report - Mordor Intelligence, https://www.mordorintelligence.com/industry-reports/agentic-artificial-intelligence-in-financial-services-market
20. WO2018039266A1 - System and method for dynamic lineage tracking, reconstruction, and lifecycle management - Google Patents, https://patents.google.com/patent/WO2018039266A1/en
21. Speakers | FIMA Europe 2026 - Worldwide Business Research, https://fimaeurope.wbresearch.com/speakers/2018
22. (PDF) Title: Advanced AI in Banking: Strategic Applications ...,https://www.researchgate.net/publication/390625969_Title_Advanced_AI_in_Banking_Strategic_Applications_Emerging_Technologies_and_Institutional_Transformation
23. Legacy Core Banking Systems: Definition & Key Challenges - Crassula.io, https://crassula.io/blog/legacy-core-banking-systems/
24. Legacy Financial Systems: Key Challenges and Solutions for Businesses - Aalpha, https://www.aalpha.net/articles/legacy-financial-systems-challenges-and-solutions/
25. 5 ways to overcome AI integration challenges in legacy banking systems - SymphonyAI, https://www.symphonyai.com/resources/blog/financial-services/ai-integration-legacy-banking-systems/
26. Overcoming Data Lineage Challenges | Decube, https://www.decube.io/post/data-lineage-challenges
27. A Large Language Model-Based Approach for Data Lineage Parsing - MDPI, https://www.mdpi.com/2079-9292/14/9/1762
28. A Large Language Model-Based Approach for Data Lineage Parsing - ResearchGate, https://www.researchgate.net/publication/391156254_A_Large_Language_Model-Based_Approach_for_Data_Lineage_Parsing
29. ThreatModeling-LLM: Automating Threat Modeling using Large Language Models for Banking System - arXiv, https://arxiv.org/html/2411.17058v2
30. Semantic Data Mesh for Scalable Data Management | Timbr.ai, https://timbr.ai/blog/semantic-data-mesh-for-scalable-data-management/
31. Why Decentralized Data Governance is the Future, https://data.world/blog/decentralized-data-governance/
32. What Is Data Mesh | Ontotext Fundamentals, https://www.ontotext.com/knowledgehub/fundamentals/what-is-data-mesh/
33. Metadata Management in Data Mesh: Toward Federated Discovery and Governance*, https://sol.sbc.org.br/index.php/sbbd/article/download/37290/37073/
34. Data mesh governance: a blueprint for decentralized data management - ACA Group, https://acagroup.be/en/blog/data-mesh-governance-a-blueprint-for-decentralized-data-management/
35. Active Metadata: 2026 Enterprise Implementation Guide - Atlan, https://atlan.com/active-metadata-101/
36. Data Quality Improvement Stats from ETL – 50+ Key Facts Every Data Leader Should Know in 2026 | Integrate.io, https://www.integrate.io/blog/data-quality-improvement-stats-from-etl/
37. fibo/ONTOLOGY_GUIDE.md at master · edmcouncil/fibo - GitHub, https://github.com/edmcouncil/fibo/blob/master/ONTOLOGY_GUIDE.md
38. FIBO - EthOn ontology alignment, https://finregont.com/fibo-ethon-ontology-alignment/
39. Discover Top 12 AI-Powered Open Source Data Lineage Tools - OvalEdge, https://www.ovaledge.com/blog/ai-powered-open-source-data-lineage-tools
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.