![]()
天創信用案例
該數據要素案例由天創信用投遞并參與金猿組委會×數據猿×上海大數據聯盟共同推出的《2025中國大數據產業年度數據要素價值釋放案例》榜單/獎項評選。
數字經濟時代,數據已成為關鍵生產要素。國家“數據要素×”三年行動計劃和金融科技發展規劃等系列戰略,明確要求推動數據賦能實體經濟,特別是在金融領域深化數據應用,提升服務質效。在此背景下,銀行對公授信業務正經歷從傳統人工經驗驅動向“數據智能驅動”的深刻變革。
當前,金融行業正經歷從“經驗驅動”向“數據驅動”的范式變革,非結構化數據解析、大模型應用等技術的成熟,為數據要素在風控場景的價值釋放提供了技術支撐。AI與大模型技術的飛速發展為智能風控帶來了全新的可能性,通過自動解析非結構化文檔、生成專業報告、挖掘潛在風險,成為行業降本增效、防范系統性風險的關鍵路徑。
作為專注服務實體經濟的金融機構,銀行在對公授信業務中深刻感受到傳統模式的“三低一高”痛點:人工審單效率低(需從海量線下合同、審計報告中手動抽取關鍵數據)、數據利用率低(約80%的非結構化數據“沉睡”)、風險識別精度低(過度依賴主觀經驗)、以及運營合規成本高。
為響應國家戰略,把握技術發展趨勢,銀行金融機構亟需打破數據孤島,釋放數據要素價值,重構風控體系。為此,銀行與天創信用攜手,共同啟動AI數智風控協同創新項目。
項目聚焦數據線上化、報告自動化、風控智能化三大核心訴求,旨在通過前沿AI技術,將散落的非結構化數據轉化為可流通、可增值的戰略資產,打造行業領先的“數據智能驅動”風控新范式,為銀行業數字化轉型提供可復制的標桿案例。
時間周期:
項目開始時間:2025年8月
中間重要時間節點:
2025年10月:通過解析測試樣例交付與關鍵字段定義,啟動技術方案驗證。
2025年11月:完成銀行內AI平臺部署,實現工作流遷移與集成。
2025年12月中旬:完成信息抽取功能全面測試與數據接口規范確認。
2025年12月:智能報告生成功能上線,啟動AI風險挖掘模型的業務需求調研與知識沉淀工作。
項目完結時間:2026年2月:核心功能模塊完成交付并上線運營,進入持續優化與價值深挖階段。
數據要素價值需求
本項目緊密圍繞數據要素的核心精神,將客戶需求升維理解為對數據要素全生命周期價值釋放:
1.數據資產化
客戶亟需將散落在海量線下合同、審計報告(PDF/掃描件)中的“暗數據”,如合同金額、財務三表等,通過AI轉化為可計量、可查詢、可分析的結構化數據資產。
2.數據服務化
客戶要求打破內外部數據壁壘,將已結構化的數據、內部業務數據與外部工商司法數據融合,通過AI工作流自動生成標準化的貸前貸中報告。這有望實現數據要素在跨部門、跨業務場景中的高效“流通”與“共享”,將數據從靜態資產轉化為動態服務。
3.數據資本化
客戶最終目標是讓數據要素直接產生業務價值。希望通過訓練AI模型,將業務專家的風控經驗固化為數據模型,基于多源數據自動挖掘企業潛在風險,實現數據要素在風險決策中的價值增值,甚至探索數據驅動的創新型金融產品。
天創信用深刻把握數據要素是金融風控數字化轉型的核心生產資料,將客戶需求拆解為“數據激活-數據整合-數據賦能”三維價值鏈路:
數據要素激活
針對非結構化數據難以利用的痛點,通過AI模型將線下文件轉化為結構化數據,建立數據要素的“產權標識”與質量標準,讓沉睡數據具備流通基礎。
數據要素整合
構建多源數據融合體系,明確內外部數據的分類標準、關聯規則和使用規范,打通數據要素在不同業務系統、不同場景中的流通通道,實現“數據語言互通”。
數據要素賦能
基于整合后的數據要素,運用AI自主規劃,讓數據要素在報告生成、風險識別中發揮決策支撐作用,最終實現數據要素從“資源”到“資產”再到“資本”的價值躍升。
我們提出“數據要素價值立方體”解決方案,即在技術維度,構建多模態數據解析與AI生成引擎;在流程維度,設計覆蓋提取、整合、應用的全鏈路工作流;在價值維度,瞄準效率提升、成本節約與風險控制,最終實現數據從“資源”到“資產”再到“資本”的躍遷。
面臨挑戰
數據要素層面核心挑戰
1.數據格式碎片化
客戶業務數據分散于線下PDF(原生/掃描件)、內部業務系統等多種載體,合同、審計報告等文件格式不統一,掃描件存在字跡模糊、排版錯亂等問題,部分文件掃描錯誤率達12%,導致數據要素提取難度大,標準化程度低。
2.數據類型多元化
涉及非結構化數據(文本文件)、半結構化數據(業務系統日志)、結構化數據(內部臺賬)等多類型數據,不同來源數據的字段定義、統計口徑不一致,數據要素整合面臨“數據語言不通”的融合難題。
3.數據質量參差不齊
線下文件中存在數據缺失、表述不規范、重復記錄等問題,且缺乏統一的數據質量校驗標準,直接影響數據要素的可用性。
4.數據要素安全合規風險
金融數據涉及企業商業機密與銀行核心業務信息,需嚴格遵守《金融數據安全分級指南》等法規,如何在保障數據安全(原始數據不出域、數據可用不可見)的前提下實現數據要素高效流通,成為核心約束。
項目實施配套挑戰
1.系統適配難度大
客戶現有IT架構需兼容新的數據解析引擎與工作流平臺,需解決與行內現有系統的無縫對接問題,確保數據要素傳輸的穩定性與時效性。
2.需求標準化難
不同業務場景下的報告撰寫要求、數據提取重點存在差異,需平衡標準化解決方案與個性化業務需求,確保數據要素應用的靈活性。
3.跨團隊協同復雜度高
項目涉及銀行業務、技術、合規等各部門與天創信用實施團隊的多方協作,需明確各方在數據提供、需求確認、測試驗收
數據處理
數據類型及來源
1.非結構化數據
銀行對公授信業務相關的線下合同、審計報告(包括原生PDF文件、掃描件格式),包括合同文本、審計報告中的資產負債表、利潤表、現金流量表及附注說明,累計處理超1000頁測試文本。
2.結構化數據
銀行內部業務系統、外部數據、央行征信中心等,涵蓋企業基本信息、信貸業務記錄、企業授信額度、歷史風險評估結果、企業征信數據等
數據處理規模
1.測試階段數據量:銀行累計提供合同、審計報告等解析測試樣例120份(解析模塊60份、報告模塊60份),每份文件平均頁數15-30頁,涵蓋50+類關鍵業務字段。
2.日常處理數據量:項目上線后,預計日均處理合同解析請求約300-500筆、審計報告解析請求200-300筆,單份審計報告最大處理頁數100頁以上;報告生成模塊日均調用數據資源池數據量超5GB,涉及內外部數據維度100+。
3.數據存儲規模:結構化數據資源池初始存儲量約20GB,月均增長5GB;非結構化原始文件存儲量初始約50GB,結構化提取后數據存儲量約10GB,支持歷史數據回溯與復用,首年數據存儲規模預計將超過10TB。
數據技術與實施過程
為了滿足銀行金融機構功能迭代的需求,本項目需要支持數據上傳、解析、識別及分析,重點實現以下能力:
1.一報多表:運用視覺模型和AI模型提取財務報表等表格文件。
2.風險識別:運用海量數據接口進行AI融合,提煉業務風險。
3.報告撰寫:運用AI模型整理文本及風險信息,進行風險報告寫作。
4.RAG增強:審計報告切片向量化入庫,支持后續問答。業務總統流程圖。
一、技術架構設計
本項目圍繞數據要素“提取-整合-賦能”全流程,構建了以“非結構化數據解析技術、多源數據融合技術、大模型應用技術”為核心的“五層三維”技術架構:
數據解析層:集成開源與自研視覺模型,針對金融文檔特點,引入PDF動態語義切片算法、分布式限流機制,并利用Redis實現實時進度監控(SSE推送),攻克大文件、高并發處理難題。
智能引擎層:搭建可配置、可復用的AI工作流工廠。融合規則引擎、LLM大模型(經SFT微調)、RAG檢索增強生成等技術,實現從信息精準抽取到報告智能生成的全流程自動化。
業務應用層:封裝標準化API,輸出信息抽取、報告生成、風險預警等能力,與銀行現有風控、信貸系統無縫集成,形成閉環業務價值。
本項目重點技術解決方案如下:
1.大文件解析與視覺模型進度監控
為解決大文件解析超時和無進度感知問題,采用切片解析機制。這里將采用串行處理策略,確保進度更新的線性與平滑性,同時降低視覺模型服務的并發壓力。
2.財報識別與提取
解析引擎完成基礎OCR后,系統需識別文檔中包含的若干份財務報表并結構化提取。通過規則引擎(Rule Engine)定位位點,再調用LLM精準提取。
二、技術要點與創新
1.高精度信息提取
采用“視覺特征(CV)+布局理解(NLP)”的多模態模型,精準定位并抽取金額、日期、主體等字段,對復雜版面與掃描件,準確率達92%以上。
2.一報多表提取技術
突破傳統審計報告解析局限,通過CV+NL混合技術實現財務三表自動定位(F1值達0.92),從單份審計報告中自動識別并提取母公司、合并報表、不同年度報表等多份財務數據,解析效率提升60%。
3.模塊化工作流架構
采用獨立模塊設計,支持按需調用與靈活擴展,可快速適配銀行新增報告類型或數據提取需求,降低系統迭代成本。
4.數據要素安全保障
通過私有化部署模式保障數據不泄露,結合分布式限流與權限管控,實現“原始數據不出域、數據可用不可見”,符合金融數據安全合規要求。
生態伙伴合作
本項目是銀行與天創信用深度共創的典范。銀行作為業務場景方與需求方,提供了核心業務知識、數據樣本及內部系統資源;天創信用作為技術提供方與實施方,貢獻了AI算法、工程化能力與平臺技術。雙方組成聯合項目組,形成了 “業務牽引、技術驅動、敏捷迭代”的高效協作模式。
數據方面,項目積極引入各類企業數據服務商,包括天眼查、憑安等信用信息服務商,智慧星光等輿情服務提供商。外部數據的引入對該項目起到了至關重要的作用,是構建全景化、動態化企業風險視圖不可或缺的一環。這些合作不僅豐富了數據維度,更在數據要素的價值鏈上實現了“外部賦能”與“內部激活”的有效協同。
合作服務效果
項目成功上線后,預計在數據要素價值釋放與商業成效上取得可量化的卓越效果:
1.運營效率革命性提升:
數據提取效率:單份合同/審計報告的關鍵信息抽取時間,有望從人工平均2小時縮短至AI全自動處理約5分鐘,效率提升24倍。
報告撰寫效率:單份貸前盡調報告撰寫時間從6-8小時,預計壓縮至1.5小時內(AI生成+人工校正),人工撰寫成本降低超過80%。
2.風險管控能力質變增強:
知識復用與響應:通過RAG構建的審計報告知識庫,支持業務人員以問答形式在3秒內獲取企業潛在風險線索。
3.數據要素價值充分釋放:
流通與復用:通過統一數據接口,內部分散系統對數據的復用率提升60%,有效打破數據孤島。
成本節約:預計每年可節省外部數據采購、人工處理及合規檢查相關成本數千萬元。
4.行業標桿效應形成:
本項目打造了銀行業內領先的“非結構化數據智能處理與風控應用”標桿,形成的技術方案與實施方法論具備高度的可復制性,為整個行業利用AI釋放數據要素價值提供了可行路徑,推動了產業級進步。
關于企業
·天創信用
天創信用服務有限公司成立于2015年,是一家智能風控與大數據征信運營商,憑借先進的大數據和智能技術以及專業的服務團隊,在信用體系建設,金融科技服務等領域具有深厚的積累和卓越的成就。
天創信用是央行企業征信備案機構,發改委27家首批綜合信用服務試點機構之一。公司在大數據征信和金融科技領域受到業內的諸多認可:連續入選畢馬威中國金融科技50強,2021年成為央行京津翼征信鏈9家征信機構之一,2022年獲得專精特新中小企業認證,2023年榮獲“北京數字經濟企業百強”、獲評第三屆朝陽區“鳳鳴計劃”高成長企業,2024年獲得2024全球數字經濟大會“首交易”示范獎勵。
公司企業文化使命是“讓有信者行天下”,致力于用科技力量顯現信用價值,造福天下有信者。公司的愿景是“成為最值得信賴的信用科技運營商”,通過卓越的信用科技服務,持續為客戶創造價值,堅守承諾,傾盡全力,成為客戶最可靠的合作伙伴。
★以上由天創信用投遞申報的數據要素案例,最終將會角逐由金猿組委會×數據猿×上海大數據聯盟聯合推出的《2025中國大數據產業年度數據要素價值釋放案例》榜單/獎項。
該榜單最終將于1月上旬上海舉辦的“2025第八屆金猿大數據產業發展論壇——暨AI Infra & Data Agent趨勢論壇”現場首次揭曉榜單,并舉行頒獎儀式,歡迎報名蒞臨現場。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.