![]()
AI大模型如今在互聯網上風頭正勁,能寫代碼、作詩畫圖,甚至能高分通過人類的律師資格考試。
但在具體的金融場景下,面對一張拍歪了的營業執照、一份有陰影的企業流水證明,AI學霸的眼力可能還不如剛入行的信貸員。
實驗室的理想環境下,大模型可以精準識別高清、平整的證件圖。但場景一旦切換到真實的信貸業務中,情況便急轉直下。
要求客戶提供的資料沒有陰影遮擋、沒有反光模糊,邊緣裁剪完美,還得角度平整、光線均勻,這在現實中幾乎是不可能的任務,尤其是對于非標程度極高的小微企業信貸而言。
恰恰是這些充滿噪音的細節,決定了最終風控審核的結果。
金融信貸業務容錯率低,非結構化數據復雜,審核要求還高。既有的通用技術手段,已很難滿足現有業務的精細化發展需求。但如何定義一個“好”的信貸審核模型?是否可以通過標準化來衡量AI模型的能力?
AI若想在金融圈立足,目標必須是擁有如資深信貸員般的專業能力,且需要一個清晰的標準來界定其優劣。目前市場上有AI信貸員服務的玩家,如奇富科技,他們會不會幫助金融機構去界定“好壞”?
金融機構的“無尺之痛”
經濟周期波動下,金融機構對于智能信貸審核工具的需求愈發強烈。
遺憾的是,想采購趁手的工具,卻找不到一把衡量好壞的尺子。這就好比,你要招聘能開夜路的卡車司機,手里卻只有他的奧數成績單。
市場上大模型層出不窮,但行業內缺乏權威且統一的衡量標準(Benchmark),這讓金融機構陷入了深深的選型焦慮。
這種焦慮源于大模型與機構需求在多個層面的錯位。
首先是題目錯位。
市面上主流的多模態評測基準,要么盯著通用的自然場景,比如識別貓或蘋果,要么聚焦于股票K線和財報分析。對于信貸業務核心的證件審核與信息交叉驗證,關注度有限。
通用模型能背誦百科全書,卻未必能讀懂邏輯復雜的征信報告。
其次是數據隔離。
受限于合規要求,真實的信貸數據往往鎖在銀行的保險柜里,無法共享。這造成了一個典型的隱私悖論:
學術界拿不到真實數據,只能在理論上訓練模型,難以落地;金融機構守著大把數據和落地場景,卻因為缺乏公開公平的衡量標準,無法橫向對比各家模型的效果。
兩端都在摸索,但距離標準答案尚遠。
最后是環境失真。
實驗室里的數據常常過于理想化,而真實業務環境復雜多變,傾斜、模糊、水印等干擾因素無處不在。模型在實驗室里跑分再高,一旦遇到真實場景的臟數據,泛化性能往往大打折扣。
所以,行業缺乏標準,結果就是金融機構無法做出理性選型,技術廠家也很難用統一尺度,證明自家產品的價值。包括奇富科技在內的一批長期深耕金融服務的服務商,都在尋求一套更貼近真實業務的衡量框架。
對金融機構而言,這種“無尺之痛”一方面是技術問題,另一方面也關系到風險是否可控、決策是否具備可復核與可解釋的基礎。這也是當前制約銀行深入推進數智化轉型的一大痛點。
造一把既土又洋的尺子
金融業務中,信貸審核環節的非結構化數據密度高,責任強度也高,既是痛點,也最容易體現AI的價值。
那么,如果金融機構要為信貸AI設立標準,這套標準需要滿足兩個看似矛盾的宏觀條件。
它必須足夠“土”,貼近金融行業的泥濘地帶,了解邊角痛點,具備全面評價信貸場景解決方案的能力。
它又得足夠“洋”,技術視野要寬廣,理解通用大模型向垂直領域演進的技術路徑,并據此構建匹配的評測維度。
這把尺子的權威性,決定它能否被行業買單,也決定金融機構引入AI時,是否擁有一套被各方理解且能復核的判斷依據。
在這個問題上,傳統金融機構體量龐大,強調合規穩健,難以獨自完成底層的技術基建。純粹的互聯網巨頭又距離業務太遠,不懂金融風控中那些微妙的尺度拿捏。
行業迫切需要一個中間人來打破僵局。它既理解金融業務的深水區,又具備頂尖的AI技術能力,提供更加垂直精準的解決方案。
![]()
在過去的金融科技實踐中,奇富科技深度參與信貸審核流程,對真實場景中的數據噪聲與審核邏輯有著持續積累。
既然買不到合適的尺子,他們決定聯合復旦大學與華南理工大學的研究團隊,自己造一把。一個連通金融與AI的嘗試,造就了首個面向信貸場景的多模態評測基準FCMBench-V1.0。
把真實世界搬進測評體系
為確保這套基準權威且實用,研究團隊在基礎的數據構建層面,干了件看起來極其原始的苦差事——物理仿真。
真實的信貸數據涉及合規要求,無法公開;純粹的數字合成數據又太過干凈,并不真實。為解決這一悖論,團隊選擇了更難的路徑。
他們構建了一個包含21位虛擬人物的信貸資料庫,詳細設定了這些人物的年齡、收入、婚姻狀況,以及小微經營特征,生成數十種文檔模板。
重點來了,團隊并未止步于電腦合成,而是將這些生成的身份證、房產證、銀行流水,打印并制作成了實物。
接著,用iPhone、華為、小米等五款常見品牌的手機,對著實物證件拍照。他們甚至人為制造“爛片”,模擬現實中常見的反光、折痕、模糊等非標環境。
這種對物理世界的高度還原,讓這一包含4000多張合規圖像、8000多個任務指令的數據集,擁有了真實的質感。
有了數據,還需要有懂行的評判邏輯。
FCMBench測評體系涉及“感知-推理-魯棒性”等三個維度,把看清、看懂、抗干擾融入測評框架。
具體而言,就是要求大模型不僅能看清楚材料本身,還能識別字段與業務的邏輯關系,完成信息交叉比對,并且在極端與異常樣本中依然不出錯。
![]()
例如,檢查身份證與房產證上的名字是否一致;更復雜些,模型需要同時比對收入證明與完稅證明,用類似信貸員的業務邏輯,校驗數據合理性:
申請人聲稱個人年收入高于10萬元,但完稅證明體現的納稅比例低于10%,AI應當立即警覺——這極有可能是一份注水的收入證明。
事實上,FCMBench并不苛求模型在某一特定維度的極致分數,而是幫助金融機構在穩健性、覆蓋度與業務效率之間,找到更符合自身風險偏好的平衡點。
這種像老信貸員一樣的直覺,才是風控AI的靈魂。
通才與專才的較量,不服跑個分?
考卷出好了,誰能拿高分?
在這樣嚴苛的考場中,奇富科技考察了全球14家機構的23個主流模型。測試對象既包括谷歌、OpenAI這樣的通用巨頭,也包括經過特定訓練的垂直模型。
不服跑個分?
FCMBench的評測中,不同類型模型各有勝負。通用模型方面,谷歌的Gemini 3 Pro在商業模型中領跑,阿里的Qwen3-VL-235B則是開源基模中的佼佼者。
![]()
但回到真實的信貸場景,以統一的綜合指標開展橫向比較時,奇富科技自研的信貸垂類多模態大模型Qfin-VL-Instruct,拿下了全模型最高分。
所謂綜合指標(即F1),是召回率(Recall)與精確率(Precision)的調和平均。信貸審核中,模型若過度偏向精確率,可能過于謹慎,導致誤拒正常申請;若過度偏向召回率,則可能過于寬松,放大風險敞口。
這一測評體系下,模型綜合得分高,反映其結構化能力與魯棒性表現更均衡,也更有利于適配真實信貸業務的場景需求。
奇富Qfin模型奪冠,驗證了垂直大模型存在的商業邏輯:術業有專攻。
當通用大模型試圖用常識去理解世界時,經過高質量行業數據微調的垂直模型,更熟悉行業的潛規則。打個比方,通用模型像是博士,上知天文下知地理;而奇富Qfin模型更像坐了十年柜臺的老會計。
除了準確率,這筆賬還要考慮成本和效率。
通用的思考型大模型表現優秀,缺點在于推理速度慢,算力消耗大。真實的信貸審批業務中,窗口期往往只有幾十秒。
奇富Qfin模型采用指令模式,既保持了高準確率,又讓推理速度比開啟思維鏈的通用模型快了2-3倍,Token消耗量更是呈數量級下降。
從測試結果來看,基于高質量行業數據微調的垂直模型,可以在特定金融場景下,以更低的成本、更快的響應速度,與參數量巨大的通用巨頭一較高下。
小結
技術狂奔之后,終需落地生根。
如奇富科技多模態負責人楊葉輝所言,如果特定模型在這一測評基準上取得好成績,“理論上就可以面向實際落地,而不僅僅是實驗室里的一個指標。”
為踐行承諾,并消除“既當裁判又當運動員”的疑慮,奇富科技宣布開源FCMBench的數據集與評測方法。這打通了學術界與產業界的壁壘,為行業提供了稀缺、合規且高質量的信貸場景數據。
展望未來,AI正進入務實時代。未來的競爭,關鍵在于誰能扎根行業,解決具體的產業問題。
奇富科技通過構建FCMBench,連通了AI研究與金融落地。它用事實告訴行業,真正實用的AI,誕生在真實的業務泥濘里。
這也是奇富科技助力金融機構跨越數智化轉型深水區的核心價值所在。
本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯系 tougao@huxiu.com。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4825960.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.