近期,第八屆中國模式識別與計算機視覺學術會議(PRCV 2025)順利舉行。大會期間,“多模態文本智能大模型前沿技術與應用”論壇(簡稱“論壇”)獲得了廣泛關注。論壇匯集了來自華南理工大學、哈爾濱工業大學、南開大學、華中科技大學、小紅書及合合信息技術團隊的頂尖專家與學者,深入探討多模態文本智能領域的最新技術突破與場景應用案例。
![]()
圖說:中國圖象圖形學學會(CSIG)常務理事、華南理工大學教授金連文致辭
當前,“實戰”應用標準對大模型的多模態內容深度整合能力提出了新的要求。為解決語義割裂、場景理解局限、決策失誤等常見的模型缺陷制,合合信息在論壇期間推出“多模態文本智能技術”方案,通過文本相關空間位置理解深層語義邏輯,實現對多模態信息的“立體化綜合化理解”,賦予模型真正的文本“閱讀理解”能力。
針對實際應用場景,在論壇現場,合合信息圖像算法研發總監郭豐俊分享了文本智能技術的創新應用,幫助用戶解決復雜場景下的文檔圖像問題。小紅書hi lab團隊算法工程師燕青結合行業實踐,分享了一款基于單視覺語言模型的多語言文檔布局解析工具“dots.ocr”。
目前,“多模態文本智能技術”方案已將文本智能認知程度從語義理解拓展到類人推理及自主機器決策,形成了從感知到認知再到決策的技術實現路徑。相較于傳統的文檔解析、識別系統,該方案讓系統具備了更接近人類判斷邏輯的自主決策能力,在完成對多模態信息的感知和理解后,能夠根據用戶意圖,做出正確的決策。
“多模態文本智能技術”已在金融、醫藥、教育等專業領域開展應用,通過對復雜文本的精準感知、綜合理解和可靠決策,實現對業務流程的智能重構。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.