近期,第八屆中國(guó)模式識(shí)別與計(jì)算機(jī)視覺(jué)學(xué)術(shù)會(huì)議(PRCV 2025)順利舉行。大會(huì)期間,“多模態(tài)文本智能大模型前沿技術(shù)與應(yīng)用”論壇(簡(jiǎn)稱“論壇”)獲得了廣泛關(guān)注。論壇匯集了來(lái)自華南理工大學(xué)、哈爾濱工業(yè)大學(xué)、南開(kāi)大學(xué)、華中科技大學(xué)、小紅書(shū)及合合信息技術(shù)團(tuán)隊(duì)的頂尖專家與學(xué)者,深入探討多模態(tài)文本智能領(lǐng)域的最新技術(shù)突破與場(chǎng)景應(yīng)用案例。
![]()
圖說(shuō):中國(guó)圖象圖形學(xué)學(xué)會(huì)(CSIG)常務(wù)理事、華南理工大學(xué)教授金連文致辭
當(dāng)前,“實(shí)戰(zhàn)”應(yīng)用標(biāo)準(zhǔn)對(duì)大模型的多模態(tài)內(nèi)容深度整合能力提出了新的要求。為解決語(yǔ)義割裂、場(chǎng)景理解局限、決策失誤等常見(jiàn)的模型缺陷制,合合信息在論壇期間推出“多模態(tài)文本智能技術(shù)”方案,通過(guò)文本相關(guān)空間位置理解深層語(yǔ)義邏輯,實(shí)現(xiàn)對(duì)多模態(tài)信息的“立體化綜合化理解”,賦予模型真正的文本“閱讀理解”能力。
針對(duì)實(shí)際應(yīng)用場(chǎng)景,在論壇現(xiàn)場(chǎng),合合信息圖像算法研發(fā)總監(jiān)郭豐俊分享了文本智能技術(shù)的創(chuàng)新應(yīng)用,幫助用戶解決復(fù)雜場(chǎng)景下的文檔圖像問(wèn)題。小紅書(shū)hi lab團(tuán)隊(duì)算法工程師燕青結(jié)合行業(yè)實(shí)踐,分享了一款基于單視覺(jué)語(yǔ)言模型的多語(yǔ)言文檔布局解析工具“dots.ocr”。
目前,“多模態(tài)文本智能技術(shù)”方案已將文本智能認(rèn)知程度從語(yǔ)義理解拓展到類人推理及自主機(jī)器決策,形成了從感知到認(rèn)知再到?jīng)Q策的技術(shù)實(shí)現(xiàn)路徑。相較于傳統(tǒng)的文檔解析、識(shí)別系統(tǒng),該方案讓系統(tǒng)具備了更接近人類判斷邏輯的自主決策能力,在完成對(duì)多模態(tài)信息的感知和理解后,能夠根據(jù)用戶意圖,做出正確的決策。
“多模態(tài)文本智能技術(shù)”已在金融、醫(yī)藥、教育等專業(yè)領(lǐng)域開(kāi)展應(yīng)用,通過(guò)對(duì)復(fù)雜文本的精準(zhǔn)感知、綜合理解和可靠決策,實(shí)現(xiàn)對(duì)業(yè)務(wù)流程的智能重構(gòu)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.