網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

助力AI智能推理合合信息推出多模態(tài)文本智能技術(shù)落地方案

2025-10-21 13:42:31　來(lái)源: 看見(jiàn)Insight

上海舉報(bào)

分享至

近期，第八屆中國(guó)模式識(shí)別與計(jì)算機(jī)視覺(jué)學(xué)術(shù)會(huì)議（PRCV 2025）順利舉行。大會(huì)期間，“多模態(tài)文本智能大模型前沿技術(shù)與應(yīng)用”論壇（簡(jiǎn)稱“論壇”）獲得了廣泛關(guān)注。論壇匯集了來(lái)自華南理工大學(xué)、哈爾濱工業(yè)大學(xué)、南開(kāi)大學(xué)、華中科技大學(xué)、小紅書(shū)及合合信息技術(shù)團(tuán)隊(duì)的頂尖專家與學(xué)者，深入探討多模態(tài)文本智能領(lǐng)域的最新技術(shù)突破與場(chǎng)景應(yīng)用案例。

圖說(shuō)：中國(guó)圖象圖形學(xué)學(xué)會(huì)(CSIG)常務(wù)理事、華南理工大學(xué)教授金連文致辭

當(dāng)前，“實(shí)戰(zhàn)”應(yīng)用標(biāo)準(zhǔn)對(duì)大模型的多模態(tài)內(nèi)容深度整合能力提出了新的要求。為解決語(yǔ)義割裂、場(chǎng)景理解局限、決策失誤等常見(jiàn)的模型缺陷制，合合信息在論壇期間推出“多模態(tài)文本智能技術(shù)”方案，通過(guò)文本相關(guān)空間位置理解深層語(yǔ)義邏輯，實(shí)現(xiàn)對(duì)多模態(tài)信息的“立體化綜合化理解”，賦予模型真正的文本“閱讀理解”能力。

針對(duì)實(shí)際應(yīng)用場(chǎng)景，在論壇現(xiàn)場(chǎng)，合合信息圖像算法研發(fā)總監(jiān)郭豐俊分享了文本智能技術(shù)的創(chuàng)新應(yīng)用，幫助用戶解決復(fù)雜場(chǎng)景下的文檔圖像問(wèn)題。小紅書(shū)hi lab團(tuán)隊(duì)算法工程師燕青結(jié)合行業(yè)實(shí)踐，分享了一款基于單視覺(jué)語(yǔ)言模型的多語(yǔ)言文檔布局解析工具“dots.ocr”。

目前，“多模態(tài)文本智能技術(shù)”方案已將文本智能認(rèn)知程度從語(yǔ)義理解拓展到類人推理及自主機(jī)器決策，形成了從感知到認(rèn)知再到?jīng)Q策的技術(shù)實(shí)現(xiàn)路徑。相較于傳統(tǒng)的文檔解析、識(shí)別系統(tǒng)，該方案讓系統(tǒng)具備了更接近人類判斷邏輯的自主決策能力，在完成對(duì)多模態(tài)信息的感知和理解后，能夠根據(jù)用戶意圖，做出正確的決策。

“多模態(tài)文本智能技術(shù)”已在金融、醫(yī)藥、教育等專業(yè)領(lǐng)域開(kāi)展應(yīng)用，通過(guò)對(duì)復(fù)雜文本的精準(zhǔn)感知、綜合理解和可靠決策，實(shí)現(xiàn)對(duì)業(yè)務(wù)流程的智能重構(gòu)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.