<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      WPS為AI裝上“智能解析大腦”

      0
      分享至


      文|唐辰 圖源:WPS官網

      WPS派來的猴子,讓復雜文檔解析有救了!

      人工智能進入大模型時代后,哪一個方向是最炙手可熱、競爭最為激烈的賽道?答案可能不唯一,但利用多模態大模型進行文檔智能解析絕對算一個。

      自2025年6月以來,僅僅半年時間,各大科技公司、初創企業或研究機構紛紛下場,發布了一系列突破性模型,掀起了一場“解析革命”。

      包括MinerU、PaddleOCR、DeepSeek-OCR、Chandra等在內的十余款新型文檔解析模型相繼問世,覆蓋了OCR、結構化提取、版面分析等多個維度。



      圖注:2025年6月起,十余款多模態文檔解析模型先后發布

      這些模型不再局限于傳統的字符識別,而是深度融合視覺與語言的多模態能力,實現了對復雜文檔,如PDF、掃描件、表格、發票的語義級理解與結構化輸出。

      其中,金山辦公聯合華中科技大學在近期發布的MonkeyOCR v1.5,成為這一領域的最新技術進展。

      這是一個全新的統一視覺語言文檔解析框架。從其英文名字看,它稱得上是金山辦公為解決復雜文檔智能解析難題派出的“猴子救兵”。

      在全球權威文檔解析評測榜單OmniDocBench v1.5中,它拿下93.01分的成績,獲得綜合性能全球第一,成為多模態文檔解析領域的新標桿。

      多模態時代的“復雜文檔智能感知系統”

      OCR(Optical Character Recognition,光學字符識別)技術是最早讓機器理解文字、看懂文字的技術之一。它的核心任務是將圖像中的文字,轉化為可編輯、可檢索的文本。

      比如在掃描文檔、票據識別錄入、街景招牌識別,以及Google翻譯的實時攝像頭翻譯功能為代表的翻譯與語言輔助系統等場景的應用。

      OCR技術極大簡便了機器識別文字、處理文檔的工作,大家只需要拍個照片,或者直接掃描文檔,就能把文字、表格、網頁等信息提取出來。這也推動了信息數字化的浪潮,成為“無紙化辦公”和“自動化文檔處理”的基石。

      從OCR技術的發展歷程看,可以拆分為OCR1.0和OCR2.0階段。

      OCR 1.0 主要基于CNN(卷積神經網絡)與LSTM(長短期記憶網絡)結合的深度學習模型,例如CRNN、CTC等經典架構。其系統通常由文字檢測和文字識別獨立模塊構成,前者定位圖像中的文本區域,后者將文本區域轉換為具體文本內容。

      這一階段的OCR技術解決了“機器識字”的基本問題。但它有一個根本性的局限:能識別字符寫的是什么,無法理解圖像中的語義關系。比如,它分不清楚一段文字是標題、表格數據,還是公式的一部分。

      隨著辦公場景日益復雜,傳統OCR僅能檢測和識別文字已無法滿足需求。現代文檔處理需要模型能夠理解文檔的布局結構,準確表達各元素間的邏輯關系,并能高精度提取文本、公式及表格等結構化信息。

      為此,新一代OCR技術應運而生。以MinerU2.5、PaddleOCR-VL、Dots.OCR為代表的多模態模型和解析方案,實現了從“文本識別”到“文檔理解”的跨越。這些技術不再僅僅返回文本,而是能夠輸出Markdown、JSON、HTML等結構化格式,讓我們從“看文字”升級為“讀文檔”。

      其中,2023年大模型爆發是一個新的轉折點,徹底改變了深度學習的格局。以GPT-4V、Gemini、Qwen-VL、InternVL 為代表的視覺語言模型(Vision-Language Model,VLM),讓人工智能真正具備了“同時理解文字與圖像”的能力。

      這意味著,OCR2.0模型既能“看圖識字”,又能“看圖明意”。它能讀懂論文PDF、解析圖表,甚至能夠理解圖表。

      如果說LLM (大語言模型)是“大腦”,那么OCR就是“視覺皮層”,或者說是智能感知系統。它決定了 AI 能“看到”什么,進而“理解”什么。

      OCR階段,模型或者產品的識別與理解能力不足,也會動搖多模態RAG(檢索增強生成)系統的“知識理解”的根基。

      可以理解為,OCR是辦公環境中數據孤島之間的鏈接器,只有高效、準確的打通數據轉化壁壘,才能真正把數據變成AI能夠理解的企業知識,進而為多模態RAG(檢索增強生成)技術提供高質量的“數據燃料”。



      圖注:MonkeyOCR v1.5突破多模態文檔解析性能上限(點擊看大圖)

      換句話說,在OCR 1.0時代,模型主要實現的是“文字掃描”:它能看到PDF中的文字,但僅限于識別“這些字是什么”。而進入OCR 2.0階段,模型已能實現語義級解析、結構級還原、視覺語義融合與深層內容理解。

      其角色也發生了根本性躍遷:從單純的“輸入預處理工具”,升級為“知識理解的起點”,成為一個真正的“文檔理解器”。

      需要補充的是,當前主流的視覺語言模型(VLM),如Qwen-VL、InternVL、Gemma等,雖然參數量大、通用性強,但在結構化多模態信息提取、高精度大尺寸文檔解析、輕量化部署等專業場景中,往往難以直接勝任。

      而經過文檔理解任務專門優化的OCR 2.0模型(如DeepSeek-OCR、PaddleOCR-VL),在文檔圖像實體檢測、版面分析、信息結構化輸出及PDF-MarkDown轉換等核心任務上表現更為優異,實現了效率與精度的更優平衡。

      例如,新版PaddleOCR 已明確將“通用文字識別”(OCR 1.0)與“通用文檔解析”(OCR 2.0)劃分為兩個獨立模塊。

      MonkeyOCR v1.5,正是這一演進路徑上的新代表作。它在全能多模態文檔解析基準OmniDocBench v1.5,OCRFlux-bench上,全面超越MinerU 2.5、PPOCR-VL、DeepSeek-OCR等此前最優方法,尤其在復雜表格場景中,相較于此前表現最好的MinerU2.5,效果提升近2.5%

      可以說,MonkeyOCR v1.5是多模態時代的“復雜文檔智能感知系統”。它不是傳統 OCR 的升級版,而是邁向“文檔理解”的關鍵一步。

      甚至可以說,MonkeyOCR v1.5開啟了OCR2.0+時代,將OCR推進到多模態智能系統的核心感知入口的高度,成為連接物理文檔與數字智能的關鍵橋梁,完成從工具到智能信息平臺乃至智能解析大腦的蛻變。

      “猴子的救兵”有哪些本領

      相比傳統OCR技術只能識別文字,無法理解上下文關系,無法把一份復雜的學術PDF轉化為層次清晰的結構化信息。MonkeyOCR能準確理解復雜布局文檔中各元素的邏輯位置和符合人類閱讀偏好的閱讀順序。

      同時可以精準識別文本、公式、表格等關鍵元素的信息,甚至能無損還原內嵌圖片的表格,以及跨越多頁或者多欄的表格。

      在實際應用中,高校科研人員借助其批量解析論文,將20篇文獻的數據整理時間從2天壓縮至5分鐘;商業場景里,將一份跨越多頁、含有產品插圖的商品目錄表格,無損地還原為一個完整的結構化數據等;

      而自動化業務流程里,企業內部文檔處理,如合同、報表、發票等,實現數據自動提取和結構化,提高效率,減少人工干預。

      MonkeyOCR v1.5具備這樣的智能解析能力,源于其核心設計理念:將全局的結構理解與細粒度的內容識別高效解耦,并在最關鍵、最復雜的環節引入創新性的智能算法。

      為此,它創新地將解析流程簡化為兩個清晰、輕量的階段:

      第一階段:給AI 戴上“全局掃描鏡”。MonkeyOCR v1.5模型先預測文檔布局和閱讀順序,像文本、表格、公式位置等,確保AI 不會像盲人摸象般碎片化閱讀,而是從全局掌握信息脈絡,也從源頭上減少錯誤。

      第二階段:局部“精加工”。根據一階段檢測結果并行地裁剪,由同一個VLM識別對應區域塊內容,再根據一階段的閱讀順序重新組合,最終還原出完整結構。

      其運作邏輯是,系統將檢測到的區域塊(patch)剪裁出來,針對文本、公式、表格進行并行識別,這種“先定位、再細看”的策略兼顧了效率與精度,既看得準,也認得對。

      MonkeyOCR v1.5針對復雜文檔解析還有一大殺手锏:圖像解耦技術。面對表格中嵌入圖片的干擾,模型會像戴上一副“偏光鏡”,先遮住干擾圖像并用占位符替代,讓 AI 專注于解析純文本表格骨架,最后再將圖片精準貼回 。

      這種創新的兩階段架構以及針對嵌入圖像、跨頁表格的專用模塊,完美解決了復雜文檔中的噪聲干擾,避免表格還原時誤將圖片內容作為單元格內容識別,同時內嵌圖像模型和表格識別模型可分離,實現任務上的解耦。

      這樣來看,MonkeyOCR v1.5 不是“又一個OCR”,它就像是給模型戴上了一副“偏光鏡”,自動濾掉干擾表格結構的圖片噪聲,只看骨架,從而能夠成為針對高價值復雜文檔打造的垂類智能解析引擎。

      MonkeyOCR v1.5的范式意義

      如果說圖片生成是AI 的“創作之筆”,那么對復雜文檔的解析則是 AI 的“深度閱讀之眼”。這正是WPS「原生+智能體」思路的落地。背后是金山辦公基于自身場景優勢,聚焦打磨更適于應用落地的AI模型的理念。

      這是因為,在未來的AI時代,真正能大規模落地、產生實際價值的,未必是參數龐大、算力需求高的通用大模型,那些輕量、快速、垂直、適合本地或移動端部署的專用模型,即垂直AI模型,同樣可以在其擅長的領域發揮巨大效能。

      正如不少評測以及用戶反饋所評價,MonkeyOCR v1.5是復雜文檔智能解析領域的一個重要里程碑。它不僅在技術上實現了多項創新,打開OCR2.0+的新局面。

      更關鍵是的是,它提供了一個新的OCR技術思路:通過創新的輕量級、本地化兩階段VLM設計、視覺一致性強化學習以及針對性的模塊化決方案,可以在復雜文檔智能解析上,實現準確性、效率和實用性的最佳平衡。

      在辦公這一高頻、高價值場景打磨世界級模型,并使其成為AI時代新協同辦公范式。

      但MonkeyOCR v1.5并不是一個炫技的垂直AI模型。盡管我們身處AI大模型時代,但大量的關鍵信息仍以PDF、掃描件、紙質檔案形式存在,比如科研論文、法律合同、醫療記錄、工程圖紙、政府公文等等。

      如果我們無法高效、精準地將其轉化為結構化知識,無法理解復雜表格、圖片信息,AI 就如同“睜眼瞎”。OCR技術的發展,除了對文檔“識別得更準”,其也在改變人、機器與文檔的交互方式。

      對金山辦公而言,MonkeyOCR v1.5 的意義遠不只是一個更強的插件。正如金山辦公CEO 章慶元所言,AI 時代的辦公軟件要成為“能力的提供方”和“數字員工的載體” 。

      而有了MonkeyOCR v1.5 這套“智能解析大腦”,用戶上傳的 PDF、圖片即可無縫轉化為可編輯、可計算的智能文檔 。這不僅是“解析即用”的體驗升級,更是金山辦公在打造成熟 AI 應用落地“樣板間” 。

      大家也能看到,一只“聰明的猴子”,正在通過重塑人與文檔的交互方式,大鬧 AGI 的“天宮” 。

      參考資料,

      賦范空間,《OCR2.0時代:從字符識別到多模態智能理解的技術革命》

      量子位,《金山與華科發布多模態模型MonkeyOCR v1.5》

      36氪頭條轉載:

      虎嗅推薦:

      36氪首頁推薦、鈦媒體精選:

      鈦媒體主編精選:

      36氪熱榜、鈦媒體熱榜:

      澎湃、界面、36氪、鈦媒體熱榜:

      人人都是產品經理主編推薦:

      唐辰同學

      鈦媒體、36氪、老虎財經熱榜

      澎湃新聞2024年最澎湃創作者

      老虎財經2024年度優秀專欄

      河南日報·頂端新聞2024年度影響力作者

      界面新聞優質榜單

      老虎財經2024年度優秀專欄

      騰訊新聞年度優質熱問答主

      2023搜狐新聞年度優質創作者

      人人都是產品經理2023年度優秀作者

      2023網易新聞年度內容合伙人

      界面、36氪、鈦媒體、澎湃、21財經、藍鯨、老虎財經等平臺專欄認證作者

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鄭麗文訪陸不按常理出牌,6天3城全在布局,兩岸未來即將被改寫

      鄭麗文訪陸不按常理出牌,6天3城全在布局,兩岸未來即將被改寫

      北緯的咖啡豆
      2026-04-11 09:59:38
      歐爾班選舉慘敗,馬扎爾黨獲141席,執政16年恐結束

      歐爾班選舉慘敗,馬扎爾黨獲141席,執政16年恐結束

      璀璨幻行者
      2026-04-11 03:13:24
      伊朗媒體披露伊方代表團首日日程

      伊朗媒體披露伊方代表團首日日程

      新華社
      2026-04-11 06:35:02
      刺激!深圳有人年初買房已經賺了100萬!

      刺激!深圳有人年初買房已經賺了100萬!

      樓市滅霸
      2026-04-10 13:27:25
      鄭麗文女保鏢火了!她的眼神讓全場震驚。

      鄭麗文女保鏢火了!她的眼神讓全場震驚。

      小貓娛樂叭叭
      2026-04-09 21:03:31
      震驚!網傳山東梁山一女子聚集多人威逼男方給20萬彩禮,眾人圍觀

      震驚!網傳山東梁山一女子聚集多人威逼男方給20萬彩禮,眾人圍觀

      火山詩話
      2026-04-11 06:41:36
      照顧患癌母親的24歲女研究生確診腸癌晚期:已收到愛心捐款10余萬元,病情穩定期盼返校

      照顧患癌母親的24歲女研究生確診腸癌晚期:已收到愛心捐款10余萬元,病情穩定期盼返校

      紅星新聞
      2026-04-10 16:55:18
      中東迎來關鍵24小時:伊朗額外提了兩個條件,特朗普邊談邊增兵

      中東迎來關鍵24小時:伊朗額外提了兩個條件,特朗普邊談邊增兵

      阿芒娛樂說
      2026-04-11 09:23:47
      辱罵全紅嬋的徐某究竟是誰?一個普通愛好者 竟能拉業內人士進群

      辱罵全紅嬋的徐某究竟是誰?一個普通愛好者 竟能拉業內人士進群

      念洲
      2026-04-11 09:39:26
      53條中日航線3月取消全部航班

      53條中日航線3月取消全部航班

      第一財經資訊
      2026-04-10 12:59:47
      賴清德做夢也想不到,鄭麗文只用6天時間,或扭轉國民黨20年頹勢

      賴清德做夢也想不到,鄭麗文只用6天時間,或扭轉國民黨20年頹勢

      肖茲探秘說
      2026-04-10 18:09:23
      以色列,終成人類公敵!

      以色列,終成人類公敵!

      燕梳樓頻道
      2026-04-10 15:02:39
      標120W的充電器實際功率僅22.5W,商家:120W是產品型號

      標120W的充電器實際功率僅22.5W,商家:120W是產品型號

      極目新聞
      2026-04-11 00:53:31
      美以稱伊導彈系統損毀過半但可修復

      美以稱伊導彈系統損毀過半但可修復

      界面新聞
      2026-04-11 09:23:19
      長得一模一樣!男籃U18新星李沂澤疑似換名字、年齡改小2歲!

      長得一模一樣!男籃U18新星李沂澤疑似換名字、年齡改小2歲!

      籃球大圖
      2026-04-11 09:52:02
      53條中日航線3月取消全部航班

      53條中日航線3月取消全部航班

      每日經濟新聞
      2026-04-10 13:01:04
      巴基斯坦被激怒!出動大量中械裝備,以色列若膽敢妄動,一律擊落

      巴基斯坦被激怒!出動大量中械裝備,以色列若膽敢妄動,一律擊落

      面包夾知識
      2026-04-11 00:23:27
      鎖定季后賽!老鷹大勝送騎士鎖定第四 哈登10000罰球里程碑

      鎖定季后賽!老鷹大勝送騎士鎖定第四 哈登10000罰球里程碑

      醉臥浮生
      2026-04-11 09:30:56
      17人缺席!掘金大勝雷霆11連勝創約基奇時代紀錄 瓦蘭23+17

      17人缺席!掘金大勝雷霆11連勝創約基奇時代紀錄 瓦蘭23+17

      醉臥浮生
      2026-04-11 11:11:22
      比亞迪9分鐘閃充惹眾怒,奇瑞、蔚來等老總為何集體力挺換電?

      比亞迪9分鐘閃充惹眾怒,奇瑞、蔚來等老總為何集體力挺換電?

      老特有話說
      2026-04-08 13:18:01
      2026-04-11 11:32:49
      唐辰同學 incentive-icons
      唐辰同學
      關注互聯網科技及商業故事。
      440文章數 37關注度
      往期回顧 全部

      科技要聞

      阿爾忒彌斯2號成功濺落,隔熱罩驚險過關

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      黃景瑜王玉雯否認戀情!聚會細節被扒

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      手機
      藝術
      數碼
      本地
      公開課

      手機要聞

      華為乾崑智駕大賽收官:三人并列第一 獲獎三折疊手機

      藝術要聞

      你絕對想不到,毛主席的書法珍品竟然被遺棄過!

      數碼要聞

      聯想推出2026款來酷斗戰者“戰7000”筆記本,7699元起

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版