<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型 OCR 的黃金時代,騰訊開源混元OCR,文檔解析、視覺問答和翻譯方面達到 SOTA

      0
      分享至



      大家好,我是 Ai 學習的老章

      大模型 OCR 的黃金時代來了,小紅書 dots.ocr-3b、deepseek-ocr-3b、阿里 qwen3-vl-2b、百度 paddleocr-vl-0.9B......

      模型越做越小,精度越來越高

      剛剛,OCR 領域迎來新選手,騰訊的文檔理解模型——混元 OCR 開源了


      端到端訓推一體:不同于其他開源的 OCR 專家模型或系統,HunyuanOCR 模型的訓練和推理均采用全端到端范式。通過規模化的高質量應用導向數據,結合在線強化學習,模型表現出了非常穩健的端到端推理能力,有效規避了級聯方案常見的相關誤差累積問題


      • 在文檔解析、視覺問答和翻譯方面達到 SOTA

      • 1B 參數,端到端運行,大幅降低了部署成本

      在 OCR Bench 數據集上實現了 3B 參數以下模型的 SOTA 分數(860),并在復雜文檔解析的 OmniDocBench 數據集上取得了領先的 94.1 分

      一個很離譜的成績是 HunyuanOCR 僅使用 1B 參數量,在拍照翻譯任務上取得了與 Qwen3-VL-235B 相當的效果。

      它可以處理街道視圖、手寫體、藝術文本的文字識別,復雜文檔處理(HTML/LaTeX 中的表格/公式),視頻字幕提取,以及端到端的照片翻譯(支持 14 種語言)


      放幾個高清的案例







      最后這個案例,后面做論文翻譯,又有新玩法了

      官方提供了不同任務下的提示詞模板


      任務提示詞

      檢測與識別

      檢測并識別圖片中的文字,將文本坐標格式化輸出

      解析

      ? 識別圖片中的公式,用 LaTeX 格式表示
      ? 把圖中的表格解析為 HTML
      ? 解析圖中的圖表,對于流程圖使用 Mermaid 格式表示,其他圖表使用 Markdown 格式表示。
      ? 提取文檔圖片中正文的所有信息用 markdown 格式表示,其中頁眉、頁腳部分忽略,表格用 html 格式表達,文檔中公式用 latex 格式表示,按照閱讀順序組織進行解析

      信息抽取

      ? 輸出 Key 的值
      ? 提取圖片中的:['key1','key2', ...] 的字段內容,并按照 JSON 格式返回
      ? 提取圖片中的字幕

      翻譯

      先提取文字,再將文字內容翻譯為英文。若是文檔,則其中頁眉、頁腳忽略。公式用 latex 格式表示,表格用 html 格式表示


      在線體驗

      https://huggingface.co/spaces/tencent/HunyuanOCR


      我試了一下,拍照圖片 + 雙排顯示 + 公式、圖表情況下,識別的蠻精準的


      看前端樣式是用 Gradio 實現的,如果模型本地化部署了的話,可以直接把代碼 copy 下來,python 運行就能在本機實現這個應用了

      代碼:https://huggingface.co/spaces/tencent/HunyuanOCR/blob/main/app.py

      功能上挺齊全的:多場景文字檢測與識別、多粒度文檔解析、卡證票據識別和結構化輸出、視覺問答、跨語言翻譯


      本地部署

      模型文件只有 2GB,比 DeepSeek-OCR 的 6.7GB 小太多了

      不過我看 HunyuanOCR@GitHub 的 README 中寫需要 GPU 顯存是 80GB,有點離譜啊

      它會不會把顯存和硬盤容量搞反了?


      國內鏡像:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR


      https://huggingface.co/tencent/HunyuanOCR

      官方建議 vLLM 部署模型以獲取更好的推理性能和精度,因為 Transformers 相比 vLLM 框架存在一定的性能下滑

      但是目前只能安裝 vLLM nightly 了,穩定版的 vLLM 要支持 HunyuanOCR 估計需要 v0.11.3 了

      pip install vllm --extra-index-url https://wheels.vllm.ai/nightly

      在線推理

      vllm serve tencent/HunyuanOCR \
      --no-enable-prefix-caching \
      --mm-processor-cache-gb 0

      OpenAI API 接口調用

      from openai import OpenAI

      client = OpenAI(
      api_key="EMPTY",
      base_url="http://localhost:8000/v1",
      timeout=3600
      )

      messages = [
      {
      "role": "user",
      "content": [
      {
      "type": "image_url",
      "image_url": {
      "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/chat-ui/tools-dark.png"
      }
      },
      {
      "type": "text",
      "text": (
      "Extract all information from the main body of the document image "
      "and represent it in markdown format, ignoring headers and footers."
      "Tables should be expressed in HTML format, formulas in the document "
      "should be represented using LaTeX format, and the parsing should be "
      "organized according to the reading order."
      )
      }
      ]
      }
      ]

      response = client.chat.completions.create(
      model="tencent/HunyuanOCR",
      messages=messages,
      temperature=0.0,
      )
      print(f"Generated text: {response.choices[0].message.content}")

      我實測的話,模型已下載,準備等 vLLM:v0.11.3 出來之后了


      參考:
      官方簡介:https://hunyuan.tencent.com/vision/zh?tabIndex=0
      HunyuanOCR 項目 README:https://huggingface.co/tencent/HunyuanOCR
      vLLM 官方文檔:https://docs.vllm.ai/projects/recipes/en/latest/Tencent-Hunyuan/HunyuanOCR.html

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張雪:我以前挺喜歡雷軍,挖孔機蓋事件我會給消費者兩個選擇

      張雪:我以前挺喜歡雷軍,挖孔機蓋事件我會給消費者兩個選擇

      金融界
      2026-03-30 17:38:20
      日本8艘宙斯盾艦全改戰斧!射程覆蓋北京上海,威脅中國腹地!

      日本8艘宙斯盾艦全改戰斧!射程覆蓋北京上海,威脅中國腹地!

      詩酒趁的年華
      2026-04-01 05:01:12
      蘋果把M5 MacBook Pro降價15%上架

      蘋果把M5 MacBook Pro降價15%上架

      摸魚算法
      2026-04-02 09:47:10
      Steam大更新:商店大變!玩家好評如潮

      Steam大更新:商店大變!玩家好評如潮

      游民星空
      2026-04-02 11:45:19
      特朗普宣稱已掏空世界最強大國家,伊朗迅速發射大規模導彈

      特朗普宣稱已掏空世界最強大國家,伊朗迅速發射大規模導彈

      兵國大事
      2026-04-02 16:30:24
      有一種貧窮人格:習慣性否定

      有一種貧窮人格:習慣性否定

      洞見
      2026-03-26 09:14:24
      多名院士研究發現:吃一塊桃酥,就等于吃兩勺糖,真的假的?

      多名院士研究發現:吃一塊桃酥,就等于吃兩勺糖,真的假的?

      蜉蝣說
      2026-04-02 09:16:24
      鄭麗文帶核心六人來留下兩老將坐鎮,76歲張榮恭也要爬階拜謁

      鄭麗文帶核心六人來留下兩老將坐鎮,76歲張榮恭也要爬階拜謁

      小影的娛樂
      2026-04-02 12:09:42
      2026年世界杯歷史性時刻:8支阿拉伯球隊成功晉級!

      2026年世界杯歷史性時刻:8支阿拉伯球隊成功晉級!

      球天下資訊
      2026-04-01 23:53:53
      王傳君夫妻疑街頭爭吵!齊溪全程皺眉咄咄逼人,膀大腰圓像是保鏢

      王傳君夫妻疑街頭爭吵!齊溪全程皺眉咄咄逼人,膀大腰圓像是保鏢

      洲洲影視娛評
      2026-04-01 19:20:27
      央視直播乒乓球時間表:4月2日CCTV5節目單,國乒沖擊8強!

      央視直播乒乓球時間表:4月2日CCTV5節目單,國乒沖擊8強!

      皮皮觀天下
      2026-04-02 08:34:35
      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      太可憐了!2張照片,幾乎就是張雪峰人生的最後定格

      魔都姐姐雜談
      2026-03-28 04:04:21
      美以襲伊月余,阿拉伯國家損失超千億美元!阿聯酋或成首個對伊直接參戰海灣國

      美以襲伊月余,阿拉伯國家損失超千億美元!阿聯酋或成首個對伊直接參戰海灣國

      紅星新聞
      2026-04-01 13:04:24
      從高點暴跌20%!華爾街預言:金價將復制2008年,3年暴漲178%

      從高點暴跌20%!華爾街預言:金價將復制2008年,3年暴漲178%

      阿鳧愛吐槽
      2026-04-02 09:01:25
      西媒:特朗普“受挫名單”暴露美國實力上限

      西媒:特朗普“受挫名單”暴露美國實力上限

      參考消息
      2026-04-02 16:37:05
      男子陰莖癌晚期,夫妻生活一向干凈,妻子:他就是改不了這個習慣

      男子陰莖癌晚期,夫妻生活一向干凈,妻子:他就是改不了這個習慣

      路醫生健康科普
      2026-02-04 06:00:03
      盡管特朗普威脅退出北約,但想辦到還是有難度的

      盡管特朗普威脅退出北約,但想辦到還是有難度的

      山河路口
      2026-04-02 15:23:16
      速效救心丸立大功!醫生發現:老人吃速效救心丸,能緩解4種癥狀

      速效救心丸立大功!醫生發現:老人吃速效救心丸,能緩解4種癥狀

      路醫生健康科普
      2026-03-25 23:35:03
      老婆月薪19000卻不幫我弟還房貸,我一氣之下提離婚,她反應我愣了

      老婆月薪19000卻不幫我弟還房貸,我一氣之下提離婚,她反應我愣了

      匹夫來搞笑
      2026-04-02 14:31:01
      爆發!場均19+10+三分52.9%,6換2血賺,最強幫手,華子等到了

      爆發!場均19+10+三分52.9%,6換2血賺,最強幫手,華子等到了

      球童無忌
      2026-04-02 16:26:12
      2026-04-02 17:32:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3303文章數 11122關注度
      往期回顧 全部

      科技要聞

      三年虧20億,最新估值58億,Xreal沖刺港股

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      頭條要聞

      外媒稱伊朗已向中國尋求安全保障 外交部回應

      體育要聞

      這六個字,代表了邵佳一的新國足

      娛樂要聞

      宋寧峰帶女兒出軌,張婉婷找董璇哭訴

      財經要聞

      電商售械三水光針 機構倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態度原創

      本地
      房產
      手機
      家居
      公開課

      本地新聞

      從學徒到世界冠軍,為什么說張雪的底氣在重慶?

      房產要聞

      大反轉!海口今年首宗重磅江景地塊,拍賣突然終止!

      手機要聞

      一加首發魔改版天璣9500:直接修改GPU底層調度 性能大爆發

      家居要聞

      歲月靜好 典雅新章

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版