<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型 OCR 的黃金時代,騰訊開源混元OCR,文檔解析、視覺問答和翻譯方面達到 SOTA

      0
      分享至



      大家好,我是 Ai 學習的老章

      大模型 OCR 的黃金時代來了,小紅書 dots.ocr-3b、deepseek-ocr-3b、阿里 qwen3-vl-2b、百度 paddleocr-vl-0.9B......

      模型越做越小,精度越來越高

      剛剛,OCR 領域迎來新選手,騰訊的文檔理解模型——混元 OCR 開源了


      端到端訓推一體:不同于其他開源的 OCR 專家模型或系統,HunyuanOCR 模型的訓練和推理均采用全端到端范式。通過規模化的高質量應用導向數據,結合在線強化學習,模型表現出了非常穩健的端到端推理能力,有效規避了級聯方案常見的相關誤差累積問題


      • 在文檔解析、視覺問答和翻譯方面達到 SOTA

      • 1B 參數,端到端運行,大幅降低了部署成本

      在 OCR Bench 數據集上實現了 3B 參數以下模型的 SOTA 分數(860),并在復雜文檔解析的 OmniDocBench 數據集上取得了領先的 94.1 分

      一個很離譜的成績是 HunyuanOCR 僅使用 1B 參數量,在拍照翻譯任務上取得了與 Qwen3-VL-235B 相當的效果。

      它可以處理街道視圖、手寫體、藝術文本的文字識別,復雜文檔處理(HTML/LaTeX 中的表格/公式),視頻字幕提取,以及端到端的照片翻譯(支持 14 種語言)


      放幾個高清的案例







      最后這個案例,后面做論文翻譯,又有新玩法了

      官方提供了不同任務下的提示詞模板


      任務提示詞

      檢測與識別

      檢測并識別圖片中的文字,將文本坐標格式化輸出

      解析

      ? 識別圖片中的公式,用 LaTeX 格式表示
      ? 把圖中的表格解析為 HTML
      ? 解析圖中的圖表,對于流程圖使用 Mermaid 格式表示,其他圖表使用 Markdown 格式表示。
      ? 提取文檔圖片中正文的所有信息用 markdown 格式表示,其中頁眉、頁腳部分忽略,表格用 html 格式表達,文檔中公式用 latex 格式表示,按照閱讀順序組織進行解析

      信息抽取

      ? 輸出 Key 的值
      ? 提取圖片中的:['key1','key2', ...] 的字段內容,并按照 JSON 格式返回
      ? 提取圖片中的字幕

      翻譯

      先提取文字,再將文字內容翻譯為英文。若是文檔,則其中頁眉、頁腳忽略。公式用 latex 格式表示,表格用 html 格式表示


      在線體驗

      https://huggingface.co/spaces/tencent/HunyuanOCR


      我試了一下,拍照圖片 + 雙排顯示 + 公式、圖表情況下,識別的蠻精準的


      看前端樣式是用 Gradio 實現的,如果模型本地化部署了的話,可以直接把代碼 copy 下來,python 運行就能在本機實現這個應用了

      代碼:https://huggingface.co/spaces/tencent/HunyuanOCR/blob/main/app.py

      功能上挺齊全的:多場景文字檢測與識別、多粒度文檔解析、卡證票據識別和結構化輸出、視覺問答、跨語言翻譯


      本地部署

      模型文件只有 2GB,比 DeepSeek-OCR 的 6.7GB 小太多了

      不過我看 HunyuanOCR@GitHub 的 README 中寫需要 GPU 顯存是 80GB,有點離譜啊

      它會不會把顯存和硬盤容量搞反了?


      國內鏡像:https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR


      https://huggingface.co/tencent/HunyuanOCR

      官方建議 vLLM 部署模型以獲取更好的推理性能和精度,因為 Transformers 相比 vLLM 框架存在一定的性能下滑

      但是目前只能安裝 vLLM nightly 了,穩定版的 vLLM 要支持 HunyuanOCR 估計需要 v0.11.3 了

      pip install vllm --extra-index-url https://wheels.vllm.ai/nightly

      在線推理

      vllm serve tencent/HunyuanOCR \
      --no-enable-prefix-caching \
      --mm-processor-cache-gb 0

      OpenAI API 接口調用

      from openai import OpenAI

      client = OpenAI(
      api_key="EMPTY",
      base_url="http://localhost:8000/v1",
      timeout=3600
      )

      messages = [
      {
      "role": "user",
      "content": [
      {
      "type": "image_url",
      "image_url": {
      "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/chat-ui/tools-dark.png"
      }
      },
      {
      "type": "text",
      "text": (
      "Extract all information from the main body of the document image "
      "and represent it in markdown format, ignoring headers and footers."
      "Tables should be expressed in HTML format, formulas in the document "
      "should be represented using LaTeX format, and the parsing should be "
      "organized according to the reading order."
      )
      }
      ]
      }
      ]

      response = client.chat.completions.create(
      model="tencent/HunyuanOCR",
      messages=messages,
      temperature=0.0,
      )
      print(f"Generated text: {response.choices[0].message.content}")

      我實測的話,模型已下載,準備等 vLLM:v0.11.3 出來之后了


      參考:
      官方簡介:https://hunyuan.tencent.com/vision/zh?tabIndex=0
      HunyuanOCR 項目 README:https://huggingface.co/tencent/HunyuanOCR
      vLLM 官方文檔:https://docs.vllm.ai/projects/recipes/en/latest/Tencent-Hunyuan/HunyuanOCR.html

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國批準稀土出口,日媒歡呼:對華反制措施見效,下一秒遭打臉

      中國批準稀土出口,日媒歡呼:對華反制措施見效,下一秒遭打臉

      書紀文譚
      2026-02-10 18:32:15
      上海洗浴中心成新頂流,俄羅斯美女博主被圈粉,還有海外游客專門飛來打卡

      上海洗浴中心成新頂流,俄羅斯美女博主被圈粉,還有海外游客專門飛來打卡

      界面新聞
      2026-02-11 18:31:08
      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      四川成都一佳人好漂亮, 身高169cm,體重48kg 美的讓人移不開眼

      喜歡歷史的阿繁
      2026-02-07 14:21:17
      退伍回村救了個落水女人,2天后縣長突然來電:明天來我辦公室

      退伍回村救了個落水女人,2天后縣長突然來電:明天來我辦公室

      秋風專欄
      2025-08-13 15:54:55
      頭部朝下落地!中國33歲冬奧老將出意外:被抬出雪場 目前意識清醒

      頭部朝下落地!中國33歲冬奧老將出意外:被抬出雪場 目前意識清醒

      風過鄉
      2026-02-11 20:52:27
      女子8年拒絕8次男友求婚,男友無奈另娶她人,女友:憑什么?

      女子8年拒絕8次男友求婚,男友無奈另娶她人,女友:憑什么?

      小蔣愛嘮嗑
      2026-02-11 05:33:41
      特朗普下達最后通牒,要求臺當局立即付款,否則將取消對臺軍售

      特朗普下達最后通牒,要求臺當局立即付款,否則將取消對臺軍售

      東極妙嚴
      2026-02-11 12:54:31
      亞馬爾連續5場破門+西甲24球,打破梅西和姆巴佩兩項紀錄

      亞馬爾連續5場破門+西甲24球,打破梅西和姆巴佩兩項紀錄

      晚霧空青
      2026-02-11 08:41:59
      從一晚三千到無人接盤,五星級酒店集體被甩賣,這場泡沫該誰買單

      從一晚三千到無人接盤,五星級酒店集體被甩賣,這場泡沫該誰買單

      青眼財經
      2026-01-19 23:37:28
      萬斯:伊朗人民想推翻政權,那得靠他們自己

      萬斯:伊朗人民想推翻政權,那得靠他們自己

      桂系007
      2026-02-11 23:38:09
      笑麻了!以為兩人相伴了一輩子,其實厭煩了幾十年!

      笑麻了!以為兩人相伴了一輩子,其實厭煩了幾十年!

      墻頭草
      2026-02-09 16:37:03
      生圖能打!孟子義青島逛街被偶遇,路人驚呼:白到發光比精修還美

      生圖能打!孟子義青島逛街被偶遇,路人驚呼:白到發光比精修還美

      心靈得以滋養
      2026-02-11 21:50:42
      女演員千萬別整容!看《夜色正濃》里40歲江疏影和36歲藍盈瑩

      女演員千萬別整容!看《夜色正濃》里40歲江疏影和36歲藍盈瑩

      章眽八卦
      2026-02-11 12:40:57
      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      就一點
      2025-11-22 10:36:39
      我去!塔圖姆被下放了?。?>
    </a>
        <h3>
      <a href=我去!塔圖姆被下放了!! 柚子說球
      2026-02-11 17:20:08
      利物浦遭重創!后場萬金油被擔架抬下 面臨長期傷停

      利物浦遭重創!后場萬金油被擔架抬下 面臨長期傷停

      球事百科吖
      2026-02-12 07:23:26
      3人共禁賽13場!這大概是年度最兇沖突了!

      3人共禁賽13場!這大概是年度最兇沖突了!

      柚子說球
      2026-02-12 07:52:13
      這跟不穿有什么區別?王楚然裙子太短露膚度極高,胡意旋身材曼妙

      這跟不穿有什么區別?王楚然裙子太短露膚度極高,胡意旋身材曼妙

      樂悠悠娛樂
      2026-02-10 12:44:32
      比賭博還狠的“隱形毒藥”,正慢慢掏空中國家庭,無數人被它拖垮

      比賭博還狠的“隱形毒藥”,正慢慢掏空中國家庭,無數人被它拖垮

      千秋文化
      2026-02-10 20:55:47
      梁朝偉過安檢可憐眼神向劉嘉玲求救前所未見 老婆搞笑反應曝光

      梁朝偉過安檢可憐眼神向劉嘉玲求救前所未見 老婆搞笑反應曝光

      達達哥
      2026-02-10 21:52:25
      2026-02-12 08:35:00
      機器學習與Python社區 incentive-icons
      機器學習與Python社區
      機器學習算法與Python
      3247文章數 11085關注度
      往期回顧 全部

      科技要聞

      Meta將斥資超100億美元建設數據中心

      頭條要聞

      環球:高市"豪賭"大勝 軍工業恐成日本經濟"搖錢樹"

      頭條要聞

      環球:高市"豪賭"大勝 軍工業恐成日本經濟"搖錢樹"

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風波愈演愈烈 超50位明星扎堆

      財經要聞

      廣州前首富被判無期 200億集資窟窿何償

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態度原創

      數碼
      旅游
      教育
      藝術
      軍事航空

      數碼要聞

      初音未來“變臉”耳夾式耳機預售:藍牙6.0/300mAh電池,129元

      旅游要聞

      8萬余株花卉等您來賞 石家莊市植物園新春花展啟幕

      教育要聞

      高考地理中的木本植物擴張

      藝術要聞

      這13個狂草字,您認出幾個?楷書練習多久就可以練行書了?

      軍事要聞

      特朗普:若美伊談判失敗 或再派一支航母打擊群

      無障礙瀏覽 進入關懷版