<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      科研寫作神器,超越Mathpix的科學公式提取工具已開源

      0
      分享至



      LaTeX公式的光學字符識別(OCR)是科學文獻數字化與智能處理的基礎環節,盡管該領域取得了一定進展,現有方法在真實科學文獻處理時仍面臨諸多挑戰:

      其一,主流方法及公開數據集多聚焦于結構簡單、符號單一的公式,難以覆蓋多學科、高難度的復雜公式;其二,實際文檔中廣泛存在的多行公式、長公式、分段公式及頁面級復雜排版等情況尚未得到充分關注與處理;其三,大多數方法依賴專用模型,通常需要針對特定任務進行專門設計,難以實現通用性和擴展性。

      針對上述挑戰,DocTron 團隊提出了系統性解決方案。

      首先,針對現有數據集覆蓋面有限、結構單一的問題,構建了涵蓋多學科、多結構的大規模高難度數據集CSFormula,包含行級、段落級和頁面級的復雜排版。

      其次,團隊提出的DocTron-Formula 模型突破了對特定結構建模的依賴,采用通用大模型驅動的復雜公式識別方法,僅需簡單微調即可適配多樣化應用場景。

      最后,相比于最優的定制化公式識別模型,該方法不僅在主流的開源評測中取得了優秀的性能表現,在實際應用中常見的頁面級、段落級復雜排版場景中也取得了顯著優勢,推動了公式識別的應用邊界。



      DocTron 是一個在通用視覺語言模型架構上實現結構化內容解析和理解的開源項目,而無需定制化的模塊開發,覆蓋通用文檔、學科公式、圖表代碼等場景。

      • 論文標題:DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
      • 論文鏈接:https://arxiv.org/abs/2508.00311
      • Github 鏈接:https://github.com/DocTron-hub/DocTron-Formula
      • 項目開源地址:https://huggingface.co/DocTron

      創新點與技術突破



      (1)高難度多結構數據集構建。研究團隊自主設計高效的數據采集與處理流程,系統性地從高質量學術資源中收集、清洗并整理了大量多學科的復雜公式樣本,構建了 CSFormula 數據集。

      該數據集涵蓋數學、物理、化學等領域,包含行級、段落級和頁面級的復雜排版,更真實地反映了文獻中公式的多樣性與挑戰性,為模型訓練與評測提供了堅實基礎。

      (2)通用大模型驅動的復雜公式識別。研究團隊突破了對結構定制和專用架構的依賴,直接利用 Qwen2.5-VL 等通用大規模多模態預訓練模型,并通過在高難度數據集上的有監督微調實現領域適配。

      實驗結果表明,大模型憑借強大的知識遷移和結構泛化能力,僅需簡單微調即可在復雜場景下取得 SOTA 性能,無需繁瑣的工程設計或人工規則,顯著提升了復雜公式識別的通用性和實用性。

      實驗結果與性能表現



      實驗結果顯示,DocTron-Formula 在各類公開基準測試及自建 LaTeX 公式識別數據集上均表現出色。在編輯距離和 CDM 兩個指標下,不僅超越了現有專業工具 Mathpix,在多個任務上也優于 GPT-4o 和 Gemini-2.5-flash 等主流閉源大模型。

      研究意義與應用前景

      本研究不僅推動了復雜公式識別技術的發展,也為相關領域開辟了新的研究思路:

      • 首次系統構建了覆蓋多學科、多結構的大規模高難度數據集 CSFormula,為復雜公式識別的模型訓練和評測提供了堅實的數據支撐;
      • 驗證了通用大模型(如 Qwen2.5-VL)在復雜公式識別任務中的強大適應性和泛化能力,顯著簡化了模型開發流程,減少了對專用設計和人工規則的依賴;

      在應用層面,DocTron-Formula 有望服務于科學文獻解析、學術知識檢索和教育資源智能化等多元場景,為科研、教育和信息服務等領域的自動化與智能化提供有力支撐。

      結論

      DocTron-Formula推動了學科公式理解在行級、段落級、頁面級復雜排版場景的應用,強調無需定制化的算法模塊,通過高質量數據的構建和通用模型訓練,實現開源評測和現實應用評測的全面提升。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬興全與他的深圳生意

      馬興全與他的深圳生意

      法經網
      2025-12-15 17:52:35
      何晴去世后續:同學曝其生前諸多苦惱,兒子出生戶口不能上自己家

      何晴去世后續:同學曝其生前諸多苦惱,兒子出生戶口不能上自己家

      古希臘掌管月桂的神
      2025-12-15 09:52:22
      爭議!總決賽不和諧一幕:王曼昱4-2奪冠僅2個小時,球迷留言不滿

      爭議!總決賽不和諧一幕:王曼昱4-2奪冠僅2個小時,球迷留言不滿

      大秦壁虎白話體育
      2025-12-15 10:43:06
      又放大招了!為鼓勵生孩,2026年實施生孩“零自付”,評論區炸鍋

      又放大招了!為鼓勵生孩,2026年實施生孩“零自付”,評論區炸鍋

      火山詩話
      2025-12-15 18:11:48
      大家如何看待“吃瓜蒙主”現象呢?我來說說,我自己的三點看法!

      大家如何看待“吃瓜蒙主”現象呢?我來說說,我自己的三點看法!

      翻開歷史和現實
      2025-12-14 00:27:30
      持續五個多小時,美國特使稱美烏會談取得“重大進展”!澤連斯基:同意接受類似“北約第五條”安全保障!俄方發聲

      持續五個多小時,美國特使稱美烏會談取得“重大進展”!澤連斯基:同意接受類似“北約第五條”安全保障!俄方發聲

      每日經濟新聞
      2025-12-15 07:04:11
      中方發出唁電,美國全國將降半旗,拜登籌劃國葬

      中方發出唁電,美國全國將降半旗,拜登籌劃國葬

      趣生活
      2025-12-15 20:12:25
      利潤20倍,成本70賣上千!央視再曝光新騙局,已經大量老百姓上當

      利潤20倍,成本70賣上千!央視再曝光新騙局,已經大量老百姓上當

      法老不說教
      2025-12-16 01:10:07
      交警確認:杭州小米交付中心發生車禍

      交警確認:杭州小米交付中心發生車禍

      第一財經資訊
      2025-12-15 20:51:01
      61歲演員何晴去世,好友公開住院照,瘦了很多,變化太大難認出

      61歲演員何晴去世,好友公開住院照,瘦了很多,變化太大難認出

      180視角
      2025-12-14 17:06:13
      小米交付中心發生車禍,最新回應

      小米交付中心發生車禍,最新回應

      澎湃新聞
      2025-12-15 23:56:03
      不到48小時,中企承建大橋被炸,泰軍方封海,特朗普的調解已失敗

      不到48小時,中企承建大橋被炸,泰軍方封海,特朗普的調解已失敗

      策略述
      2025-12-15 21:19:50
      24歲許何悼念母親,曝何晴臨終前狀態,哽咽說悼詞看哭網友!

      24歲許何悼念母親,曝何晴臨終前狀態,哽咽說悼詞看哭網友!

      古希臘掌管月桂的神
      2025-12-15 17:40:53
      瘋了!單場4紅牌!豪門15輪不勝+墊底!賽后全隊沉默抗議

      瘋了!單場4紅牌!豪門15輪不勝+墊底!賽后全隊沉默抗議

      足球大號
      2025-12-15 14:58:49
      中國紅十字會:全國累計登記人體器官捐獻者已超728萬人

      中國紅十字會:全國累計登記人體器官捐獻者已超728萬人

      紅星新聞
      2025-12-15 23:03:50
      震驚!網傳寧波餐飲老板集體“斷外賣”,本以為自尋死路結果爆火

      震驚!網傳寧波餐飲老板集體“斷外賣”,本以為自尋死路結果爆火

      火山詩話
      2025-12-15 05:40:15
      CBA瘋狂一夜!廣廈慘敗遼籃,北京破紀錄大勝新疆,青島兩連勝

      CBA瘋狂一夜!廣廈慘敗遼籃,北京破紀錄大勝新疆,青島兩連勝

      多特體育說
      2025-12-15 21:51:47
      全網沸騰!2025式新警服正式亮相!細節更是藏著太多務實與暖心

      全網沸騰!2025式新警服正式亮相!細節更是藏著太多務實與暖心

      老特有話說
      2025-12-16 02:20:03
      霉霉發近2億獎金,團隊當場哭成一片,全網打工人破防

      霉霉發近2億獎金,團隊當場哭成一片,全網打工人破防

      胡嚴亂語
      2025-12-15 15:48:25
      孫穎莎王楚欽剛退賽,壞消息又來了

      孫穎莎王楚欽剛退賽,壞消息又來了

      最愛乒乓球
      2025-12-15 08:36:58
      2025-12-16 06:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11925文章數 142511關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      交警確認小米交付中心發生車禍 小米內部人士回應

      頭條要聞

      交警確認小米交付中心發生車禍 小米內部人士回應

      體育要聞

      戰勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現場,前夫許亞軍雙眼泛紅?

      財經要聞

      新農合漲到400元 農民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態度原創

      親子
      游戲
      數碼
      公開課
      軍事航空

      親子要聞

      寶寶為啥一出門就不鬧了?真相不是“看新鮮”,90%家長沒琢磨透

      當手機能自動清每日任務,玩家天天上線是為了什么?

      數碼要聞

      藍寶石喊話AMD等GPU制造商:給我們芯片和顯存,放開設計自由

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基稱烏方已妥協不加入北約 俄方發聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嘉祥县| 亚洲一区黄色| 国产资源视频| 自拍偷拍第一页| 性xxxx欧美老妇胖老太性多毛| 韩国日本三级在线观看 | 99国产精品欧美一区二区三区| 夊夊夊夂夂夂夂夂夂夂亚洲亚洲亚洲亚洲色色色 | 亚洲精品日韩在线丰满| 内射在线播放| 鹤岗市| 红桃视频成人传媒| 国产亚洲AV| 亚洲VA| 当阳市| 国产在线拍揄自揄拍无码视频| 在线免费不卡视频| 蜜臂AV| 777精品成人a?v久久| 久久亚洲V无码专区成人| 中文毛片无遮挡高潮免费| 亚洲av片在线免费观看| 日本久久中文字幕| 唐海县| 黄瓜视频在线观看| 人妻中文字幕在线视频无码| 综合Av| 99国产三级| 又大又粗欧美黑人aaaaa片| 亚洲最大有声小说AV网| 日日噜噜夜夜久久亚洲一区二区| 亚洲欧洲无码线中字幕| 国产女同疯狂作爱系列| 亚洲AV无码国产永久播放蜜芽| 亚洲中文视频| 欧美?日韩?人妻| 韩国无码av片在线观看网站| 樱桃视频影院在线播放| http://m.hzhuiwan.cn/| 正在播放东北夫妻内射| www片香蕉内射在线88av8|