DeepSeek 最新開源OCR模型,實(shí)測(cè),不如百度
一個(gè)強(qiáng)大的開源OCR工具,基于DeepSeek OCR
DeepSeek之后,清華和智譜AI提出“視覺壓縮”新范式
DeepSeek-OCR桌面客戶端,Windows用戶優(yōu)先體驗(yàn)
現(xiàn)有的 LLMs 在處理長(zhǎng)輸入時(shí)表現(xiàn)不佳,因?yàn)樗鼈冎荒芴幚砉潭〝?shù)量的 token,即所謂的上下文窗口,而且隨著輸入變長(zhǎng),注意力成本會(huì)迅速增加。
DeepSeek-OCR 采用了一種全新的方法。
它不是將長(zhǎng)上下文直接發(fā)送給 LLM,而是先將其轉(zhuǎn)換為圖像,再將該圖像壓縮為視覺 token,然后將這些 token 傳遞給 LLM。
更少的 token 可以降低注意力計(jì)算成本,并擴(kuò)大有效上下文窗口,使聊天機(jī)器人和文檔模型更強(qiáng)大、更高效。
DeepSeek-OCR 是如何構(gòu)建的?該系統(tǒng)主要由兩部分組成:
1. 編碼器:處理文本圖像,提取視覺特征,并將其壓縮為少量視覺 token。
2. 解碼器:一個(gè)混合專家語言模型,讀取這些 token 并逐一生成文本,類似于標(biāo)準(zhǔn)的僅解碼器 Transformer。
何時(shí)使用它?
DeepSeek-OCR 表明,文本可以通過視覺表示進(jìn)行高效壓縮。
它特別適用于處理超出標(biāo)準(zhǔn)上下文限制的極長(zhǎng)文檔。你可以將其用于上下文壓縮、標(biāo)準(zhǔn) OCR 任務(wù),或深度解析,例如將表格和復(fù)雜版式轉(zhuǎn)換為文本。
15 張數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)速查表-用單頁圖表總結(jié)必須掌握的重要概念與技術(shù)
史上最全!371張速查表,涵蓋AI、ChatGPT、Python、R、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.