<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      DeepSeek又拿第一!首創(chuàng)「因果流」視覺(jué)推理,超越Gemini

      0
      分享至


      新智元報(bào)道

      編輯:定慧 好困

      【新智元導(dǎo)讀】DeepSeek開(kāi)源DeepSeek-OCR2,引入了全新的DeepEncoder V2視覺(jué)編碼器。該架構(gòu)打破了傳統(tǒng)模型按固定順序(從左上到右下)掃描圖像的限制,轉(zhuǎn)而模仿人類(lèi)視覺(jué)的「因果流(Causal Flow)」邏輯。

      DeepSeek又雙叒叕更新了!

      這次是DeepSeek-OCR模型的重磅升級(jí):DeepSeek-OCR2


      還記得上一代DeepSeek-OCR嗎?那個(gè)用視覺(jué)方式壓縮一切的模型。

      這一次,DeepSeek更進(jìn)一步,對(duì)視覺(jué)編碼器下手了,提出了一種全新的DeepEncoder V2架構(gòu),實(shí)現(xiàn)了視覺(jué)編碼從「固定掃描」向「語(yǔ)義推理」的范式轉(zhuǎn)變!


      DeepSeek-OCR2不僅能像人類(lèi)一樣按邏輯順序閱讀復(fù)雜文檔,還在多項(xiàng)基準(zhǔn)測(cè)試中刷新了SOTA。

      當(dāng)然,按照DeepSeek的慣例,Paper、Code、Model全開(kāi)源!


      項(xiàng)目地址:

      https://github.com/deepseek-ai/DeepSeek-OCR-2

      模型下載:

      https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

      論文地址:

      https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

      DeepSeek-OCR2的核心創(chuàng)新在于通過(guò)DeepEncoder V2,賦予了模型因果推理能力(Causal Reasoning)

      這就像是給機(jī)器裝上了「人類(lèi)的閱讀邏輯」,讓AI不再只是死板地從左上到右下掃描圖像,而是能根據(jù)內(nèi)容語(yǔ)義靈活調(diào)整閱讀順序。

      DeepSeek-OCR2

      視覺(jué)因果流

      DeepSeek在論文中指出,傳統(tǒng)的視覺(jué)語(yǔ)言模型(VLM)通常采用光柵掃描(Raster-Scan)順序處理圖像,即固定地從左到右、從上到下。

      這種方式強(qiáng)行將2D圖像拍扁成1D序列,忽略了圖像內(nèi)部的語(yǔ)義結(jié)構(gòu)。


      這顯然與人類(lèi)的視覺(jué)習(xí)慣背道而馳。

      人類(lèi)在看圖或閱讀文檔時(shí),目光是隨著邏輯流動(dòng)的:先看標(biāo)題,再看正文,遇到表格會(huì)按列或按行掃視,遇到分欄會(huì)自動(dòng)跳躍。

      為了解決這個(gè)問(wèn)題,DeepSeek-OCR2引入了DeepEncoder V2。

      它最大的特點(diǎn)是用一個(gè)輕量級(jí)的大語(yǔ)言模型(Qwen2-0.5B)替換了原本的CLIP編碼器,并設(shè)計(jì)了一種獨(dú)特的「因果流查詢(xún)」(Causal Flow Query)機(jī)制。

      DeepEncoder V2架構(gòu)詳解

      DeepEncoder V2主要由兩部分組成:

      1. 視覺(jué)分詞器(Vision Tokenizer)

      沿用了SAM-base(80M參數(shù))加卷積層的設(shè)計(jì),將圖像轉(zhuǎn)換為視覺(jué)Token。


      2. 作為視覺(jué)編碼器的LLM

      這里DeepSeek使用了一個(gè)Qwen2-0.5B模型。

      它不僅處理視覺(jué)Token,還引入了一組可學(xué)習(xí)的「查詢(xún)Token」(Query Tokens)。


      關(guān)鍵的創(chuàng)新點(diǎn)在于注意力掩碼(Attention Mask)的設(shè)計(jì):


      視覺(jué)Token之間采用雙向注意力(Bidirectional Attention),保持全局感知能力,類(lèi)似于ViT。

      而查詢(xún)Token則采用因果注意力(Causal Attention),每一個(gè)查詢(xún)Token只能看到它之前的Token。

      通過(guò)這種設(shè)計(jì),DeepEncoder V2實(shí)現(xiàn)了兩級(jí)級(jí)聯(lián)的因果推理:

      編碼器通過(guò)可學(xué)習(xí)的查詢(xún)對(duì)視覺(jué)Token進(jìn)行語(yǔ)義重排,隨后的LLM解碼器則在這個(gè)有序序列上進(jìn)行自回歸推理。

      這意味著,DeepSeek-OCR2在編碼階段就已經(jīng)把圖像里的信息「理順」了,而不是一股腦地扔給解碼器。

      Token更少,精度更高

      實(shí)驗(yàn)數(shù)據(jù)顯示,DeepSeek-OCR2在保持極高壓縮率的同時(shí),性能顯著提升。

      在OmniDocBench v1.5基準(zhǔn)測(cè)試中,DeepSeek-OCR2在使用最少視覺(jué)Token(僅256-1120個(gè))的情況下,綜合得分高達(dá)91.09%,相比前代提升了3.73%。


      特別值得一提的是,在閱讀順序(R-order)的編輯距離(Edit Distance)指標(biāo)上,DeepSeek-OCR2從前代的0.085顯著降低到了0.057。

      這直接證明了新模型在處理復(fù)雜版面時(shí),邏輯性更強(qiáng),更懂「閱讀順序」。

      在和Gemini-3 Pro等閉源強(qiáng)模型的對(duì)比中,DeepSeek-OCR2也絲毫不落下風(fēng)。

      在均使用約1120個(gè)視覺(jué)Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)優(yōu)于Gemini-3 Pro(0.115)。



      不僅是刷榜,DeepSeek-OCR2在實(shí)際生產(chǎn)環(huán)境中也非常能打。

      DeepSeek披露,在處理在線用戶(hù)日志圖像時(shí),OCR結(jié)果的重復(fù)率從6.25%降到了4.17%;在PDF數(shù)據(jù)生產(chǎn)場(chǎng)景中,重復(fù)率從3.69%降到了2.88%。


      這意味著模型生成的文本更加干凈、準(zhǔn)確,對(duì)于作為L(zhǎng)LM訓(xùn)練數(shù)據(jù)的清洗流水線來(lái)說(shuō),價(jià)值巨大。

      邁向真正的多模態(tài)統(tǒng)一

      DeepSeek在論文最后提到,DeepSeek-OCR2通過(guò)DeepEncoder V2驗(yàn)證了「LLM作為視覺(jué)編碼器」的可行性。

      這不僅是一個(gè)OCR模型的升級(jí),更是邁向原生多模態(tài)(Native Multimodality)的重要一步。

      未來(lái),同一個(gè)編碼器只要配備不同的模態(tài)查詢(xún)嵌入(Query Embeddings),就能處理文本、圖片、音頻等多種模態(tài)的數(shù)據(jù),真正實(shí)現(xiàn)萬(wàn)物皆可Token,萬(wàn)物皆可因果推理。

      DeepSeek表示,雖然目前光學(xué)文本識(shí)別(OCR)是LLM時(shí)代最實(shí)用的視覺(jué)任務(wù)之一,但這只是視覺(jué)理解宏大圖景的一小部分。

      DeepSeek將繼續(xù)探索,向著更通用的多模態(tài)智能進(jìn)發(fā)。

      參考資料:

      https://huggingface.co/deepseek-ai/DeepSeek-OCR-2


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      這個(gè)朝代只有10年,卻被膜拜了1000年

      這個(gè)朝代只有10年,卻被膜拜了1000年

      最?lèi)?ài)歷史
      2026-01-27 15:33:55
      上海女教師被丈夫殺害藏尸冰柜105天!盲目追帥哥的代價(jià)太慘痛

      上海女教師被丈夫殺害藏尸冰柜105天!盲目追帥哥的代價(jià)太慘痛

      六目先生
      2026-01-27 07:15:03
      輪胎成為壓垮電車(chē)車(chē)主的稻草,加上超高的保險(xiǎn)費(fèi),省錢(qián)已成為笑話

      輪胎成為壓垮電車(chē)車(chē)主的稻草,加上超高的保險(xiǎn)費(fèi),省錢(qián)已成為笑話

      柏銘銳談
      2026-01-26 23:50:34
      中央考核巡查組專(zhuān)家,現(xiàn)場(chǎng)拆穿負(fù)責(zé)人狡辯

      中央考核巡查組專(zhuān)家,現(xiàn)場(chǎng)拆穿負(fù)責(zé)人狡辯

      新京報(bào)政事兒
      2026-01-27 10:56:56
      “后坐力”太大!閆學(xué)晶又被爆出猛料,她和兒子已經(jīng)一個(gè)也跑不了

      “后坐力”太大!閆學(xué)晶又被爆出猛料,她和兒子已經(jīng)一個(gè)也跑不了

      來(lái)科點(diǎn)譜
      2026-01-22 08:53:11
      趙匡胤稱(chēng)帝后,詢(xún)問(wèn)大臣如何處置柴榮的兒子,趙普:殺之以除后患

      趙匡胤稱(chēng)帝后,詢(xún)問(wèn)大臣如何處置柴榮的兒子,趙普:殺之以除后患

      史筆似塵鉤
      2024-08-03 22:16:49
      “天仙妹妹”笑稱(chēng)已是“天仙阿姨”,丈夫曾對(duì)她的過(guò)去一無(wú)所知

      “天仙妹妹”笑稱(chēng)已是“天仙阿姨”,丈夫曾對(duì)她的過(guò)去一無(wú)所知

      揚(yáng)子晚報(bào)
      2026-01-26 12:19:49
      高人預(yù)測(cè):不出意外,2月開(kāi)始將呈現(xiàn)5大現(xiàn)象,老百姓需做好準(zhǔn)備

      高人預(yù)測(cè):不出意外,2月開(kāi)始將呈現(xiàn)5大現(xiàn)象,老百姓需做好準(zhǔn)備

      好賢觀史記
      2026-01-27 09:52:53
      錢(qián)再多也沒(méi)用!42歲身體出問(wèn)題的雷佳音,給所有男星提了個(gè)醒

      錢(qián)再多也沒(méi)用!42歲身體出問(wèn)題的雷佳音,給所有男星提了個(gè)醒

      白面書(shū)誏
      2026-01-24 17:14:27
      亞歷克斯?霍諾德徒手登頂臺(tái)北101,坦言金屬龍形裝飾最令人恐懼

      亞歷克斯?霍諾德徒手登頂臺(tái)北101,坦言金屬龍形裝飾最令人恐懼

      譯言
      2026-01-27 13:28:15
      焦泊喬傷情更新!廣東遭晴天霹靂,還有3個(gè)壞消息讓杜鋒更加上火

      焦泊喬傷情更新!廣東遭晴天霹靂,還有3個(gè)壞消息讓杜鋒更加上火

      后仰大風(fēng)車(chē)
      2026-01-27 07:05:09
      特朗普挖坑,巴鐵總理剛簽完字,被以色列當(dāng)眾“扇耳光”

      特朗普挖坑,巴鐵總理剛簽完字,被以色列當(dāng)眾“扇耳光”

      子桑說(shuō)
      2026-01-27 22:02:02
      大華集團(tuán)大規(guī)模裁員

      大華集團(tuán)大規(guī)模裁員

      地產(chǎn)微資訊
      2026-01-27 16:31:17
      唯一在世的中共一代領(lǐng)導(dǎo)人,曾任中央政治局常委,如今109歲

      唯一在世的中共一代領(lǐng)導(dǎo)人,曾任中央政治局常委,如今109歲

      星辰故事屋
      2026-01-23 12:14:47
      看完10集《太平年》,我頭皮發(fā)麻,終于有人把“牽羊禮”拍出來(lái)了

      看完10集《太平年》,我頭皮發(fā)麻,終于有人把“牽羊禮”拍出來(lái)了

      娛樂(lè)圈筆娛君
      2026-01-27 14:35:46
      澤連斯基:烏克蘭計(jì)劃2027年加入歐盟

      澤連斯基:烏克蘭計(jì)劃2027年加入歐盟

      財(cái)聯(lián)社
      2026-01-27 20:38:07
      用“野路子”掀桌,汽水音樂(lè)威脅到誰(shuí)?

      用“野路子”掀桌,汽水音樂(lè)威脅到誰(shuí)?

      青橙財(cái)經(jīng)
      2026-01-25 22:29:30
      醫(yī)生調(diào)侃:平時(shí)說(shuō)愛(ài)國(guó),進(jìn)醫(yī)院就要進(jìn)口藥

      醫(yī)生調(diào)侃:平時(shí)說(shuō)愛(ài)國(guó),進(jìn)醫(yī)院就要進(jìn)口藥

      映射生活的身影
      2026-01-26 14:47:32
      現(xiàn)貨白銀抹去14%漲幅 現(xiàn)貨黃金向下跌破5000美元

      現(xiàn)貨白銀抹去14%漲幅 現(xiàn)貨黃金向下跌破5000美元

      財(cái)聯(lián)社
      2026-01-27 05:38:06
      巴西一球員在比賽里雙腳踩球,被視作不尊重對(duì)手吃到黃牌

      巴西一球員在比賽里雙腳踩球,被視作不尊重對(duì)手吃到黃牌

      懂球帝
      2026-01-27 12:37:15
      2026-01-27 23:12:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14424文章數(shù) 66543關(guān)注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

      頭條要聞

      體大畢業(yè)生收費(fèi)教人騎自行車(chē)800元1次 網(wǎng)友直呼"離譜"

      頭條要聞

      體大畢業(yè)生收費(fèi)教人騎自行車(chē)800元1次 網(wǎng)友直呼"離譜"

      體育要聞

      冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

      娛樂(lè)要聞

      張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

      財(cái)經(jīng)要聞

      多地對(duì)壟斷行業(yè)"近親繁殖"出手了

      汽車(chē)要聞

      標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車(chē)下線

      態(tài)度原創(chuàng)

      本地
      教育
      數(shù)碼
      時(shí)尚
      公開(kāi)課

      本地新聞

      云游中國(guó)|撥開(kāi)云霧,巫山每幀都是航拍大片

      教育要聞

      高敏感,是因?yàn)楹⒆訐碛幸活w超能大腦

      數(shù)碼要聞

      華碩無(wú)畏Pro 14/16 2026款酷睿版發(fā)布,6999元起

      這些韓系穿搭最適合普通人!多穿深色、衣服基礎(chǔ),簡(jiǎn)潔耐看

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版