<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek又又又又發(fā)新論文了!這一次,他們重構(gòu)了AI看圖的方式

      0
      分享至

      今天,DeepSeek又又又又發(fā)論文了。


      看到的時候,我的第一反應(yīng)是:這特么今年才過了不到一個月,我已經(jīng)寫了三篇DeepSeek論文解讀了。照這個節(jié)奏,我是不是要轉(zhuǎn)型成"DeepSeek論文博主"了?

      不過這次倒是沒梁文鋒什么事(替他松口氣),署名里沒看到他。

      說起來,最近Clawdbot挺火的,后臺也一直有粉絲留言讓我出教程。但相比追這種應(yīng)用層的熱點(diǎn),我覺得還是讀讀論文更有意思——畢竟之前幾篇DeepSeek論文解讀,大家的反饋都挺好,說是終于看懂了技術(shù)內(nèi)核。

      所以,咱們還是繼續(xù)讀論文。

      這次的論文叫DeepSeek-OCR 2,看起來是個很垂直的OCR模型。我承認(rèn),看到標(biāo)題時覺得有點(diǎn)無聊——OCR?這么細(xì)分的領(lǐng)域,值得單獨(dú)發(fā)論文嗎?

      但讀完之后,我覺得這可能是他們今年最重要的技術(shù)突破之一。倒不是因為OCR本身多重要,而是因為他們在這個小問題里,提出了一個關(guān)于視覺語言模型(VLM)架構(gòu)的有趣洞察:

      AI看圖的方式,一直都錯了。

      你看報紙的方式,和AI完全不同

      想象你拿起一份報紙。


      你的眼睛會怎么動?大概率是這樣:先掃一眼大標(biāo)題,跳到配圖,看一眼圖片說明,再決定要不要讀正文。如果是多欄排版,你會根據(jù)內(nèi)容的"重要性"在各欄之間跳躍,而不是從左上角第一個字開始,一行行掃到右下角。

      這不是什么高深的認(rèn)知科學(xué)發(fā)現(xiàn)。這是你每天都在做的事。

      但AI不是這樣看圖的。

      傳統(tǒng)的視覺語言模型(VLM)處理圖像的方式,更像一臺復(fù)印機(jī):從左到右,從上到下,逐行掃描。不管圖像里有什么,不管哪里重要哪里不重要,它都用同一種機(jī)械的順序把圖像"讀"成一串?dāng)?shù)字。

      這個問題存在了很多年。直到最近,DeepSeek在一篇看起來很"小"的論文里,提出了一個挺"大"的洞察。

      1967年的眼動實(shí)驗

      在講DeepSeek的解法之前,我想先聊一個認(rèn)知科學(xué)的經(jīng)典實(shí)驗。

      1967年,蘇聯(lián)心理學(xué)家Alfred Yarbus做了一個著名的眼動追蹤實(shí)驗。他讓不同的被試看同一幅畫——列賓的《意外歸來》,畫的是一個流放者突然回到家中的場景。


      有意思的是,Yarbus給每個被試不同的任務(wù)指令:

      • "估計這家人的經(jīng)濟(jì)狀況"

      • "記住畫中人物的位置"

      • "猜測這個人離開家多久了"

      結(jié)果發(fā)現(xiàn),同一幅畫,不同任務(wù)下,被試的眼動軌跡完全不同。


      讓估計經(jīng)濟(jì)狀況的人,眼睛會在家具、墻壁裝飾之間跳躍。讓猜測離開時間的人,眼睛會在歸來者的臉和家人的表情之間反復(fù)掃視。

      這說明什么?人類的視覺不是被動的接收,而是主動的搜索。我們的眼睛去哪里,取決于我們想知道什么,取決于我們之前已經(jīng)看到了什么。

      用論文里的話說,人類視覺是"因果性"的——每一次注視都依賴于之前獲得的信息來決定下一步看哪里。

      而傳統(tǒng)AI沒有這個能力。它只會機(jī)械地掃。

      小徑分岔的花園

      博爾赫斯有一篇短篇小說,叫《小徑分岔的花園》。


      故事里有一座神秘的花園,主人公最終發(fā)現(xiàn),這座花園其實(shí)是一部小說——一部在每個敘事節(jié)點(diǎn)都分叉出所有可能性的小說。在這部小說里,主人公可以同時選擇所有的路徑,每條路徑都是真實(shí)的。

      這個隱喻用來理解DeepSeek OCR 2的核心創(chuàng)新,挺合適。

      傳統(tǒng)VLM就像一個只會走直線的人穿越迷宮。從入口到出口,只有一條固定的路線:從左到右,從上到下。不管迷宮的結(jié)構(gòu)如何,不管哪條路更近,它都只會沿著預(yù)設(shè)的方向走。

      而人類看圖——以及DeepSeek想讓AI學(xué)會的方式——是站在每個岔路口,根據(jù)眼前的信息決定下一步往哪走。這條路看起來有標(biāo)題?先走這邊。那邊有張圖表?跳過去看看。

      這就是論文標(biāo)題里"Visual Causal Flow"(視覺因果流)的含義:讓AI學(xué)會根據(jù)已經(jīng)看到的內(nèi)容,因果性地決定接下來看哪里。

      DeepSeek的解法:兩階段級聯(lián)推理

      理解了問題,DeepSeek的解法就很自然了。

      核心思路是:把"看圖"這件事拆成兩步。

      第一步:推理"應(yīng)該按什么順序看"

      傳統(tǒng)VLM直接把圖像拍平成一串token,順序是固定的。DeepSeek的做法是,先讓模型學(xué)會重新排列這些token的順序——根據(jù)圖像的語義內(nèi)容,而不是空間位置。

      這一步由一個叫"DeepEncoder V2"的編碼器完成。它會輸出一組"因果流查詢"(causal flow query),這些查詢token會按照模型認(rèn)為合理的順序,依次"注視"圖像的不同部分。

      第二步:在正確的順序上做推理

      重排之后,再把這些有序的視覺信息交給LLM做文本生成(比如OCR識別)。

      因為順序?qū)α耍琇LM就能更好地理解文檔的邏輯結(jié)構(gòu)。比如先看到標(biāo)題,再看到正文,而不是先看到頁腳的頁碼。

      一個巧妙的注意力mask

      技術(shù)細(xì)節(jié)我盡量簡化。

      DeepEncoder V2的核心是一個巧妙的注意力機(jī)制設(shè)計。它把輸入分成兩部分:

      視覺token:用雙向注意力,每個token都能看到所有其他token。這保證了全局的感知能力。

      因果流查詢:用因果注意力,每個查詢只能看到前面的查詢和所有視覺token。這讓查詢之間形成"順序"——第一個查詢決定先看哪,第二個查詢基于第一個的結(jié)果決定接下來看哪。


      兩種注意力拼在一起,就形成了一個特殊的注意力mask矩陣。視覺token負(fù)責(zé)"感知",因果查詢負(fù)責(zé)"排序"。

      另一個有意思的設(shè)計:他們用一個小型LLM(Qwen2-500M)替換了傳統(tǒng)的CLIP ViT作為視覺編碼器。這讓編碼器本身就具備了"推理"能力,而不只是特征提取。

      效果怎么樣

      說點(diǎn)實(shí)際的。

      在OmniDocBench v1.5這個文檔解析基準(zhǔn)測試上,DeepSeek OCR 2達(dá)到了91.09%的綜合得分,比前代提升了3.73%。

      更有意義的是"閱讀順序"指標(biāo)的提升——編輯距離從0.085降到了0.057。這說明模型確實(shí)學(xué)會了按更合理的順序"讀"文檔,而不只是識別準(zhǔn)確率提高了。

      在實(shí)際生產(chǎn)環(huán)境中(DeepSeek的在線OCR服務(wù)和預(yù)訓(xùn)練數(shù)據(jù)管線),輸出的重復(fù)率也從6.25%降到了4.17%,下降了33%。

      而這一切,只用了256到1120個視覺token。作為對比,Qwen2.5-VL-72B要用超過6000個token。


      這只是拼圖的一塊

      OCR 2不是孤立的。

      2026年1月,DeepSeek密集發(fā)布了一系列論文:

      1月1日,mHC論文:提出"流形約束超連接",解決大模型訓(xùn)練的穩(wěn)定性問題。梁文鋒署名。

      1月12日,Engram論文:提出"條件記憶"機(jī)制,實(shí)現(xiàn)近乎無限的上下文檢索。梁文鋒署名。

      1月27日,OCR 2論文:視覺因果流,讓AI像人一樣理解圖像。

      這些技術(shù)指向同一個方向:更高效、更穩(wěn)定、更像人。

      它們很可能都會整合進(jìn)即將發(fā)布的DeepSeek V4。根據(jù)公開信息,V4預(yù)計在2月中旬(春節(jié)前后)發(fā)布。GitHub代碼庫意外泄露的"MODEL1"代號顯示,這可能是一次架構(gòu)重構(gòu),包括混合精度訓(xùn)練、Blackwell GPU優(yōu)化、以及超過100萬token的上下文窗口。

      去年的V3和R1都是在春節(jié)窗口發(fā)布的。今年看起來也是。

      從"看"的方式開始

      回到OCR 2這篇論文本身。

      它解決的問題看起來很"小"——文檔OCR,把圖片里的文字讀出來。但它觸及的問題挺"大":AI應(yīng)該怎么理解二維的視覺世界?

      論文的討論部分提到了兩個方向:

      一個是"Towards Genuine 2D Reasoning"——邁向真正的2D推理。用兩個級聯(lián)的1D因果推理來逼近2D理解。第一個1D負(fù)責(zé)"排序",第二個1D負(fù)責(zé)"推理"。這是否能真正實(shí)現(xiàn)2D推理,還有待驗證。

      另一個是"Towards Native Multimodality"——邁向原生多模態(tài)。既然可以用LLM當(dāng)視覺編碼器,那能不能用同一套架構(gòu)處理圖像、音頻、文本?只需要換一組模態(tài)專屬的查詢token就行。

      期待真正的多模態(tài)DeepSeek

      說起來,我們之前一直有個遺憾。

      DeepSeek V3和R1都是很強(qiáng)的模型,R1甚至在推理能力上超越了o1。但它們都是純文本模型。在DeepSeek的網(wǎng)站或App上對話時,你能上傳圖片,但模型只是單純地識別圖中的文字,然后基于文字內(nèi)容回答——本質(zhì)上還是文本推理。

      這就像一個只能讀字幕的人在"看"電影。

      而從OCR 2這篇論文傳遞的信息看,DeepSeek在多模態(tài)上已經(jīng)邁出了關(guān)鍵一步。他們不再滿足于識別文字這種初級的圖像理解,而是在探索如何讓AI真正"理解"視覺信息的結(jié)構(gòu)和語義。

      加上之前泄露的GitHub代碼里,"MODEL1"代號下有大量關(guān)于視覺編碼器的配置,以及論文里明確提到的"Native Multimodality"方向——我們有理由期待,即將發(fā)布的DeepSeek V4會是一個能力相當(dāng)不錯的原生多模態(tài)模型。

      真正學(xué)會看圖。

      這些都是開放的問題。但從DeepSeek的論文發(fā)布節(jié)奏來看,他們已經(jīng)在路上了。

      • 論文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

      • 模型:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      持刀闖館的日自衛(wèi)隊官員已送檢,外交部:自衛(wèi)隊右傾化值得高度警惕

      持刀闖館的日自衛(wèi)隊官員已送檢,外交部:自衛(wèi)隊右傾化值得高度警惕

      澎湃新聞
      2026-03-31 15:24:28
      今天才知道:家里“這5樣”東西,越放越值錢!扔掉太可惜了

      今天才知道:家里“這5樣”東西,越放越值錢!扔掉太可惜了

      Home范
      2026-03-30 11:38:45
      屬雞的:這幾天有人跟你對著干,其實(shí)這是今年最大的“硬福”來了

      屬雞的:這幾天有人跟你對著干,其實(shí)這是今年最大的“硬福”來了

      刺頭體育
      2026-03-31 16:30:28
      歷史欠的債2025年開始還了!新生兒跌破800萬,未來我們怎么養(yǎng)老

      歷史欠的債2025年開始還了!新生兒跌破800萬,未來我們怎么養(yǎng)老

      呼呼歷史論
      2026-03-29 13:54:52
      楊瀚森正式換老板!NBA董事會批準(zhǔn)開拓者出售:估值42.5億美元

      楊瀚森正式換老板!NBA董事會批準(zhǔn)開拓者出售:估值42.5億美元

      羅說NBA
      2026-03-31 05:05:20
      堅決整治社會亂象!公安部及時亮劍,放任不管普通人將寸步難行

      堅決整治社會亂象!公安部及時亮劍,放任不管普通人將寸步難行

      李博世財經(jīng)
      2026-03-31 10:09:30
      金額超40億美元!NBA董事會批準(zhǔn)開拓者出售,交易本周內(nèi)完成

      金額超40億美元!NBA董事會批準(zhǔn)開拓者出售,交易本周內(nèi)完成

      懂球帝
      2026-03-31 15:31:27
      韭菜大量上市!醫(yī)生反復(fù)強(qiáng)調(diào):血壓高患者吃韭菜,牢記這幾點(diǎn)

      韭菜大量上市!醫(yī)生反復(fù)強(qiáng)調(diào):血壓高患者吃韭菜,牢記這幾點(diǎn)

      路醫(yī)生健康科普
      2026-03-31 14:15:03
      中東危機(jī)只是小菜?更大危機(jī)還在后面,外媒:中國將徹底顛覆戰(zhàn)場

      中東危機(jī)只是小菜?更大危機(jī)還在后面,外媒:中國將徹底顛覆戰(zhàn)場

      嘆知
      2026-03-29 18:13:46
      87歲李昌鈺去世,巨額遺產(chǎn)分配曝光,子女決定令人意外

      87歲李昌鈺去世,巨額遺產(chǎn)分配曝光,子女決定令人意外

      老塕是個手藝人
      2026-03-30 11:39:03
      退休人員樂開花!2026年養(yǎng)老金調(diào)整方向敲定,尤其是這類人更受益

      退休人員樂開花!2026年養(yǎng)老金調(diào)整方向敲定,尤其是這類人更受益

      社保小達(dá)人
      2026-03-30 10:20:07
      水木年華盧庚戌發(fā)文稱其原創(chuàng)歌曲《愛上你我很快樂》被大量侵權(quán),要求已使用這首歌商演者補(bǔ)上版權(quán)費(fèi),并將捐出此次收到的全部版權(quán)費(fèi)

      水木年華盧庚戌發(fā)文稱其原創(chuàng)歌曲《愛上你我很快樂》被大量侵權(quán),要求已使用這首歌商演者補(bǔ)上版權(quán)費(fèi),并將捐出此次收到的全部版權(quán)費(fèi)

      極目新聞
      2026-03-30 18:44:12
      夫妻合葬后,在陰間真的是一家人嗎?老道長一語說破真相

      夫妻合葬后,在陰間真的是一家人嗎?老道長一語說破真相

      千秋文化
      2026-03-29 20:43:20
      繼“罵消費(fèi)者像狗”后,羅技商店頁面竟現(xiàn)狗爪配圖

      繼“罵消費(fèi)者像狗”后,羅技商店頁面竟現(xiàn)狗爪配圖

      三言科技
      2026-03-30 21:19:07
      黃圣依離婚是正確的 楊子的媽媽太會裝了 你看對兒子新女友有多滿意

      黃圣依離婚是正確的 楊子的媽媽太會裝了 你看對兒子新女友有多滿意

      鄉(xiāng)野小珥
      2026-03-30 17:31:15
      從7999跌到4299!蘋果史上最慘手機(jī)誕生,5個月跌了46%

      從7999跌到4299!蘋果史上最慘手機(jī)誕生,5個月跌了46%

      科技專家
      2026-03-31 15:49:50
      北京一男子提前回家,發(fā)現(xiàn)妻子在父親房中,崩潰后竟捅死二人

      北京一男子提前回家,發(fā)現(xiàn)妻子在父親房中,崩潰后竟捅死二人

      第四思維
      2025-03-22 16:49:32
      魏德爾的天塌了!德國選擇黨聯(lián)合主席向美國發(fā)難:把美軍趕出德國

      魏德爾的天塌了!德國選擇黨聯(lián)合主席向美國發(fā)難:把美軍趕出德國

      萬物知識圈
      2026-03-31 10:01:21
      廣東通報:許典輝(正廳級),被公訴

      廣東通報:許典輝(正廳級),被公訴

      南方都市報
      2026-03-31 16:34:03
      爆冷掀翻衛(wèi)冕冠軍!中國女籃26歲2米王牌閃耀:無懼3大內(nèi)線名將

      爆冷掀翻衛(wèi)冕冠軍!中國女籃26歲2米王牌閃耀:無懼3大內(nèi)線名將

      李喜林籃球絕殺
      2026-03-31 10:41:53
      2026-03-31 18:19:05
      AI進(jìn)化論花生 incentive-icons
      AI進(jìn)化論花生
      AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
      169文章數(shù) 83關(guān)注度
      往期回顧 全部

      科技要聞

      尚未正式宣發(fā),國行蘋果AI半夜"意外閃現(xiàn)"

      頭條要聞

      00后女孩回國當(dāng)職業(yè)掃墓人:每天鞠躬上百次 月薪4千多

      頭條要聞

      00后女孩回國當(dāng)職業(yè)掃墓人:每天鞠躬上百次 月薪4千多

      體育要聞

      縣城修車工,用20年成為世界冠軍

      娛樂要聞

      絲芭傳媒舉報鞠婧祎:瞞報收入竟達(dá)85%

      財經(jīng)要聞

      高薪內(nèi)推藏陷阱!"招轉(zhuǎn)培"騙局盯上求職者

      汽車要聞

      騰勢Z9GT到底GT在哪?

      態(tài)度原創(chuàng)

      藝術(shù)
      本地
      時尚
      公開課
      軍事航空

      藝術(shù)要聞

      石濤『野色冊』

      本地新聞

      用Color Walk的方式解鎖城市春日

      媽媽們的人生,不該只有一個選項

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:即使霍爾木茲海峽仍關(guān)閉 也愿意結(jié)束戰(zhàn)爭

      無障礙瀏覽 進(jìn)入關(guān)懷版