<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek開源的新東西到底強在哪?我幫你找專家問了問

      0
      分享至



      本周,DeepSeek 新開源的 DeepSeek-OCR 在開源社區的熱度持續發酵。

      人們興奮的點是:它不僅是一款新的光學字符識別模型,還更像是一次對 “ 大模型記憶機制 ” 的重新設計。

      在 DeepSeek-OCR 的架構中,圖像不再只是文字的載體,而是成為一種語義壓縮的中間語言。文字被渲染成圖像后,經由 DeepEncoder 轉換為緊湊的視覺表征;這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本(這也是標準的 OCR 機制),也可以與其他輸入 token 與 prompt 結合,執行問答、摘要、檢索等復雜任務。

      通俗來說,就是我們可以把大量文字打包壓縮成一張圖片來節省空間,等需要使用的時候再解壓出來,甚至在一部分使用場景中,你甚至不需要解壓,直接用壓縮包就可以達成目的。



      DeepSeek-OCR 模型架構。圖源:
      https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

      即便在 10× 壓縮比的條件下,模型的文本還原精度仍可達 97%。隨著大模型逐漸向越來越復雜的場景嵌入,上下文長度資源遠不夠用甚至越來越不夠用,而基座模型在此參數上升級頗為緩慢的當下,DeepSeek-OCR 的發布瞬間帶來很大的想象空間。

      研究團隊甚至還進一步提出 “ 遺忘機制 ” 的構想,模型可依據信息的 “ 時序遠近 ”,在視覺壓縮階段主動衰減細節,從而實現一種類人記憶式的上下文管理。

      那么,視覺 token 為何能在信息量不損失太多的情況下,比文本 token 少一個數量級?模型記憶能否完全用視覺邏輯來替代?DeepSeek-OCR 是否為解決大模型上下文長度受限的問題提供了一條現實可行的途徑?DeepSeek-OCR 反映了多模態大模型的什么發展趨勢?

      帶著這些問題,知危與 Sand.ai 聯合創始人、首席科學家、《 Swin Transformer 》作者張拯進行了簡單的對話。

      知危:

      同一段輸入,為什么視覺 token 可以比文本 token 的數量少得多,有沒有直觀或本質的解釋?

      張拯:

      有兩種觀點。第一種,視覺是一個 2D 表達,因此可以比 1D 的表達更高效。

      第二種,高效的原因不是視覺 v.s. 文本,而是兩邊采用的 token 表達方式不同:做視覺表達的時候,我們是在一個高維的連續空間中做信息壓縮( 把 image patch 映射為一個高維特征 ),之前 LLM 里常用的 tokenizer( 把文本數據向量化的工具,通俗理解是一種把自然語言翻譯為機器能理解的語言的工具 )則實際上可以被認為是在一個一維空間中做壓縮( 把文本映射為 id )。高維連續空間本來就有更好的表達能力,因此可以用更少的 token 數量來表達更多信息。其實文本也可以做成連續表達,來大幅度減少文本 token,但是目前應該沒有被很廣泛地用到 LLM 里。

      這兩種觀點,我 buy-in 第二種。

      知危:

      DeepSeek-OCR 相比過往的 OCR 模型,除了效率提升方面,還有哪些獨創性?

      張拯:

      我最近沒有特別研究過 OCR 模型的進展,但基于我看過的一些信息,我覺得 DeepSeek-OCR 的技術本身好像并沒有非常特別的部分。但是在觀點上,“ 把視覺作為文本長上下文的壓縮介質 ”,這個 idea 還是很棒的。這個 idea 有路線上的啟發意義,相較于現在的多模態模型,DeepSeek-OCR 會使用兩種不同的 tokenizer 機制,這種路線也許會啟發更好的多模態模型設計方案。

      知危:

      這項技術對于基礎模型上下文長度難以擴展的當下,可以帶來多大的成本效益?對上下文工程的優化有哪些好處?

      張拯:

      理論上最多能拿到 N^2 倍的收益,N 是 Vision Token 相較于 Text Token 的壓縮率。對于上下文工程的優化,最大的好處應該就是不用那么仔細地管理上下文長度了。

      知危:

      DeepSeek 設想的遺忘機制是否過于簡化?忽略了語義的重要性排序?

      張拯:

      這種設想肯定還是很初步的,但是也能腦洞出很多改進的空間,比如語義重要的部分可以渲染成更大的字體?

      知危:

      Andrej Karpathy 認為視覺 token 有潛力可以完全替代文本 token,因為信息壓縮、多模態、可雙向注意力處理、無需 tokenizer 等優勢,您怎么看?

      張拯:

      大部分都同意,但是 “ 可雙向注意力處理 ” 這里有待探討,“ 可雙向注意力處理 ” 很大程度上和 training objective( 訓練目標 )有關。

      另外,如果后面都是處理視覺 token 了,是不是有機會讓模型能在一個 2D 的空間里做思考?從而帶來更高效的推理( 類似 GPT-4o 的 thinking with image )?這個我覺得還是挺有意思的。

      知危:近期 Meta 也提出了一個無需 tokenizer 的模型架構 Byte Latent Transformer ,可以跳過 tokenization ,直接學習原始字節流。結合以上討論和領域現狀,您認為這體現了多模態大模型的哪些發展趨勢?

      張拯:

      宏觀一點來看,不同模態模型的范式還是有機會持續進化的。

      更細節一點的話,我初步想到的有兩個:

      • 現在的多模態大模型的主流做法基本上可以認為在捏合各種不同的模態的模塊,整個訓練 pipeline 其實還是有點復雜( 不優雅 )的。大家肯定希望有更簡單、更統一的方式來處理。類似 DeepSeek-OCR 這樣的工作對我們開發更好的多模態模型范式還是挺有啟發的。
      • 離散表達和連續表達之間的關系,以及是否有更好的組合方式,可能也挺重要的。

      ( 對話全文完 )

      總體來看,DeepSeek-OCR 更多是基于效率上的大幅提升啟發了一個新的路線。

      當模型的 “ 思考空間 ” 從一維文本拓展至二維視覺,思考和推理也可能變得更加高效和簡潔。而在技術層面,則指向當前多模態大模型領域正等待一把 “ 奧卡姆剃刀 ” 簡化模型范式的時刻。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      罕見!王楚欽奪冠后哭了 王皓為他擦眼淚 發聲:想把冠軍留在中國

      罕見!王楚欽奪冠后哭了 王皓為他擦眼淚 發聲:想把冠軍留在中國

      念洲
      2026-02-09 10:23:46
      3-2!國安擊敗中超新土豪,球隊大腿連場進球,主力邊衛又受重傷

      3-2!國安擊敗中超新土豪,球隊大腿連場進球,主力邊衛又受重傷

      體壇鑒春秋
      2026-02-09 22:10:48
      北京首鋼還未和麥基簽約,普拉姆利拒絕加盟廣東隊

      北京首鋼還未和麥基簽約,普拉姆利拒絕加盟廣東隊

      孤影來客
      2026-02-09 20:15:18
      002731,遭證監會立案,明日將被實施風險警示

      002731,遭證監會立案,明日將被實施風險警示

      證券時報e公司
      2026-02-09 21:15:23
      徐湖平父親和岳父身份被扒!個個不簡單,難怪舉報他4次都不成功

      徐湖平父親和岳父身份被扒!個個不簡單,難怪舉報他4次都不成功

      詩意世界
      2025-12-31 16:43:19
      “排雷英雄”杜富國,服役期滿后是轉業回地方,還是繼續服役好?

      “排雷英雄”杜富國,服役期滿后是轉業回地方,還是繼續服役好?

      南書房
      2026-02-02 11:15:08
      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      霹靂炮
      2026-01-19 22:24:13
      欠百萬租金,影響村民分紅?佛山30年酒樓閉店

      欠百萬租金,影響村民分紅?佛山30年酒樓閉店

      佛山樓市發布
      2026-02-09 19:43:22
      “深感擔憂”!外媒:英國威廉王儲及凱特王妃就愛潑斯坦案首次公開發聲

      “深感擔憂”!外媒:英國威廉王儲及凱特王妃就愛潑斯坦案首次公開發聲

      環球網資訊
      2026-02-09 18:13:49
      正式簽約!聯手字母哥!再見了,買斷市場最后一條大魚

      正式簽約!聯手字母哥!再見了,買斷市場最后一條大魚

      籃球教學論壇
      2026-02-09 09:14:53
      步嫂子宋丹丹后塵,被英家人所拋棄的趙明明,為子退圈的她怎樣了

      步嫂子宋丹丹后塵,被英家人所拋棄的趙明明,為子退圈的她怎樣了

      每一次點擊
      2026-02-09 16:15:38
      劉強東光送年貨沒發錢,60歲村民被問是否失望,老人家回答太戳心

      劉強東光送年貨沒發錢,60歲村民被問是否失望,老人家回答太戳心

      觀察鑒娛
      2026-01-31 09:45:47
      NBA官宣:蕭華指定申京頂替亞歷山大入選全明星 進入世界隊

      NBA官宣:蕭華指定申京頂替亞歷山大入選全明星 進入世界隊

      醉臥浮生
      2026-02-09 04:51:26
      在深圳,經濟一差,到處是詐騙

      在深圳,經濟一差,到處是詐騙

      愛下廚的阿釃
      2026-02-09 20:38:49
      哈梅內伊發表全國電視講話

      哈梅內伊發表全國電視講話

      參考消息
      2026-02-09 22:24:10
      中國創新藥龍頭大漲近7%,拿下國際巨頭88億美元合作,首付3.5億美元

      中國創新藥龍頭大漲近7%,拿下國際巨頭88億美元合作,首付3.5億美元

      21世紀經濟報道
      2026-02-09 13:42:30
      升第九!鄧恩被驅逐快船大勝森林狼 小卡41+8連31場20+超格里芬

      升第九!鄧恩被驅逐快船大勝森林狼 小卡41+8連31場20+超格里芬

      醉臥浮生
      2026-02-09 06:44:47
      宋美齡價值2億的麻花手鐲,戴到離世:第一任主人僅花費4萬大洋

      宋美齡價值2億的麻花手鐲,戴到離世:第一任主人僅花費4萬大洋

      史之銘
      2026-01-13 22:55:09
      福建要大發了,這3個地方被國家選中,即將騰飛!有你家鄉嗎

      福建要大發了,這3個地方被國家選中,即將騰飛!有你家鄉嗎

      記錄生活日常阿蜴
      2026-02-09 18:35:53
      牛鬼神蛇現原形!聶衛平去世僅一天,私生活被扒,王剛郎平被牽連

      牛鬼神蛇現原形!聶衛平去世僅一天,私生活被扒,王剛郎平被牽連

      春露秋霜
      2026-01-16 06:27:20
      2026-02-09 23:08:49
      知危 incentive-icons
      知危
      投資不立危墻之下
      531文章數 1832關注度
      往期回顧 全部

      科技要聞

      實測|字節新模型帶著音效和復雜運鏡殺瘋了

      頭條要聞

      高市早苗表態:著手推動修憲

      頭條要聞

      高市早苗表態:著手推動修憲

      體育要聞

      創中國冬奧最佳戰績!19歲速滑新星含淚向天拉勾

      娛樂要聞

      央視電影活動名場面!明星站位太講究

      財經要聞

      滬深北交易所優化再融資 釋放3個信號

      汽車要聞

      長安將搭鈉電池 好比汽車要裝柴油機?

      態度原創

      教育
      數碼
      手機
      本地
      藝術

      教育要聞

      巧用12345模型,秒出答案,初中中考幾何壓軸題必考題型

      數碼要聞

      雷鳥新款27寸顯示器首發2999元:4K 160Hz/FHD 320Hz雙模切換

      手機要聞

      古爾曼曝蘋果將掀新品發布潮: iPhone 17e、新iPad合力猛攻新興市場

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      藝術要聞

      柔和的抽象靜物畫,英國當代畫家Sonia Barton

      無障礙瀏覽 進入關懷版