<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek開源的新東西到底強在哪?我幫你找專家問了問

      0
      分享至



      本周,DeepSeek 新開源的 DeepSeek-OCR 在開源社區的熱度持續發酵。

      人們興奮的點是:它不僅是一款新的光學字符識別模型,還更像是一次對 “ 大模型記憶機制 ” 的重新設計。

      在 DeepSeek-OCR 的架構中,圖像不再只是文字的載體,而是成為一種語義壓縮的中間語言。文字被渲染成圖像后,經由 DeepEncoder 轉換為緊湊的視覺表征;這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本(這也是標準的 OCR 機制),也可以與其他輸入 token 與 prompt 結合,執行問答、摘要、檢索等復雜任務。

      通俗來說,就是我們可以把大量文字打包壓縮成一張圖片來節省空間,等需要使用的時候再解壓出來,甚至在一部分使用場景中,你甚至不需要解壓,直接用壓縮包就可以達成目的。



      DeepSeek-OCR 模型架構。圖源:
      https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

      即便在 10× 壓縮比的條件下,模型的文本還原精度仍可達 97%。隨著大模型逐漸向越來越復雜的場景嵌入,上下文長度資源遠不夠用甚至越來越不夠用,而基座模型在此參數上升級頗為緩慢的當下,DeepSeek-OCR 的發布瞬間帶來很大的想象空間。

      研究團隊甚至還進一步提出 “ 遺忘機制 ” 的構想,模型可依據信息的 “ 時序遠近 ”,在視覺壓縮階段主動衰減細節,從而實現一種類人記憶式的上下文管理。

      那么,視覺 token 為何能在信息量不損失太多的情況下,比文本 token 少一個數量級?模型記憶能否完全用視覺邏輯來替代?DeepSeek-OCR 是否為解決大模型上下文長度受限的問題提供了一條現實可行的途徑?DeepSeek-OCR 反映了多模態大模型的什么發展趨勢?

      帶著這些問題,知危與 Sand.ai 聯合創始人、首席科學家、《 Swin Transformer 》作者張拯進行了簡單的對話。

      知危:

      同一段輸入,為什么視覺 token 可以比文本 token 的數量少得多,有沒有直觀或本質的解釋?

      張拯:

      有兩種觀點。第一種,視覺是一個 2D 表達,因此可以比 1D 的表達更高效。

      第二種,高效的原因不是視覺 v.s. 文本,而是兩邊采用的 token 表達方式不同:做視覺表達的時候,我們是在一個高維的連續空間中做信息壓縮( 把 image patch 映射為一個高維特征 ),之前 LLM 里常用的 tokenizer( 把文本數據向量化的工具,通俗理解是一種把自然語言翻譯為機器能理解的語言的工具 )則實際上可以被認為是在一個一維空間中做壓縮( 把文本映射為 id )。高維連續空間本來就有更好的表達能力,因此可以用更少的 token 數量來表達更多信息。其實文本也可以做成連續表達,來大幅度減少文本 token,但是目前應該沒有被很廣泛地用到 LLM 里。

      這兩種觀點,我 buy-in 第二種。

      知危:

      DeepSeek-OCR 相比過往的 OCR 模型,除了效率提升方面,還有哪些獨創性?

      張拯:

      我最近沒有特別研究過 OCR 模型的進展,但基于我看過的一些信息,我覺得 DeepSeek-OCR 的技術本身好像并沒有非常特別的部分。但是在觀點上,“ 把視覺作為文本長上下文的壓縮介質 ”,這個 idea 還是很棒的。這個 idea 有路線上的啟發意義,相較于現在的多模態模型,DeepSeek-OCR 會使用兩種不同的 tokenizer 機制,這種路線也許會啟發更好的多模態模型設計方案。

      知危:

      這項技術對于基礎模型上下文長度難以擴展的當下,可以帶來多大的成本效益?對上下文工程的優化有哪些好處?

      張拯:

      理論上最多能拿到 N^2 倍的收益,N 是 Vision Token 相較于 Text Token 的壓縮率。對于上下文工程的優化,最大的好處應該就是不用那么仔細地管理上下文長度了。

      知危:

      DeepSeek 設想的遺忘機制是否過于簡化?忽略了語義的重要性排序?

      張拯:

      這種設想肯定還是很初步的,但是也能腦洞出很多改進的空間,比如語義重要的部分可以渲染成更大的字體?

      知危:

      Andrej Karpathy 認為視覺 token 有潛力可以完全替代文本 token,因為信息壓縮、多模態、可雙向注意力處理、無需 tokenizer 等優勢,您怎么看?

      張拯:

      大部分都同意,但是 “ 可雙向注意力處理 ” 這里有待探討,“ 可雙向注意力處理 ” 很大程度上和 training objective( 訓練目標 )有關。

      另外,如果后面都是處理視覺 token 了,是不是有機會讓模型能在一個 2D 的空間里做思考?從而帶來更高效的推理( 類似 GPT-4o 的 thinking with image )?這個我覺得還是挺有意思的。

      知危:近期 Meta 也提出了一個無需 tokenizer 的模型架構 Byte Latent Transformer ,可以跳過 tokenization ,直接學習原始字節流。結合以上討論和領域現狀,您認為這體現了多模態大模型的哪些發展趨勢?

      張拯:

      宏觀一點來看,不同模態模型的范式還是有機會持續進化的。

      更細節一點的話,我初步想到的有兩個:

      • 現在的多模態大模型的主流做法基本上可以認為在捏合各種不同的模態的模塊,整個訓練 pipeline 其實還是有點復雜( 不優雅 )的。大家肯定希望有更簡單、更統一的方式來處理。類似 DeepSeek-OCR 這樣的工作對我們開發更好的多模態模型范式還是挺有啟發的。
      • 離散表達和連續表達之間的關系,以及是否有更好的組合方式,可能也挺重要的。

      ( 對話全文完 )

      總體來看,DeepSeek-OCR 更多是基于效率上的大幅提升啟發了一個新的路線。

      當模型的 “ 思考空間 ” 從一維文本拓展至二維視覺,思考和推理也可能變得更加高效和簡潔。而在技術層面,則指向當前多模態大模型領域正等待一把 “ 奧卡姆剃刀 ” 簡化模型范式的時刻。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人老有5怕!一怕跌倒,另外4怕,可惜多數老人都沒意識到!

      人老有5怕!一怕跌倒,另外4怕,可惜多數老人都沒意識到!

      醫學原創故事會
      2025-12-20 23:50:04
      轉發野三坡隧道事故視頻被要求刪除,還有網友稱發生了爆炸

      轉發野三坡隧道事故視頻被要求刪除,還有網友稱發生了爆炸

      映射生活的身影
      2025-12-20 19:18:13
      著名演員新片與《阿凡達3》對打,票房零元,12月最慘電影誕生了

      著名演員新片與《阿凡達3》對打,票房零元,12月最慘電影誕生了

      影視高原說
      2025-12-20 10:41:19
      南博事件升級!關鍵人物挖出,徐前院長使出“苦肉計”確實尷尬…

      南博事件升級!關鍵人物挖出,徐前院長使出“苦肉計”確實尷尬…

      火山詩話
      2025-12-20 16:28:41
      劉嘉玲組團滑雪!王菲帶李嫣現身,馮德倫也在,9人同行喝酒慶祝

      劉嘉玲組團滑雪!王菲帶李嫣現身,馮德倫也在,9人同行喝酒慶祝

      知法而形
      2025-12-20 14:39:01
      2026年1月1日起看病報銷全改了!這些福利關系每個人,趕緊存好!

      2026年1月1日起看病報銷全改了!這些福利關系每個人,趕緊存好!

      老特有話說
      2025-12-19 17:52:27
      1-2!英超BIG6內戰:兩員大將染紅 8.8億豪門10輪2勝坐穩下半區

      1-2!英超BIG6內戰:兩員大將染紅 8.8億豪門10輪2勝坐穩下半區

      狍子歪解體壇
      2025-12-21 03:32:06
      阿森納近34場英超客場半場領先保持不敗,上次輸球是對埃弗頓

      阿森納近34場英超客場半場領先保持不敗,上次輸球是對埃弗頓

      懂球帝
      2025-12-21 05:22:11
      羅素:愚蠢的四大特征

      羅素:愚蠢的四大特征

      尚曦讀史
      2025-12-19 09:55:05
      “邪修大法”做家務就是快!一分錢不花,家里就窗明幾凈~

      “邪修大法”做家務就是快!一分錢不花,家里就窗明幾凈~

      裝修秀
      2025-12-19 11:30:03
      再這樣下去,很多人的存款都將歸零。

      再這樣下去,很多人的存款都將歸零。

      詩詞中國
      2025-12-19 20:12:29
      深圳烤雞少年塌房!所謂秘方竟是“肉寶王”,評論區炸鍋

      深圳烤雞少年塌房!所謂秘方竟是“肉寶王”,評論區炸鍋

      胡嚴亂語
      2025-12-20 20:19:26
      咸魚還是太全面了,怪不得人稱國內黑市

      咸魚還是太全面了,怪不得人稱國內黑市

      另子維愛讀史
      2025-12-20 17:07:20
      換教練立竿見影,梁偉鏗/王昶2-1驚喜闖進決賽,總決賽一路逆襲

      換教練立竿見影,梁偉鏗/王昶2-1驚喜闖進決賽,總決賽一路逆襲

      真理是我親戚
      2025-12-20 23:08:44
      愛潑斯坦惡魔島重磅照片全公開!首曝各國名流權貴玩樂畫面,受害者多達1200人?

      愛潑斯坦惡魔島重磅照片全公開!首曝各國名流權貴玩樂畫面,受害者多達1200人?

      英國報姐
      2025-12-20 21:08:42
      要解開南京博物院捐贈之謎,建議先查清這神秘的兩個人

      要解開南京博物院捐贈之謎,建議先查清這神秘的兩個人

      李老逵亂擺龍門陣
      2025-12-20 10:54:00
      廣東江門新會區通報陳皮產地造假:將對6家涉事企業作出處理

      廣東江門新會區通報陳皮產地造假:將對6家涉事企業作出處理

      界面新聞
      2025-12-20 20:29:42
      發改委雄文,預示收入分配制度重大突破,釋放什么信號?

      發改委雄文,預示收入分配制度重大突破,釋放什么信號?

      華山穹劍
      2025-12-20 20:01:29
      女CEO剛上任就開除我,晚上她竟在我家,我爸:這是你未來媳婦兒

      女CEO剛上任就開除我,晚上她竟在我家,我爸:這是你未來媳婦兒

      蕭竹輕語
      2025-12-18 15:34:55
      中國證監會原主席肖鋼:人工智能技術快速迭代,導致投資面臨加速折舊風險,需構建適配金融體系

      中國證監會原主席肖鋼:人工智能技術快速迭代,導致投資面臨加速折舊風險,需構建適配金融體系

      新浪財經
      2025-12-20 17:36:13
      2025-12-21 06:12:49
      知危 incentive-icons
      知危
      投資不立危墻之下
      512文章數 1828關注度
      往期回顧 全部

      科技要聞

      許四清:具身智能的"ChatGPT時刻"還未到來

      頭條要聞

      高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

      頭條要聞

      高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

      體育要聞

      我開了20年大巴,現在是一名西甲主帥

      娛樂要聞

      2026央視跨年晚會陣容曝光,豪華陣仗

      財經要聞

      求解“地方財政困難”

      汽車要聞

      嵐圖推進L3量產測試 已完成11萬公里實際道路驗證

      態度原創

      健康
      旅游
      數碼
      公開課
      軍事航空

      這些新療法,讓化療不再那么痛苦

      旅游要聞

      不止紅墻白雪!故宮淡季爆火,藏著中國文旅升級的大信號

      數碼要聞

      一屏多用:華為Mate X7 / XTs折疊屏手機“變身”智能手卡

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基:前線局勢愈發艱難

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码人妻久久一区二区三区| 国产亚洲精久久久久久无码77777| 成人区人妻精品一区| 波多野结衣一区二区三区高清| 中文字字幕人妻中文| av 日韩 人妻 黑人 综合 无码| 亚洲人成人伊人成综合网无码| 屄视频| 阜康市| 色欲aⅴ亚洲情无码av蜜桃| 蜜臀av在线观看| 亚洲日本色| 国产真实露脸乱子伦原著| 在线观看成人永久免费网站| 人妻日韩精品中文字幕| 亚洲中文视频| 亚洲中文字幕无码中文字在线 | jizz国产免费观看| 乱伦日屄| 亚洲精品成人a在线观看| 国产午夜福利短视频| 亚洲韩国精品无码一区二区三区| 吃奶呻吟打开双腿做受在线视频| 老熟女高潮一区二区三区| 岢岚县| 成人网站18禁| 亚洲成人性爱网| 婷婷综合亚洲| 极品无码国模国产在线观看| 国产jjizz女人多水| 中文字幕色偷偷人妻久久| 亚洲乱人伦| 影音先锋久久| 青青操影院| a片免费视频在线观看| 精品无码专区毛片| 元码人妻精品一区二区三区9| 睡熟迷奷系列新婚之夜| 亚洲中文人妻制服| 亚洲熟女乱综合一区二区| 新狼窝色av性久久久久久|