![]()
據scmp報道,人工智能領域爆發了一場罕見的技術遭遇戰,焦點直指中國當紅AI獨角獸DeepSeek的核心技術。
來自日本東北大學與中國科學院的聯合研究團隊,今日發布了一份名為《視覺優勢還是語言拐杖?深入研究DeepSeek-OCR》的重磅報告,直接質疑了DeepSeek數月前引發轟動的“視覺文本壓縮”技術。
這項曾被譽為能讓AI“一目十行”甚至“過目不忘”的革命性創新,在科學家的顯微鏡下顯露出了尷尬的一面:它可能并不是真的“看懂”了文件,而是憑借強大的語言直覺在“猜”內容。
這場學術界的正面交鋒,不僅給DeepSeek的高速發展踩了一腳剎車,也讓整個科技界開始重新審視多模態大模型的真實能力邊界。
“降維打擊”背后的技術隱憂
要理解這場爭議的嚴重性,我們需要先回顧一下DeepSeek到底做出了什么驚艷的承諾。
在幾個月前,DeepSeek推出了一項名為DeepSeek-OCR的技術,宣稱找到了一條處理超長文本的捷徑,即“視覺感知壓縮”。
傳統的AI閱讀長篇小說或法律文檔時,是將文字逐個轉化成Token(計算機能理解的詞元),這不僅昂貴而且計算量巨大。
![]()
DeepSeek-OCR技術利用視覺感知作為壓縮媒介,能夠處理大型復雜文檔。圖片:路透社
DeepSeek的工程師們另辟蹊徑,他們讓AI把文本直接當成圖片來看,利用視覺信息的高密度特性,將原本冗長的文字壓縮成極其精簡的視覺信號。
根據當時的數據,這種方法能將長文本的信息處理效率提升10到20倍,甚至有媒體驚呼這是通向“無限上下文”的圣杯。
然而,中科院與東北大學的最新研究卻給這盆熱火澆了一盆冷水。
研究人員發現,當DeepSeek的模型面對一份由于掃描質量不佳或字體模糊的文檔時,它依然能流暢地輸出內容,但這恰恰是問題所在。
在嚴格的受控實驗中,研究者故意遮擋了文檔中的關鍵視覺信息,或者輸入了一些視覺上極難辨認的亂碼圖片,DeepSeek的模型竟然依然能“讀”出通順的句子。
這揭示了一個令人不安的真相:模型在很大程度上并非依賴“眼睛”去識別圖片中的字形,而是依賴大腦中預存的“語言先驗知識”在進行填空游戲。
換句話說,就像一個偷懶的學生,雖然看不清黑板上的字,但憑借對課文的背誦和上下文的理解,硬是把筆記抄全了。
這種“腦補”能力在處理常規文章時或許能蒙混過關,甚至顯得表現優異,但在處理財務報表、醫療檔案或法律合同等容錯率為零的場景時,就埋下了巨大的雷。
一旦文檔中出現了不符合常規邏輯的真實數據,過度依賴“語言直覺”的模型極有可能無視眼前的視覺證據,強行輸出它認為“合理”但實際錯誤的各種信息。
被誤導的性能指標與行業反思
這份研究報告最尖銳的指控在于,它指出DeepSeek此前公布的性能指標具有“誤導性”。
在標準測試集中,由于文本內容大多符合人類語言的通用規律,模型的“猜詞”命中率極高,從而掩蓋了其視覺識別能力的短板。
研究團隊創造性地引入了“語義干擾”測試,即在文檔圖片中故意插入一些語義不通順但視覺清晰的文字。
結果顯示,DeepSeek-OCR的性能瞬間大幅跳水,它往往會忽略那些真實的“亂語”,而試圖將其糾正為通順的“人話”。
這種現象在心理學上被稱為“空想性錯視”,如今卻生動地發生在最前沿的人工智能身上。
對于急于將AI落地到金融審核、自動駕駛等高風險領域的企業來說,這無異于一記警鐘。
如果AI只是在“假裝”看見,那么它所構建的安全大廈可能建立在沙灘之上。
這篇論文的發表在各大技術社區引發了激烈的討論,許多開發者開始復盤自己在使用DeepSeek接口時遇到的“幻覺”問題。
一位不愿透露姓名的硅谷工程師在社交媒體上表示,這解釋了為什么他們的文檔分析工具偶爾會“創造”出原文件中不存在的日期和金額。
這種對“先驗知識”的過度依賴,本質上是目前所有大語言模型面臨的通病,即模型太聰明了,聰明到學會了如何走捷徑來通過考試。
DeepSeek此次遭遇的質疑,實際上是整個AI行業從“暴力美學”向“精細化認知”轉型過程中必須經歷的陣痛。
依靠堆算力、堆數據帶來的能力提升,終究會撞上邏輯與物理現實的墻壁。
真正的多模態智能,不應僅僅是視覺與語言模塊的簡單拼接,而應建立在對物理世界真實感知的因果鏈條之上。
打破黑盒:邁向可信賴的AI
盡管面臨嚴厲的學術指控,但我們不應全盤否定DeepSeek在探索新型架構上的勇氣。
將文本視覺化壓縮依然是一個極具潛力的研究方向,它試圖打破語言模型對文本序列長度的物理限制。
此次中日研究團隊的發現,更像是一次必要的“糾偏”,它迫使研究人員從單純追求壓縮比和跑分,轉向關注模型內部的運作機理。
這也給中國乃至全球的AI初創公司提了一個醒:在激烈的軍備競賽中,發布的每一項“黑科技”都將被置于全球同行的顯微鏡下。
科學的進步往往不是直線向上的,而是在不斷的提出假設、驗證假設和推翻假設中螺旋上升。
東北大學與中科院的這項研究,為我們提供了一套全新的檢測工具,即如何區分AI是在“看”還是在“猜”。
這對于未來構建更加魯棒、可信的AI系統至關重要。
我們期待DeepSeek團隊能正面回應這一技術挑戰,通過改進算法架構,平衡視覺感知與語言推理的權重。
也許下一代的DeepSeek-OCR,能夠真正學會像人類一樣,既能利用經驗快速閱讀,又能在關鍵細節上“眼見為實”。
這場關于“視覺優勢”與“語言拐杖”的辯論,注定將成為2026年AI發展史上一個重要的注腳。
它提醒我們,在通往通用人工智能的道路上,誠實地面對技術的局限性,比盲目地歡呼每一個高分榜單都要重要得多。
畢竟,我們需要的是一個真正能幫人類解決問題的助手,而不是一個擅長腦補的“差不多先生”。
隨著更多第三方獨立研究的介入,人工智能技術祛魅的過程正在加速,這對于整個行業的健康發展而言,無疑是一件幸事。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.