<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      最新研究:當AI脫離語言,最強大模型視覺測試全輸給學前兒童!

      0
      分享至

      如果你覺得多模態大模型已經“什么都會了”,Gemini 、ChatGPT 智商已經超越人類了,那這篇論文可能會給你潑一盆冷水。

      日前,一篇來自arXiv 題為《BabyVision:超越語言的視覺推理》的論文給出了一個驚人的結論:如果完全不依賴語言,只考最基礎的視覺能力,今天最強多模態大模型的表現,還不如三歲小孩。


      該篇論文作者為 梁晨等來自 UniPat AI、北京大學、清華大學、阿里巴巴、普林斯頓等的 29 名研究員。

      他們給這個研究方向設計了一個新基準,名字叫 BabyVision。

      顧名可思義,考的不是博士級的復雜推理,而是人類在學會說話之前就已經具備的視覺能力。

      過去一年,多模態模型在各種榜單上進步飛快,做數學題、看圖寫代碼、理解專業圖表,甚至在一些大學、博士水平的測試中超過普通人。

      但作者指出,這些測試幾乎都有一個共同點,高度依賴語言、知識和文本推理。

      于是他們反過來做了一件事,把語言和知識全部剝離,只剩下視覺本身。

      BabyVision 一共只有 388 道題,規模不大,但設計得非常克制。

      問題文本被壓縮到極短,平均只有二十多字,不需要任何背景知識。

      題目分布在四類最基礎的視覺能力上:細微差異的辨別、視覺路徑追蹤、空間關系判斷,以及圖形和模式識別。


      換句話說,就是“哪個更大”、“線走到哪里”、“這個形狀轉一下會變成什么”、“規律下一格是什么”等,這一類問題。

      為了避免“文字投機”,作者在數據構建階段專門過濾了所有可能通過語言猜答案的樣本,甚至還請人反復驗證:如果遮住題目文字,只看圖,人類是否仍然可以完成判斷。

      作為對照,他們不僅測了模型,還測了人。

      測試對象包括 3 歲、6 歲、10 歲、12 歲的兒童,以及成年人。

      結果是,人類的表現,幾乎是壓倒性的。

      數據顯示:成年人在 BabyVision 上的平均正確率是 94.1%;6 歲兒童已經可以穩定超過 70%。

      而當前表現最好的多模態模型,得分只有 49.7%。


      而且,這還不是“平均模型”,而是作者測試中最強的那一個Gemini3-Pro-Preview。

      換句話說,在這些不需要語言、只需要“看懂”的任務上,最先進的多模態大模型,整體水平還低于學齡前兒童。

      更殘酷的是,模型的弱點并不是集中在某一類題型上,而是系統性的。

      論文展示了大量錯誤案例。

      比如分不清細微形狀差別、無法連續追蹤一條曲線,比如在二維圖像中構建錯誤的三維關系,或者完全誤判一個簡單的視覺規律。


      分析原因,作者認為,問題并不只是模型“沒訓練夠”,而是當前多模態架構本身存在結構性瓶頸。

      他們認為,大多數多模態模型的工作方式,本質上是“先看圖,再把視覺信息壓縮成語言 token,然后在語言空間里思考”。

      這個過程在面對知識型問題時很高效,但對基礎視覺任務是致命的。

      因為圖片細節在壓縮過程中會丟失,連續結構會被打斷,空間關系會被離散化,最終導致模型“會說,但看不清”。



      為了驗證是不是“語言這一步”限制了能力,論文還提出了一個擴展實驗,叫 BabyVision-Gen。

      在這個設置中,模型不需要用文字回答,而是直接在圖像上生成答案,比如畫出正確路徑、圈出不同區域。

      結果顯示,在少數任務上,生成式視覺輸出確實能略微改善表現,但整體差距依然巨大。

      這也讓論文的結論顯得更加清晰,即當前多模態模型在“像人一樣看”這件事上,遠沒有達到人類水平,哪怕人類還沒學會說話。

      要知道,人類與世界的溝通,先有視覺后有語言,比如嬰兒幾個月大就能辨別形狀、追蹤物體。

      但大模型在最基礎的視覺感知上近乎的“失明”表現說明,它們并非真正“看見”了圖像, 而是在用語言知識“猜測”答案。

      抱著治病救人的態度,研究團隊還嘗試基于可驗證獎勵的強化學習(RLVR) , 對Qwen3-VL-8B-Thinking 進行訓練,來為大模型進行補救。

      結果表明,準確率從 13.1% 提升 4.8 個百分點,到了 17.9%,但距離人類水平仍然遙不可及。


      這表明,視覺能力的根本缺陷很難通過后訓練彌補,而可能需要架構層面的創新。

      但這篇論文的價值,不在于否定多模態模型的進步,而是對多模態的發展路徑提出了條新的思考路徑。

      論文明確指出,想要縮小人與模型之間的差距,靠堆數據、堆語言推理很可能不夠,必須重新思考視覺表征、連續空間建模,以及視覺與推理之間的連接方式。

      論文地址為:

      https://arxiv.org/pdf/2601.06521v1

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬筱梅回應不和倆娃住,稱婆婆張蘭住在富人區,意外透露二月行程

      馬筱梅回應不和倆娃住,稱婆婆張蘭住在富人區,意外透露二月行程

      以茶帶書
      2026-01-27 14:15:55
      太牛了!山東強勢逆轉黑馬,高詩巖蘇醒,小將3分鐘砍11分真猛啊

      太牛了!山東強勢逆轉黑馬,高詩巖蘇醒,小將3分鐘砍11分真猛啊

      萌蘭聊個球
      2026-01-27 21:55:37
      東大62歲教授一年半接受約30次“特殊招待”,涉嫌受賄被捕!

      東大62歲教授一年半接受約30次“特殊招待”,涉嫌受賄被捕!

      超級數學建模
      2026-01-27 23:01:21
      打虎!包惠被查

      打虎!包惠被查

      新京報政事兒
      2026-01-27 18:48:05
      特朗普施壓伊朗:美軍派遣艦隊規模,“比在委內瑞拉的還大”;輿論認為伊朗回擊目標涵蓋美軍事基地及以色列

      特朗普施壓伊朗:美軍派遣艦隊規模,“比在委內瑞拉的還大”;輿論認為伊朗回擊目標涵蓋美軍事基地及以色列

      大風新聞
      2026-01-27 11:02:05
      監守自盜!2024年,湖北一護林員在山里架980米電網,冰柜中搜出肢體

      監守自盜!2024年,湖北一護林員在山里架980米電網,冰柜中搜出肢體

      流史歲月
      2026-01-27 15:50:03
      新郎曬44張婚紗照,新娘正臉僅6張,女方回應

      新郎曬44張婚紗照,新娘正臉僅6張,女方回應

      楓塵余往逝
      2026-01-26 22:10:24
      癌癥去世的人越來越多?醫生反復叮囑:寧可打打牌,也別做這5事

      癌癥去世的人越來越多?醫生反復叮囑:寧可打打牌,也別做這5事

      醫學原創故事會
      2026-01-25 22:54:04
      韓國娛樂圈到底有多臟?“千面影帝”河正宇父子告訴你

      韓國娛樂圈到底有多臟?“千面影帝”河正宇父子告訴你

      阿器談史
      2026-01-27 15:23:03
      0-12開局又如何?豪門末節23-9強勢逆轉,大王創紀錄成史上第6人

      0-12開局又如何?豪門末節23-9強勢逆轉,大王創紀錄成史上第6人

      萌蘭聊個球
      2026-01-27 21:36:56
      劉振華當選山西晉城市市長,曾獲評“全國優秀縣委書記”,原市長已任市委書記

      劉振華當選山西晉城市市長,曾獲評“全國優秀縣委書記”,原市長已任市委書記

      上觀新聞
      2026-01-27 17:19:13
      賣掉5年油車換電車,開2年后坦言:這些網上說法都是真的

      賣掉5年油車換電車,開2年后坦言:這些網上說法都是真的

      復轉這些年
      2026-01-24 22:57:39
      國外狼隊博主:徐彬是有留洋經歷的防守型中場,預計先去青年隊

      國外狼隊博主:徐彬是有留洋經歷的防守型中場,預計先去青年隊

      懂球帝
      2026-01-27 19:33:22
      山東車主給代駕贈送茅臺后續,代駕已聯系車主,車主回應網友炸鍋

      山東車主給代駕贈送茅臺后續,代駕已聯系車主,車主回應網友炸鍋

      離離言幾許
      2026-01-27 12:08:06
      吃他汀一顆花生不能碰?醫生提醒:不止花生,這5樣食物也要小心

      吃他汀一顆花生不能碰?醫生提醒:不止花生,這5樣食物也要小心

      路醫生健康科普
      2026-01-26 10:09:49
      一支筆鎖死中國14億人命運:為何90年過去了,這條斜線誰也動不了

      一支筆鎖死中國14億人命運:為何90年過去了,這條斜線誰也動不了

      半解智士
      2026-01-20 18:03:00
      關羽身長九尺,放到如今有多高?1976年,廣西出土一漢尺揭開答案

      關羽身長九尺,放到如今有多高?1976年,廣西出土一漢尺揭開答案

      銘記歷史呀
      2025-12-22 00:37:27
      國乒兩大大主力無緣亞洲杯!秦志戩上任迎大考,男單缺少最后底氣

      國乒兩大大主力無緣亞洲杯!秦志戩上任迎大考,男單缺少最后底氣

      三十年萊斯特城球迷
      2026-01-26 22:58:32
      “高市下臺!”高市早苗選舉拉票演講第一站,遭日本民眾抗議

      “高市下臺!”高市早苗選舉拉票演講第一站,遭日本民眾抗議

      環球網資訊
      2026-01-27 15:17:19
      收回臺灣不是最重要的,只要確保俄羅斯不敗,中國將迎百年大變局

      收回臺灣不是最重要的,只要確保俄羅斯不敗,中國將迎百年大變局

      阿器談史
      2026-01-26 16:34:59
      2026-01-27 23:40:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      421文章數 40關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      頭條要聞

      因樓下鄰居關閉水閥女子家中斷水400天 起訴索賠被駁

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      教育
      本地
      數碼
      家居
      藝術

      教育要聞

      評論丨教師期末“負擔”與總結活動“初衷”,如何不再錯位?

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      數碼要聞

      這事你怎么看 索尼與TCL簽署意向備忘錄 網友:Sony變Tony了

      家居要聞

      現代古典 中性又顯韻味

      藝術要聞

      日本東京國立博物館中的100幅宋畫

      無障礙瀏覽 進入關懷版