<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<blockquote id="4mrbl"><rt id="4mrbl"></rt></blockquote>

<sub id="4mrbl"></sub>

<p id="4mrbl"></p>

<sub id="4mrbl"><p id="4mrbl"><li id="4mrbl"></li></p></sub>

<thead id="4mrbl"><rt id="4mrbl"><strong id="4mrbl"></strong></rt></thead>

<optgroup id="4mrbl"><button id="4mrbl"></button></optgroup>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

最新研究:當AI脫離語言，最強大模型視覺測試全輸給學前兒童！

2026-01-21 07:44:55　來源: AI先鋒官

北京舉報

0

分享至

如果你覺得多模態大模型已經“什么都會了”，Gemini 、ChatGPT 智商已經超越人類了，那這篇論文可能會給你潑一盆冷水。

日前，一篇來自arXiv 題為《BabyVision：超越語言的視覺推理》的論文給出了一個驚人的結論：如果完全不依賴語言，只考最基礎的視覺能力，今天最強多模態大模型的表現，還不如三歲小孩。

該篇論文作者為梁晨等來自 UniPat AI、北京大學、清華大學、阿里巴巴、普林斯頓等的 29 名研究員。

他們給這個研究方向設計了一個新基準，名字叫 BabyVision。

顧名可思義，考的不是博士級的復雜推理，而是人類在學會說話之前就已經具備的視覺能力。

過去一年，多模態模型在各種榜單上進步飛快，做數學題、看圖寫代碼、理解專業圖表，甚至在一些大學、博士水平的測試中超過普通人。

但作者指出，這些測試幾乎都有一個共同點，高度依賴語言、知識和文本推理。

于是他們反過來做了一件事，把語言和知識全部剝離，只剩下視覺本身。

BabyVision 一共只有 388 道題，規模不大，但設計得非常克制。

問題文本被壓縮到極短，平均只有二十多字，不需要任何背景知識。

題目分布在四類最基礎的視覺能力上：細微差異的辨別、視覺路徑追蹤、空間關系判斷，以及圖形和模式識別。

換句話說，就是“哪個更大”、“線走到哪里”、“這個形狀轉一下會變成什么”、“規律下一格是什么”等，這一類問題。

為了避免“文字投機”，作者在數據構建階段專門過濾了所有可能通過語言猜答案的樣本，甚至還請人反復驗證：如果遮住題目文字，只看圖，人類是否仍然可以完成判斷。

作為對照，他們不僅測了模型，還測了人。

測試對象包括 3 歲、6 歲、10 歲、12 歲的兒童，以及成年人。

結果是，人類的表現，幾乎是壓倒性的。

數據顯示：成年人在 BabyVision 上的平均正確率是 94.1%；6 歲兒童已經可以穩定超過 70%。

而當前表現最好的多模態模型，得分只有 49.7%。

而且，這還不是“平均模型”，而是作者測試中最強的那一個Gemini3-Pro-Preview。

換句話說，在這些不需要語言、只需要“看懂”的任務上，最先進的多模態大模型，整體水平還低于學齡前兒童。

更殘酷的是，模型的弱點并不是集中在某一類題型上，而是系統性的。

論文展示了大量錯誤案例。

比如分不清細微形狀差別、無法連續追蹤一條曲線，比如在二維圖像中構建錯誤的三維關系，或者完全誤判一個簡單的視覺規律。

分析原因，作者認為，問題并不只是模型“沒訓練夠”，而是當前多模態架構本身存在結構性瓶頸。

他們認為，大多數多模態模型的工作方式，本質上是“先看圖，再把視覺信息壓縮成語言 token，然后在語言空間里思考”。

這個過程在面對知識型問題時很高效，但對基礎視覺任務是致命的。

因為圖片細節在壓縮過程中會丟失，連續結構會被打斷，空間關系會被離散化，最終導致模型“會說，但看不清”。

為了驗證是不是“語言這一步”限制了能力，論文還提出了一個擴展實驗，叫 BabyVision-Gen。

在這個設置中，模型不需要用文字回答，而是直接在圖像上生成答案，比如畫出正確路徑、圈出不同區域。

結果顯示，在少數任務上，生成式視覺輸出確實能略微改善表現，但整體差距依然巨大。

這也讓論文的結論顯得更加清晰，即當前多模態模型在“像人一樣看”這件事上，遠沒有達到人類水平，哪怕人類還沒學會說話。

要知道，人類與世界的溝通，先有視覺后有語言，比如嬰兒幾個月大就能辨別形狀、追蹤物體。

但大模型在最基礎的視覺感知上近乎的“失明”表現說明，它們并非真正“看見”了圖像, 而是在用語言知識“猜測”答案。

抱著治病救人的態度，研究團隊還嘗試基于可驗證獎勵的強化學習（RLVR），對Qwen3-VL-8B-Thinking 進行訓練，來為大模型進行補救。

結果表明，準確率從 13.1% 提升 4.8 個百分點，到了 17.9%，但距離人類水平仍然遙不可及。

這表明，視覺能力的根本缺陷很難通過后訓練彌補，而可能需要架構層面的創新。

但這篇論文的價值，不在于否定多模態模型的進步，而是對多模態的發展路徑提出了條新的思考路徑。

論文明確指出，想要縮小人與模型之間的差距，靠堆數據、堆語言推理很可能不夠，必須重新思考視覺表征、連續空間建模，以及視覺與推理之間的連接方式。

論文地址為：

https://arxiv.org/pdf/2601.06521v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

高效智能體幕后推手是誰？一篇綜述帶你從記憶×工具學習×規劃看透

機器之心Pro 2026-01-27 15:24:36
0 跟貼 0
全能視覺助手來了！Kimi低調上線K2.5，可同時調度100個智能體，效率最高提升4.5倍

華爾街見聞官方 2026-01-27 14:55:14
0 跟貼 0

ICLR 2026 放榜了！28%接收率，歡迎投稿機器之心

機器之心Pro 2026-01-27 18:14:32
0 跟貼 0

2026，進入AI記憶元年

36氪 2026-01-27 18:45:51
0 跟貼 0
剛剛，楊植麟親自發布Kimi K2.5開源新王：指揮“智能體大軍”，效率暴漲450%

智東西 2026-01-27 19:11:19
0 跟貼 0

測完這么多輸入法，我還是換回了搜狗輸入法

雷科技 2026-01-27 19:41:28
14 跟貼 14

我國將出臺應對人工智能影響促就業文件

界面新聞 2026-01-27 10:04:47
536 跟貼 536
機器人要會跳舞更要能“搬磚” 魔法原子、銀河通用、宇樹科技搶灘“春晚”：2026具身智能邁入產業深水區

每日經濟新聞 2026-01-27 20:31:08
0 跟貼 0

聊天框裝不下的野心，被百度文心 APP 塞進了 AI 群聊里

愛范兒 2026-01-27 20:47:25
0 跟貼 0
AI會計會是下一個“殺手級”應用嗎？

華爾街見聞官方 2026-01-27 21:13:17
0 跟貼 0
DeepSeek又拿第一！首創「因果流」視覺推理，超越Gemini

新智元 2026-01-27 15:51:42
40 跟貼 40
#情感#大實話#漲知識

山楂嘮生活 2026-01-27 01:49:36
0 跟貼 0
中國常駐聯合國副代表：日本是“國際秩序破壞者”

瀟湘晨報 2026-01-27 16:13:22
4408 跟貼 4408
三維地圖講解——詩圣杜甫的傳奇人生

地圖里的歷史 2026-01-23 11:19:49
5 跟貼 5
打死都要知道牢記，這樣做少交600電費，看完瞬間漲知識

旅行家之夢 2026-01-27 09:58:14
0 跟貼 0
階躍星辰不再低調：巨額融資，印奇加入，1+3核心決策層浮出水面

量子位 2026-01-27 16:41:29
0 跟貼 0
華為技術專家，入職985母校！

TOP大學來了 2026-01-26 20:34:23
11 跟貼 11
女子和男友生氣，直接給自己氣成模型了，男友差點笑進ICU

籃球搞笑 2026-01-26 16:36:58
1 跟貼 1
曦望發布推理GPU S3：All-in推理的國產GPU，開始算單位Token成本

量子位 2026-01-27 22:38:53
0 跟貼 0
新華視評｜警惕論文“唯頭銜”之風異化學術生態

新華社 2026-01-26 19:50:07
0 跟貼 0
“吸納更多學者和研究人員進入作者群”，C刊《法學》宣布實行隔年用稿制

澎湃新聞 2026-01-27 11:48:04
0 跟貼 0
一千多個模型都指向一個通用子空間

機器之心Pro 2025-12-16 18:23:47
0 跟貼 0
肝ddl肝到發瘋？超絕寫論文各個部分指令拿走不謝

幕清thee 2026-01-23 10:03:20
0 跟貼 0
Deepseek V4的最后一塊拼圖來了？全新OCR架構超越視覺壓縮

DeepTech深科技 2026-01-27 18:34:56
2 跟貼 2
從博士到“牛博士”，他把論文寫在海拔4000米的高原上

農視網 2026-01-26 14:24:36
3 跟貼 3
研究生導師讓提前進組，不想去怎么辦？

陳晟老師課堂 2026-01-24 09:45:29
1 跟貼 1
在未受污染的數學競賽中評估大語言模型

CreateAMind 2026-01-27 19:45:59
0 跟貼 0
【江右會議】關于舉辦紀念周必大誕辰900周年座談會的征文啟事

江西地名研究 2026-01-26 22:22:26
0 跟貼 0
留學變災難：放縱享樂背后的家庭悲劇

時光漫游志 2026-01-26 01:57:42
0 跟貼 0
生活常識小技巧，一個視頻全看明白，又學到了新知識！

爆笑小次郎 2026-01-24 10:29:38
3 跟貼 3
閨蜜說要拍一個很厲害的轉場，原來建模才是核心出裝啊

重慶焦點 2026-01-26 16:35:12
62 跟貼 62
省兩會間隙連夜開全省會議，河南為何如此急迫？∣豫觀察

大象新聞 2026-01-27 13:05:04
23 跟貼 23
三分之一學校不足200人但崇明拒絕“一關了之”

看看新聞Knews 2026-01-27 00:45:03
543 跟貼 543
喬丹與杜蘭特的中投在視覺效果上都堪稱美如畫

左腳爆射得分 2026-01-26 11:13:14
26 跟貼 26
魯迅先生抽煙有問題聽完蒙主分析后漲知識了

萌萌樂翔事 2026-01-24 04:13:55
0 跟貼 0
#電工知識分享#接線小技巧#

胡萊克修斯 2026-01-26 00:27:19
1 跟貼 1
958克堅果禮盒實際只有33克堅果，百草味回應：系經銷商私自組合，現已下架

中國能源網 2026-01-27 11:58:04
99 跟貼 99
到了初中，你會發現數學考試低于110分，則完全跟智商沒關系

好爸育兒 2026-01-27 17:24:54
21 跟貼 21
俄烏戰場：士兵偽裝成人體模型躲避無人機追殺，太奇葩了！

大國芝士局 2026-01-23 20:33:40
33 跟貼 33
超1億！螞蟻投了一家個人專屬Agent創企

智東西 2026-01-27 14:23:12
0 跟貼 0

馬筱梅回應不和倆娃住，稱婆婆張蘭住在富人區，意外透露二月行程

馬筱梅回應不和倆娃住，稱婆婆張蘭住在富人區，意外透露二月行程

以茶帶書

2026-01-27 14:15:55

太牛了！山東強勢逆轉黑馬，高詩巖蘇醒，小將3分鐘砍11分真猛啊

太牛了！山東強勢逆轉黑馬，高詩巖蘇醒，小將3分鐘砍11分真猛啊

萌蘭聊個球

2026-01-27 21:55:37

東大62歲教授一年半接受約30次“特殊招待”，涉嫌受賄被捕！

東大62歲教授一年半接受約30次“特殊招待”，涉嫌受賄被捕！

超級數學建模

2026-01-27 23:01:21

打虎！包惠被查

新京報政事兒

2026-01-27 18:48:05

特朗普施壓伊朗：美軍派遣艦隊規模，“比在委內瑞拉的還大”；輿論認為伊朗回擊目標涵蓋美軍事基地及以色列

特朗普施壓伊朗：美軍派遣艦隊規模，“比在委內瑞拉的還大”；輿論認為伊朗回擊目標涵蓋美軍事基地及以色列

大風新聞

2026-01-27 11:02:05

監守自盜!2024年,湖北一護林員在山里架980米電網,冰柜中搜出肢體

監守自盜!2024年,湖北一護林員在山里架980米電網,冰柜中搜出肢體

流史歲月

2026-01-27 15:50:03

新郎曬44張婚紗照，新娘正臉僅6張，女方回應

新郎曬44張婚紗照，新娘正臉僅6張，女方回應

楓塵余往逝

2026-01-26 22:10:24

癌癥去世的人越來越多？醫生反復叮囑：寧可打打牌，也別做這5事

癌癥去世的人越來越多？醫生反復叮囑：寧可打打牌，也別做這5事

醫學原創故事會

2026-01-25 22:54:04

韓國娛樂圈到底有多臟？“千面影帝”河正宇父子告訴你

韓國娛樂圈到底有多臟？“千面影帝”河正宇父子告訴你

阿器談史

2026-01-27 15:23:03

0-12開局又如何？豪門末節23-9強勢逆轉，大王創紀錄成史上第6人

0-12開局又如何？豪門末節23-9強勢逆轉，大王創紀錄成史上第6人

萌蘭聊個球

2026-01-27 21:36:56

劉振華當選山西晉城市市長，曾獲評“全國優秀縣委書記”，原市長已任市委書記

劉振華當選山西晉城市市長，曾獲評“全國優秀縣委書記”，原市長已任市委書記

上觀新聞

2026-01-27 17:19:13

賣掉5年油車換電車，開2年后坦言：這些網上說法都是真的

賣掉5年油車換電車，開2年后坦言：這些網上說法都是真的

復轉這些年

2026-01-24 22:57:39

國外狼隊博主：徐彬是有留洋經歷的防守型中場，預計先去青年隊

國外狼隊博主：徐彬是有留洋經歷的防守型中場，預計先去青年隊

懂球帝

2026-01-27 19:33:22

山東車主給代駕贈送茅臺后續，代駕已聯系車主，車主回應網友炸鍋

山東車主給代駕贈送茅臺后續，代駕已聯系車主，車主回應網友炸鍋

離離言幾許

2026-01-27 12:08:06

吃他汀一顆花生不能碰？醫生提醒：不止花生，這5樣食物也要小心

吃他汀一顆花生不能碰？醫生提醒：不止花生，這5樣食物也要小心

路醫生健康科普

2026-01-26 10:09:49

一支筆鎖死中國14億人命運：為何90年過去了，這條斜線誰也動不了

一支筆鎖死中國14億人命運：為何90年過去了，這條斜線誰也動不了

半解智士

2026-01-20 18:03:00

關羽身長九尺，放到如今有多高？1976年，廣西出土一漢尺揭開答案

關羽身長九尺，放到如今有多高？1976年，廣西出土一漢尺揭開答案

銘記歷史呀

2025-12-22 00:37:27

國乒兩大大主力無緣亞洲杯！秦志戩上任迎大考，男單缺少最后底氣

國乒兩大大主力無緣亞洲杯！秦志戩上任迎大考，男單缺少最后底氣

三十年萊斯特城球迷

2026-01-26 22:58:32

“高市下臺！”高市早苗選舉拉票演講第一站，遭日本民眾抗議

“高市下臺！”高市早苗選舉拉票演講第一站，遭日本民眾抗議

環球網資訊

2026-01-27 15:17:19

收回臺灣不是最重要的，只要確保俄羅斯不敗，中國將迎百年大變局

收回臺灣不是最重要的，只要確保俄羅斯不敗，中國將迎百年大變局

阿器談史

2026-01-26 16:34:59

AIGC大模型及應用精選與評測

421文章數 40關注度

往期回顧全部

科技要聞

馬化騰3年年會講話透露了哪些關鍵信息

頭條要聞

因樓下鄰居關閉水閥女子家中斷水400天起訴索賠被駁

頭條要聞

因樓下鄰居關閉水閥女子家中斷水400天起訴索賠被駁

體育要聞

冒充職業球員，比賽規則還和對手現學？

娛樂要聞

張雨綺風波持續發酵，曝多個商務被取消

財經要聞

多地對壟斷行業"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

數碼

家居

藝術

教育要聞

評論丨教師期末“負擔”與總結活動“初衷”，如何不再錯位？

本地新聞

云游中國｜撥開云霧，巫山每幀都是航拍大片

數碼要聞

這事你怎么看索尼與TCL簽署意向備忘錄網友：Sony變Tony了

家居要聞

現代古典中性又顯韻味

流韻雅居，讓復雜變純粹
在家度假 160平南洋混搭宅
法式風情南洋中古居

藝術要聞

日本東京國立博物館中的100幅宋畫

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

^{<sub id="ltnu9"><i id="ltnu9"></i></sub>}

<thead id="ltnu9"><rt id="ltnu9"></rt></thead>