網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

紅杉xbench評測：大模型的視覺能力，普遍低于3歲兒童

2026-01-12 11:15:48　來源: 賽博禪心

北京舉報

分享至

紅杉中國 xbench 和 UniPat AI 發(fā)了一個新的多模態(tài)評測集，叫 BabyVision，在這里：

核心發(fā)現(xiàn)：當(dāng)前最強(qiáng)的多模態(tài)模型，在純視覺任務(wù)上的得分，普遍低于3歲兒童

人類準(zhǔn)確率 94.1%
而在模型當(dāng)中，Gemini 3 Pro Preview 最高，49.7%
大多數(shù)模型，則在 12-22% 區(qū)間

這個評測的設(shè)計思路有點(diǎn)意思，和大家分享一下

先看一道題

三件物品，沿著線分別連到哪個顏色垃圾桶？

正確答案：A-藍(lán)，B-黃，C-綠
Gemini 3 Pro Preview 的錯誤答案：A-綠，B-黃，C-藍(lán)

人類怎么做這道題？從點(diǎn)出發(fā)，沿著線走到終點(diǎn)
三歲小孩用手指頭比劃一下就能做對

模型怎么做？輸出一大段的推理過程，看起來很牛逼，但最后還是搞錯了
最頂尖的模型，在最基礎(chǔ)的視覺追蹤上，一敗涂地

這個評測在測什么

BabyVision 把視覺能力拆成了4大類，共22個子任務(wù)

精細(xì)辨別
分辨細(xì)微的視覺差異，比如找不同、補(bǔ)全拼圖、數(shù)相同圖案，共 8 個子任務(wù)

視覺追蹤
跟隨路徑、線條與運(yùn)動軌跡，比如走迷宮、連線、地鐵圖找站，共 5 個子任務(wù)

空間感知
理解三維結(jié)構(gòu)，比如數(shù)方塊、視角投影、折紙展開圖，共 5 個子任務(wù)

視覺模式識別
識別邏輯與幾何規(guī)律，比如旋轉(zhuǎn)規(guī)律、鏡像規(guī)律、邏輯推理，共 4 個子任務(wù)

這套測試有一個核心設(shè)計原則：嚴(yán)格控制語言依賴

題目要求很簡單，答案必須靠視覺信息本身得出
如果一道視覺題可以完全用文字描述且不丟信息，它本質(zhì)上就會退化成文本題，模型可以靠語言推理能力一路通關(guān)

BabyVision 要測的是：當(dāng)語言幫不上忙的時候，模型還能不能「看懂」

然后結(jié)果就是：在BabyVision?Full上，16 位至少本科背景的測試者完成全量 388 題，人類準(zhǔn)確率達(dá) 94.1%，大多數(shù)模型只在 12～19%之間，具體如下

為什么模型會翻車

研究團(tuán)隊(duì)用了一個詞：unspeakable

這些視覺題無法在不損失信息的情況下被完整語言化
模型試圖把視覺壓縮成 token，細(xì)節(jié)在壓縮中消失

4類典型挑戰(zhàn)：

挑戰(zhàn) 1：「非語言細(xì)節(jié)」（Observing Non-Verbal Details）

拼圖/補(bǔ)全題里，選項(xiàng)差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位

人類憑幾何直覺，就能秒選

模型一旦把形狀用語言概括成「像鉤子、兩個腿、差不多七八個六邊形」，細(xì)節(jié)就被抹平，選項(xiàng)在 token 空間里變得幾乎一樣

挑戰(zhàn) 2：追線追丟了（Manifold Understanding）

對于連線/繞線/軌跡之類的題，人類會始終鎖定一條線，穿過交叉，一路追到終點(diǎn)

模型往往把線翻譯成左/右/上/下的離散步驟，一遇到交叉點(diǎn)就出現(xiàn)分叉爆炸，容易換軌追錯線

挑戰(zhàn) 3：缺少真正的空間想象（Spatial Imagination）

三維方塊計數(shù)、視角投影、遮擋下的結(jié)構(gòu)判斷
人類通常是把結(jié)構(gòu)在腦中立起來，換個角度看，再數(shù)

模型容易犯兩類錯誤：漏掉隱藏塊、投影關(guān)系搞錯
所以嘛，大模型目前還是缺少穩(wěn)定的 3D 內(nèi)部表征與變換能力

挑戰(zhàn) 4：圖形規(guī)律歸納難（Visual Pattern Induction）

這類題，要求從少量視覺示例里抽象出規(guī)則，再遷移到新圖

人類做的是關(guān)系映射，真正決定正確性的是「發(fā)生了什么變化」，具體的形狀、顏色、絕對位置都可以變，只有它們的「身份」不變

模型常常盯著表面屬性（顏色、形狀），把「結(jié)構(gòu)規(guī)則」誤讀成「外觀統(tǒng)計」，導(dǎo)致遷移時幻覺規(guī)則

BabyVision-Gen

既然文本推理不夠用，一個自然的想法：能不能讓模型像孩子一樣，用畫、圈、連線、描軌跡來作答？

BabyVision-Gen 就是這個方向的嘗試

從原基準(zhǔn)中重新標(biāo)注出 280 道適合「生成式作答」的題，要求模型輸出圖像或視頻來表達(dá)解題過程

研究團(tuán)隊(duì)測了 Sora 2、Veo 3、Qwen-Image 等生成模型，比如用紅線沿著從左上角圖形延伸出的那條線，完整地描出其全程路徑，下面這個是 Sora 的實(shí)現(xiàn)

這個，則是 NanoBanana 的

初步結(jié)論：生成式推理在視覺追蹤、精細(xì)辨別等 VLM 易翻車的任務(wù)上，出現(xiàn)了「更像人類」的行為

模型會真的去畫軌跡、做標(biāo)注，但整體仍然缺乏穩(wěn)定，無法做到完全正確

把視覺推理「落地到視覺操作」上，可能是補(bǔ)齊短板的一條路

xbench 是什么

這個我得仔細(xì)說說，和 xbench 的朋友們可太熟了，一堆有趣的逗比，新模型出來后，我總是先去找他們?nèi)枺@東西靠譜么

xbench 是紅杉中國 2025 年 5 月發(fā)布的 AI 評測基準(zhǔn)
這是全球首個由投資機(jī)構(gòu)主導(dǎo)，核心設(shè)計是雙軌評估體系：

AGI Tracking
驗(yàn)證模型在特定能力維度的智能邊界，題目追求「足夠難、巧妙、有區(qū)分度」

Profession-Aligned
把 AI 系統(tǒng)當(dāng)作數(shù)字員工，放在具體業(yè)務(wù)流程中考察效用價值

已經(jīng)發(fā)布的評測集包括 ScienceQA（研究生水平學(xué)科知識）、DeepSearch（中文互聯(lián)網(wǎng)深度搜索）、招聘和營銷兩個垂類場景

BabyVision 是 AGI Tracking 系列的新成員，專門測多模態(tài)的純視覺能力

Demis Hassabis 說過一句話：大模型可以在國際數(shù)學(xué)奧林匹克拿金牌，卻會在小學(xué)幾何題上出錯；它能生成驚艷圖像，卻不理解杯子為什么不會飄在空中

BabyVision 就是把這個 gap 量化出來

xbench 的設(shè)計思路是 Evergreen Evaluation
持續(xù)維護(hù)、動態(tài)更新，每月匯報最新模型表現(xiàn)，每季度更新評估集

作為 AGI 賽道的投資者，紅杉是有驅(qū)動力去要判斷 AI 技術(shù)何時能達(dá)到市場可落地的閾值

傳統(tǒng)評測集容易被刷爆，題目泄露導(dǎo)致過擬合，跟真實(shí)業(yè)務(wù)價值脫節(jié)，對于要投錢的事情，紅杉更會以足夠客觀的方式去評估

開源地址

website：
https://xbench.org/

blog：
https://unipat.ai/blog/BabyVision

github：
https://github.com/UniPat-AI/BabyVision

huggingface：
https://huggingface.co/collections/UnipatAI/babyvision

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

極佳視界斬獲全球第一后，GigaBrain-0.5M*再進(jìn)化

機(jī)器之心Pro 2026-02-14 15:39:15
0 跟貼 0
具身智能奇點(diǎn)已至！超越π*0.6，極佳視界自我進(jìn)化VLA大模型拿下世界第一

新智元 2026-02-14 12:56:13
13 跟貼 13

Seedance一騎絕塵背后：中國AI春節(jié)前為何“殺瘋了”？

澎湃新聞 2026-02-15 07:50:28
118 跟貼 118

萬億思考模型新速度！螞蟻開源Ring-2.5-1T

量子位 2026-02-14 11:16:17
0 跟貼 0
英偉達(dá)研究：看完44000小時人類視頻后，機(jī)器人學(xué)會想象物理世界

DeepTech深科技 2026-02-13 17:38:23
6 跟貼 6

萬億思考模型奪下IMO金牌，無縫接入OpenClaw！一句話手搓丐版PS

新智元 2026-02-15 12:17:21
18 跟貼 18

AI戰(zhàn)事正酣，都在等梁文鋒

36氪 2026-02-15 11:50:21
12 跟貼 12
大模型三箭齊發(fā)、芯片崗位低調(diào)招聘，字節(jié)跳動不只想贏下AI“春節(jié)檔”

每日經(jīng)濟(jì)新聞 2026-02-15 09:35:33
30 跟貼 30

36氪出海·全球化公司｜追覓割草機(jī)器人：借雙IP破圈，以技術(shù)立標(biāo)桿，深耕全球化布局

36氪 2026-02-15 12:11:06
0 跟貼 0
天下苦CUDA久矣，又一國產(chǎn)方案上桌了

量子位 2026-01-30 21:59:52
3 跟貼 3
AI遇上最強(qiáng)春節(jié)檔 Token通脹已成必然？

財聯(lián)社 2026-02-15 17:23:09
0 跟貼 0
千問總裁吳嘉回應(yīng)千問爆火：堅信中國的AI應(yīng)用領(lǐng)域會走在世界前列

華爾街見聞官方 2026-02-15 18:57:23
8 跟貼 8
微軟放話一年消滅白領(lǐng)！硅谷老板流行借助AI親自上手一切

新智元 2026-02-15 19:06:11
9 跟貼 9
AI催生巨量Token消耗、內(nèi)存硬件緊缺算力租賃熱潮下，運(yùn)營商加碼布局液冷服務(wù)器

每日經(jīng)濟(jì)新聞 2026-02-15 19:35:15
7 跟貼 7
眼睛看到未必是真，視覺假象暗藏玄機(jī)，眼睛真的會騙人

搞笑君來了 2026-02-14 00:00:00
0 跟貼 0
公認(rèn)零差評的6部科幻片，每部都是視覺盛宴

小Q侃電影 2026-02-15 19:20:52
3 跟貼 3
復(fù)旦提出簡單指標(biāo)，找出推理蒸餾中真正有教學(xué)價值的數(shù)據(jù)

機(jī)器之心Pro 2026-01-28 14:00:43
0 跟貼 0
透視高層住宅：從建設(shè)到衰敗的資產(chǎn)邏輯。一起來聽聽

豎笛小魔王 2026-02-15 04:08:45
23 跟貼 23
好神奇！視覺的錯位沖擊，在看就要睡著了

講事的少少 2026-02-15 10:45:49
1 跟貼 1
逛花展迎新春

新浪財經(jīng) 2026-02-15 19:47:09
0 跟貼 0
全景視覺的Depth Anything來了！

機(jī)器之心Pro 2025-12-29 16:54:58
0 跟貼 0
仿真落地三難點(diǎn)：物理、視覺、交互

量子位 2025-12-12 04:34:09
0 跟貼 0
再也不擔(dān)心配置踩坑!Steam將更新評測硬件關(guān)聯(lián)功能

游民星空 2026-02-15 23:14:08
4 跟貼 4
令人敬佩！《羅密歐是個絕命俠》官推主動展示差評

3DM游戲 2026-02-15 09:54:38
1 跟貼 1
告別無腦差評？V社推出新功能讓評價更有參考性！

游民星空 2026-02-15 12:53:16
6 跟貼 6
科學(xué)家：人類滅絕是必然的！這是宇宙運(yùn)轉(zhuǎn)的永恒規(guī)律！

未來宇宙w 2026-02-12 16:29:15
17 跟貼 17
美媒發(fā)出感慨：美國過時了中國出乎意料成了熱門

環(huán)球時報 2026-02-15 12:00:05
14790 跟貼 14790
【三維地圖講解】北齊堪稱中國歷史上最禽獸的王朝！

地圖里的歷史 2026-02-13 11:52:00
13 跟貼 13
AI真的是無所不能，輕松違背物理規(guī)律，以后糕點(diǎn)都得是黃金寶石

騰飛之笑 2026-02-13 11:25:39
1 跟貼 1
“地球巨眼捕捉百米死神，見證超視覺奇觀！”

星云母體在分娩n 2026-02-14 01:56:34
3 跟貼 3
老一輩留下來的規(guī)律，每隔七年，女性身體就會發(fā)生變化！

欣欣旅行家 2026-02-13 09:11:50
0 跟貼 0
小鳥從小比較嬌貴，必須要手養(yǎng)它才行，有了模型養(yǎng)幾十只不是問題

發(fā)怒的福貓 2026-02-13 13:39:20
2 跟貼 2
大逆轉(zhuǎn)！最低溫-1℃！冷空氣即將抵達(dá)廣西

環(huán)球網(wǎng)資訊 2026-02-15 15:34:20
58 跟貼 58
汽車廠：DeepSeek已成牛夫人，千問和豆包才是小甜甜

燃擎頻道 2026-02-14 18:43:10
0 跟貼 0
就愛看大張偉說段子，全程無邏輯吐槽，閻鶴祥笑到起不來身

琴音似君語 2026-02-14 08:19:45
1 跟貼 1
JustGRPO：擴(kuò)散語言模型的極簡主義回歸

機(jī)器之心Pro 2026-01-29 12:09:40
0 跟貼 0
最高可得2888元！剛剛，千問APP宣布發(fā)放口令紅包

大象新聞 2026-02-15 17:59:05
46 跟貼 46
美國為證實(shí)時間是否存在，計劃將一女子關(guān)地下洞穴210天

明智家庭教育 2026-02-15 20:59:41
0 跟貼 0
美游客拒歸2400小時，西方濾鏡破碎打臉太響

你是我心中最美星空 2026-02-16 03:06:26
4 跟貼 4
重慶兩套法拍房以192萬余元起拍，物業(yè)欠費(fèi)卻達(dá)108萬余元，物業(yè)方回應(yīng)：實(shí)際欠費(fèi)28萬余元，80萬余元滯納金可協(xié)商處理

極目新聞 2026-02-15 14:37:25
4312 跟貼 4312

賽博禪心

拜AI古佛，修賽博禪心

293文章數(shù) 36關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

旅游

本地

時尚

公開課

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

紅杉xbench評測：大模型的視覺能力，普遍低于3歲兒童

發(fā)春節(jié)紅包的大廠都被約談了

大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特 撞臉明星

大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特 撞臉明星

NBA三分大賽:利拉德帶傷第三次奪冠

2026央視春晚最新劇透 重量級嘉賓登場

誰在掌控你的胃？起底百億"飄香劑"江湖

奔馳中國換帥：段建軍離任，李德思接棒

態(tài)度原創(chuàng)

168米！廣州“翠竹”摩天大樓復(fù)工？

開放機(jī)關(guān)事業(yè)單位床位給游客，“寵客”還要善始善終

春花齊放2026：《駿馬奔騰迎新歲》

多巴胺失寵了？過年這樣穿彩色時髦又減齡

大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特撞臉明星

大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特撞臉明星

2026央視春晚最新劇透重量級嘉賓登場