紅杉中國 xbench 和 UniPat AI 發(fā)了一個新的多模態(tài)評測集,叫 BabyVision,在這里:
核心發(fā)現(xiàn):當(dāng)前最強(qiáng)的多模態(tài)模型,在純視覺任務(wù)上的得分,普遍低于3歲兒童
人類準(zhǔn)確率 94.1%
而在模型當(dāng)中,Gemini 3 Pro Preview 最高,49.7%
大多數(shù)模型,則在 12-22% 區(qū)間
![]()
這個評測的設(shè)計思路有點(diǎn)意思,和大家分享一下
先看一道題
三件物品,沿著線分別連到哪個顏色垃圾桶?
![]()
正確答案:A-藍(lán),B-黃,C-綠
Gemini 3 Pro Preview 的錯誤答案:A-綠,B-黃,C-藍(lán)
人類怎么做這道題?從點(diǎn)出發(fā),沿著線走到終點(diǎn)
三歲小孩用手指頭比劃一下就能做對
![]()
模型怎么做?輸出一大段的推理過程,看起來很牛逼,但最后還是搞錯了
最頂尖的模型,在最基礎(chǔ)的視覺追蹤上,一敗涂地
這個評測在測什么
BabyVision 把視覺能力拆成了4大類,共22個子任務(wù)
![]()
精細(xì)辨別
分辨細(xì)微的視覺差異,比如找不同、補(bǔ)全拼圖、數(shù)相同圖案,共 8 個子任務(wù)
視覺追蹤
跟隨路徑、線條與運(yùn)動軌跡,比如走迷宮、連線、地鐵圖找站,共 5 個子任務(wù)
空間感知
理解三維結(jié)構(gòu),比如數(shù)方塊、視角投影、折紙展開圖,共 5 個子任務(wù)
視覺模式識別
識別邏輯與幾何規(guī)律,比如旋轉(zhuǎn)規(guī)律、鏡像規(guī)律、邏輯推理,共 4 個子任務(wù)
這套測試有一個核心設(shè)計原則:嚴(yán)格控制語言依賴
題目要求很簡單,答案必須靠視覺信息本身得出
如果一道視覺題可以完全用文字描述且不丟信息,它本質(zhì)上就會退化成文本題,模型可以靠語言推理能力一路通關(guān)
BabyVision 要測的是:當(dāng)語言幫不上忙的時候,模型還能不能「看懂」
然后結(jié)果就是:在BabyVision?Full上,16 位至少本科背景的測試者完成全量 388 題,人類準(zhǔn)確率達(dá) 94.1%,大多數(shù)模型只在 12~19%之間,具體如下
![]()
為什么模型會翻車
研究團(tuán)隊(duì)用了一個詞:unspeakable
這些視覺題無法在不損失信息的情況下被完整語言化
模型試圖把視覺壓縮成 token,細(xì)節(jié)在壓縮中消失
4類典型挑戰(zhàn):
挑戰(zhàn) 1:「非語言細(xì)節(jié)」(Observing Non-Verbal Details)
![]()
拼圖/補(bǔ)全題里,選項(xiàng)差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位
人類憑幾何直覺,就能秒選
模型一旦把形狀用語言概括成「像鉤子、兩個腿、差不多七八個六邊形」,細(xì)節(jié)就被抹平,選項(xiàng)在 token 空間里變得幾乎一樣
挑戰(zhàn) 2:追線追丟了(Manifold Understanding)
![]()
對于連線/繞線/軌跡之類的題,人類會始終鎖定一條線,穿過交叉,一路追到終點(diǎn)
模型往往把線翻譯成左/右/上/下的離散步驟,一遇到交叉點(diǎn)就出現(xiàn)分叉爆炸,容易換軌追錯線
挑戰(zhàn) 3:缺少真正的空間想象(Spatial Imagination)
![]()
三維方塊計數(shù)、視角投影、遮擋下的結(jié)構(gòu)判斷
人類通常是把結(jié)構(gòu)在腦中立起來,換個角度看,再數(shù)
模型容易犯兩類錯誤:漏掉隱藏塊、投影關(guān)系搞錯
所以嘛,大模型目前還是缺少穩(wěn)定的 3D 內(nèi)部表征與變換能力
挑戰(zhàn) 4:圖形規(guī)律歸納難(Visual Pattern Induction)
![]()
這類題,要求從少量視覺示例里抽象出規(guī)則,再遷移到新圖
人類做的是關(guān)系映射,真正決定正確性的是「發(fā)生了什么變化」,具體的形狀、顏色、絕對位置都可以變,只有它們的「身份」不變
模型常常盯著表面屬性(顏色、形狀),把「結(jié)構(gòu)規(guī)則」誤讀成「外觀統(tǒng)計」,導(dǎo)致遷移時幻覺規(guī)則
BabyVision-Gen
既然文本推理不夠用,一個自然的想法:能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?
BabyVision-Gen 就是這個方向的嘗試
從原基準(zhǔn)中重新標(biāo)注出 280 道適合「生成式作答」的題,要求模型輸出圖像或視頻來表達(dá)解題過程
研究團(tuán)隊(duì)測了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑,下面這個是 Sora 的實(shí)現(xiàn)
這個,則是 NanoBanana 的
![]()
初步結(jié)論:生成式推理在視覺追蹤、精細(xì)辨別等 VLM 易翻車的任務(wù)上,出現(xiàn)了「更像人類」的行為
模型會真的去畫軌跡、做標(biāo)注,但整體仍然缺乏穩(wěn)定,無法做到完全正確
把視覺推理「落地到視覺操作」上,可能是補(bǔ)齊短板的一條路
xbench 是什么
這個我得仔細(xì)說說,和 xbench 的朋友們可太熟了,一堆有趣的逗比,新模型出來后,我總是先去找他們?nèi)枺@東西靠譜么
xbench 是紅杉中國 2025 年 5 月發(fā)布的 AI 評測基準(zhǔn)
這是全球首個由投資機(jī)構(gòu)主導(dǎo),核心設(shè)計是雙軌評估體系:
AGI Tracking
驗(yàn)證模型在特定能力維度的智能邊界,題目追求「足夠難、巧妙、有區(qū)分度」
Profession-Aligned
把 AI 系統(tǒng)當(dāng)作數(shù)字員工,放在具體業(yè)務(wù)流程中考察效用價值
已經(jīng)發(fā)布的評測集包括 ScienceQA(研究生水平學(xué)科知識)、DeepSearch(中文互聯(lián)網(wǎng)深度搜索)、招聘和營銷兩個垂類場景
BabyVision 是 AGI Tracking 系列的新成員,專門測多模態(tài)的純視覺能力
Demis Hassabis 說過一句話:大模型可以在國際數(shù)學(xué)奧林匹克拿金牌,卻會在小學(xué)幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中
BabyVision 就是把這個 gap 量化出來
xbench 的設(shè)計思路是 Evergreen Evaluation
持續(xù)維護(hù)、動態(tài)更新,每月匯報最新模型表現(xiàn),每季度更新評估集
作為 AGI 賽道的投資者,紅杉是有驅(qū)動力去要判斷 AI 技術(shù)何時能達(dá)到市場可落地的閾值
傳統(tǒng)評測集容易被刷爆,題目泄露導(dǎo)致過擬合,跟真實(shí)業(yè)務(wù)價值脫節(jié),對于要投錢的事情,紅杉更會以足夠客觀的方式去評估
開源地址
website:https://xbench.org/
blog:https://unipat.ai/blog/BabyVision
github:https://github.com/UniPat-AI/BabyVision
huggingface:https://huggingface.co/collections/UnipatAI/babyvision
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.