![]()
來(lái)源:機(jī)器之心
01|“看懂世界” 這關(guān),大模型還沒(méi)上幼兒園
過(guò)去一年,大模型在語(yǔ)言與文本推理上突飛猛進(jìn):論文能寫、難題能解、甚至在頂級(jí)學(xué)術(shù) / 競(jìng)賽類題目上屢屢刷新上限。但一個(gè)更關(guān)鍵的問(wèn)題是:當(dāng)問(wèn)題不再能 “用語(yǔ)言說(shuō)清楚” 時(shí),模型還能不能 “看懂”?UniPat AI 攜手紅杉中國(guó) xbench 團(tuán)隊(duì),并聯(lián)合多家大模型公司與高校的研究員,發(fā)布新的多模態(tài)理解評(píng)測(cè)集 BabyVision。
UniPat AI 致力于構(gòu)建真實(shí)場(chǎng)景下 AI 訓(xùn)練、評(píng)測(cè)與應(yīng)用的新范式,推動(dòng)其實(shí)現(xiàn)可泛化、可信賴的真實(shí)世界部署,并創(chuàng)造切實(shí)的經(jīng)濟(jì)與社會(huì)價(jià)值。
如果一個(gè)視覺(jué)問(wèn)題可以完全用文字描述且不丟信息,它本質(zhì)上就會(huì) “退化成文本題”。模型可以靠強(qiáng)大的語(yǔ)言推理能力一路通關(guān),看起來(lái)很會(huì)看,其實(shí)是在走語(yǔ)言捷徑。而真正的視覺(jué)能力,需要在沒(méi)有語(yǔ)言扶梯的情況下完成:比較、追蹤、空間想象、模式歸納。而 BabyVision 證明了多模態(tài)大模型的這些純視覺(jué)能力還停留在 “三歲幼兒” 的階段 !
Google DeepMind 創(chuàng)始人 Demis Hassabis,在 25 年終播客中也提到類似觀點(diǎn):“大模型可以在國(guó)際數(shù)學(xué)奧林匹克拿金牌,卻會(huì)在小學(xué)幾何題上出錯(cuò);它能生成驚艷圖像,卻不理解杯子為什么不會(huì)飄在空中。”
![]()
![]()
blog
https://unipat.ai/blog/BabyVision
github
https://github.com/UniPat-AI/BabyVision
huggingface
https://huggingface.co/collections/UnipatAI/babyvision
02|把頂尖模型和孩子放到同一張 “純視覺(jué)試卷”
BabyVision 先做了一項(xiàng)非常直接的對(duì)比實(shí)驗(yàn):把 20 道視覺(jué)中心任務(wù)(vision-centric)作為 BabyVision-Mini 交給不同年齡段孩子(3/6/10/12 歲)和當(dāng)下頂尖多模態(tài)模型來(lái)做。
這份 “小試卷” 要求嚴(yán)格控制語(yǔ)言依賴:題目要求很簡(jiǎn)單,答案必須靠視覺(jué)信息本身得出。
結(jié)果非常 “扎心”(如圖 1 所示):
大多數(shù)模型的分?jǐn)?shù),聚集在明顯低于平均 3 歲兒童的區(qū)間;
Gemini3?Pro?Preview 是唯一穩(wěn)定超過(guò) 3 歲基線的模型,但距離 6 歲兒童仍差約 20 個(gè)百分點(diǎn)。
下面是其中一道題,直觀且反直覺(jué),連線垃圾分類,小孩可以輕松做對(duì),但頂尖模型追蹤一條線都能追丟。
任務(wù):三件物品沿著線分別連到哪個(gè)顏色垃圾桶?
![]()
![]()
正確答案:A - 藍(lán),B - 黃,C - 綠
模型答案(Gemini3-Pro-Preview):A - 綠,B - 黃,C - 藍(lán)
人類的解法幾乎是本能,從點(diǎn)出發(fā)沿線走到終點(diǎn)(下面照片是三歲幼兒真實(shí)做題痕跡)。但模型會(huì)寫出一大段 “逐段追蹤” 的推理,最后仍把兩條路徑接反:看起來(lái) “很會(huì)分析”,其實(shí)在最基礎(chǔ)的視覺(jué)追蹤上掉線。
03|BabyVision?Full 用 388 題,把視覺(jué)能力拆成 4 大類能力 22 個(gè)子任務(wù)
研究團(tuán)隊(duì)將視覺(jué)能力提煉為四大核心類別,每類下細(xì)分若干子任務(wù):
精細(xì)辨別(Fine-grained Discrimination):分辨細(xì)微的視覺(jué)差異(8 個(gè)子任務(wù))
視覺(jué)追蹤(Visual Tracking):跟隨路徑、線條與運(yùn)動(dòng)軌跡(5 個(gè)子任務(wù))
空間感知(Spatial Perception):理解三維結(jié)構(gòu)及其關(guān)系(5 個(gè)子任務(wù))
視覺(jué)模式識(shí)別(Visual Pattern Recognition):識(shí)別邏輯與幾何規(guī)律(4 個(gè)子任務(wù))
這套設(shè)計(jì)的核心理念很明確:
不是為了 “刁難” 模型,而是量化那些 “人類直覺(jué)就會(huì)、但構(gòu)成智能地基” 的視覺(jué)原子能力。這同樣是具身智能(embodied AI)走向現(xiàn)實(shí)世界的必修課。
為了最大程度確保 “純視覺(jué)” 考核的有效性,BabyVision 在數(shù)據(jù)構(gòu)建上也下足了工夫。
項(xiàng)目團(tuán)隊(duì)首先參考了兒童認(rèn)知教材和視覺(jué)發(fā)育測(cè)驗(yàn),梳理出了上述 4 大類共 22 種基礎(chǔ)視覺(jué)子任務(wù)。
接著,每個(gè)子技能挑選出 2-3 個(gè)種子示例(種子圖片),作為該類型任務(wù)的典型代表。基于這些種子示例,研究者利用逆向圖像搜索和關(guān)鍵詞搜索,從互聯(lián)網(wǎng)上爬取了約 4000 張相似的候選圖片。
在數(shù)據(jù)收集過(guò)程中,團(tuán)隊(duì)嚴(yán)格遵守版權(quán)規(guī)范,只挑選可用于非商業(yè)或?qū)W術(shù)用途的素材,并過(guò)濾掉可能包含大量文字說(shuō)明或需要文化常識(shí)才能理解的圖片。由此獲得的海量圖片進(jìn)入人工標(biāo)注環(huán)節(jié):多名專業(yè)人員逐一檢查圖片,篩除不適合出題的樣本,對(duì)保留下來(lái)的圖片精心設(shè)計(jì)問(wèn)題和標(biāo)準(zhǔn)答案。為了確保答案的客觀正確,每個(gè)問(wèn)題還附有詳細(xì)的 “解題過(guò)程” 說(shuō)明,以證明答案確實(shí)可由視覺(jué)推理得出。
最終,所有標(biāo)注完成的問(wèn)題都經(jīng)過(guò) “雙盲質(zhì)檢”—— 兩位獨(dú)立專家交叉審核,每道題只有在雙方都認(rèn)可其答案無(wú)誤、推理嚴(yán)謹(jǐn)?shù)那闆r下才被收錄 ;若出現(xiàn)異議則退回修改,反復(fù)仍無(wú)法達(dá)成一致的題目則果斷棄用。經(jīng)過(guò)這一系列嚴(yán)苛的篩選,BabyVision 最終產(chǎn)出了 388 道高質(zhì)量視覺(jué)題目,涵蓋 22 種子任務(wù)。
![]()
最終評(píng)測(cè)結(jié)果:人類 94.1%,最強(qiáng)閉源 49.7%,最強(qiáng)開(kāi)源 22.2%
在 BabyVision?Full 上,研究團(tuán)隊(duì)引入了人類基線,16 位至少本科背景的測(cè)試者完成全量 388 題,人類準(zhǔn)確率達(dá)94.1%。
再看模型:
閉源最強(qiáng):Gemini3?Pro?Preview 49.7%
其后:GPT?5.2 34.8%、Doubao?1.8 30.2%
開(kāi)源側(cè):
最強(qiáng)模型(Qwen3VL?235B?Thinking)整體22.2%,多數(shù)模型在 12–19% 區(qū)間。
更關(guān)鍵的是:差距不是集中在某一個(gè)類別。四大類能力都在下滑,說(shuō)明這是 “系統(tǒng)性缺基礎(chǔ)視覺(jué)能力”,而非某個(gè)單點(diǎn)缺陷。 一些子任務(wù)甚至幾乎 “全員翻車”,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型結(jié)構(gòu)化場(chǎng)景能力不足。
![]()
04|為什么會(huì)這樣?因?yàn)檫@些視覺(jué)推理題目是沒(méi)法用語(yǔ)言描述的(Unspeakable)
最反直覺(jué)的地方在于:
BabyVision 里的很多題,對(duì)人類來(lái)說(shuō)不難,甚至孩子會(huì)用指一指、圈一圈、沿著線走一遍就搞定。
但模型一旦用文字去 “復(fù)述” 視覺(jué),再用語(yǔ)言推理去算,信息就丟了。
研究團(tuán)隊(duì)把這種現(xiàn)象概括為:
這些視覺(jué)題是 “unspeakable” 的,無(wú)法在不損失信息的情況下被完整語(yǔ)言化;模型試圖把視覺(jué)壓縮成 token,細(xì)節(jié)在壓縮中消失。
并進(jìn)一步總結(jié)了 4 類典型挑戰(zhàn):
挑戰(zhàn) 1:看不見(jiàn) “非語(yǔ)言細(xì)節(jié)”(Observing Non-Verbal Details)
![]()
比如拼圖 / 補(bǔ)全題里,選項(xiàng)差別可能只是一個(gè)微小邊界、一個(gè)局部凸起、一個(gè)像素級(jí)錯(cuò)位。
人類憑幾何直覺(jué) “對(duì)齊邊界” 就能秒選;
模型一旦把形狀用語(yǔ)言概括成 “像鉤子、兩個(gè)腿、差不多七八個(gè)六邊形”,細(xì)節(jié)就被抹平,選項(xiàng)在 token 空間里變得 “幾乎一樣”。
挑戰(zhàn) 2:追線追丟了(Manifold Understanding)
![]()
連線 / 繞線 / 軌跡題,答案編碼在 “連通性” 里:
人類是鎖定一條線→穿過(guò)交叉→一路追到終點(diǎn);
模型往往把線翻譯成 “左 / 右 / 上 / 下” 的離散步驟,一遇到交叉點(diǎn)就出現(xiàn)分叉爆炸,容易 “換軌” 追錯(cuò)線。
挑戰(zhàn) 3:缺少真正的空間想象(Spatial Imagination)
![]()
三維方塊計(jì)數(shù)、視角投影、遮擋下的結(jié)構(gòu)判斷,人類通常不是 “用語(yǔ)言一步步描述”,而是把結(jié)構(gòu)在腦中 “立起來(lái)”,換個(gè)角度看,再數(shù)。
模型則容易犯兩類錯(cuò)誤:漏掉隱藏塊、投影關(guān)系搞錯(cuò)。這不是邏輯差,而是缺少穩(wěn)定的 3D 內(nèi)部表征與變換能力。
挑戰(zhàn) 4:圖形規(guī)律歸納難(Visual Pattern Induction)
![]()
這類題要求從少量視覺(jué)示例里抽象出規(guī)則,再遷移到新圖。
人類做的是關(guān)系映射,真正決定正確性的是 “發(fā)生了什么變化” 而不是 “那里有什么”,具體的形狀、顏色、絕對(duì)位置都可以變,只有它們?cè)谧儞Q中的 “身份” 不變。
模型常常盯著表面屬性(顏色、形狀),把 “結(jié)構(gòu)規(guī)則” 誤讀成 “外觀統(tǒng)計(jì)”,導(dǎo)致遷移時(shí)幻覺(jué)規(guī)則。
05|如果不讓它用文字回答,讓它 “畫” 呢?BabyVision?Gen 給出一個(gè)新方向
當(dāng)文本推理不夠用,一個(gè)自然的問(wèn)題出現(xiàn)了:
能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來(lái)作答?
于是有了 BabyVision?Gen:
從原基準(zhǔn)中重新標(biāo)注出280 道適合 “生成式作答” 的題
要求模型輸出圖像 / 視頻來(lái)表達(dá)解題過(guò)程或答案
并開(kāi)發(fā)了自動(dòng)評(píng)測(cè)工具,與人工評(píng)測(cè)一致性達(dá)95%
研究團(tuán)隊(duì)在 BabyVision?Gen 上評(píng)測(cè)了多種生成模型(包括 Nano?Banana?Pro、Qwen?Image、Veo?3、Sora?2)。現(xiàn)階段得到的結(jié)論很克制但重要:
生成式推理在視覺(jué)追蹤、精細(xì)辨別等 VLM 易翻車任務(wù)上出現(xiàn) “更像人類” 的行為(會(huì)真的去畫軌跡、做標(biāo)注);
但整體仍然缺乏穩(wěn)定到達(dá)完全正確解的能力。
這至少說(shuō)明:把視覺(jué)推理 “落地到視覺(jué)操作” 上,可能是補(bǔ)齊短板的一條路。
下面看一個(gè)具體的例子:
任務(wù):用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑。
Sora2
NanoBanana-pro
![]()
06|為什么 BabyVision 重要?因?yàn)楝F(xiàn)實(shí)世界不靠語(yǔ)言提示
正如研究團(tuán)隊(duì)在 Blog(https://unipat.ai/blog/BabyVision)中所寫:
很難想象一個(gè)視覺(jué)能力低于 3 歲孩子的機(jī)器人,能夠可靠地在真實(shí)物理世界里幫助人類。
今天,多模態(tài)模型 “會(huì)說(shuō)會(huì)寫” 已經(jīng)很強(qiáng)。
但要走向真正的通用智能與具身智能,視覺(jué)地基必須補(bǔ)上:
看得準(zhǔn)(細(xì)粒度辨別)
追得住(軌跡 / 連通性)
想得出(3D 結(jié)構(gòu)想象)
歸納得了(圖形規(guī)則遷移)
BabyVision 的價(jià)值正在于:把 “看懂世界” 拆成可測(cè)量、可診斷、可迭代的 22 個(gè)原子能力,告訴我們差距到底在哪里、下一步該補(bǔ)什么,從而引導(dǎo)多模態(tài)大模型發(fā)展。
UniPat
UniPat AI 致力于構(gòu)建真實(shí)場(chǎng)景下 AI 訓(xùn)練、評(píng)測(cè)與應(yīng)用的新范式,推動(dòng)其實(shí)現(xiàn)可泛化、可信賴的真實(shí)世界部署,并創(chuàng)造切實(shí)的經(jīng)濟(jì)與社會(huì)價(jià)值。
官網(wǎng)鏈接:https://unipat.ai
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828
![]()
未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.