![]()
01|“看懂世界” 這關,大模型還沒上幼兒園
過去一年,大模型在語言與文本推理上突飛猛進:論文能寫、難題能解、甚至在頂級學術 / 競賽類題目上屢屢刷新上限。但一個更關鍵的問題是:當問題不再能 “用語言說清楚” 時,模型還能不能 “看懂”?UniPat AI 攜手紅杉中國 xbench 團隊,并聯合多家大模型公司與高校的研究員,發布新的多模態理解評測集 BabyVision
UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。
如果一個視覺問題可以完全用文字描述且不丟信息,它本質上就會 “退化成文本題”。模型可以靠強大的語言推理能力一路通關,看起來很會看,其實是在走語言捷徑。而真正的視覺能力,需要在沒有語言扶梯的情況下完成:比較、追蹤、空間想象、模式歸納。而 BabyVision 證明了多模態大模型的這些純視覺能力還停留在 “三歲幼兒” 的階段 !
Google DeepMind 創始人 Demis Hassabis,在 25 年終播客中也提到類似觀點:“大模型可以在國際數學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中。”
![]()
![]()
blog
https://unipat.ai/blog/BabyVision
github
https://github.com/UniPat-AI/BabyVision
huggingface
https://huggingface.co/collections/UnipatAI/babyvision
02|把頂尖模型和孩子放到同一張 “純視覺試卷”
BabyVision 先做了一項非常直接的對比實驗:把 20 道視覺中心任務(vision-centric)作為 BabyVision-Mini 交給不同年齡段孩子(3/6/10/12 歲)和當下頂尖多模態模型來做。
這份 “小試卷” 要求嚴格控制語言依賴:題目要求很簡單,答案必須靠視覺信息本身得出。
結果非常 “扎心”(如圖 1 所示):
- 大多數模型的分數,聚集在明顯低于平均 3 歲兒童的區間;
- Gemini3?Pro?Preview 是唯一穩定超過 3 歲基線的模型,但距離 6 歲兒童仍差約 20 個百分點。
下面是其中一道題,直觀且反直覺,連線垃圾分類,小孩可以輕松做對,但頂尖模型追蹤一條線都能追丟。
任務:三件物品沿著線分別連到哪個顏色垃圾桶?
![]()
![]()
- 正確答案:A - 藍,B - 黃,C - 綠
- 模型答案(Gemini3-Pro-Preview):A - 綠,B - 黃,C - 藍
人類的解法幾乎是本能,從點出發沿線走到終點(下面照片是三歲幼兒真實做題痕跡)。但模型會寫出一大段 “逐段追蹤” 的推理,最后仍把兩條路徑接反:看起來 “很會分析”,其實在最基礎的視覺追蹤上掉線。
03|BabyVision?Full 用 388 題,把視覺能力拆成 4 大類能力 22 個子任務
研究團隊將視覺能力提煉為四大核心類別,每類下細分若干子任務:
- 精細辨別(Fine-grained Discrimination):分辨細微的視覺差異(8 個子任務)
- 視覺追蹤(Visual Tracking):跟隨路徑、線條與運動軌跡(5 個子任務)
- 空間感知(Spatial Perception):理解三維結構及其關系(5 個子任務)
- 視覺模式識別(Visual Pattern Recognition):識別邏輯與幾何規律(4 個子任務)
這套設計的核心理念很明確:
不是為了 “刁難” 模型,而是量化那些 “人類直覺就會、但構成智能地基” 的視覺原子能力。這同樣是具身智能(embodied AI)走向現實世界的必修課。
為了最大程度確保 “純視覺” 考核的有效性,BabyVision 在數據構建上也下足了工夫。
項目團隊首先參考了兒童認知教材和視覺發育測驗,梳理出了上述 4 大類共 22 種基礎視覺子任務。
接著,每個子技能挑選出 2-3 個種子示例(種子圖片),作為該類型任務的典型代表。基于這些種子示例,研究者利用逆向圖像搜索和關鍵詞搜索,從互聯網上爬取了約 4000 張相似的候選圖片。
在數據收集過程中,團隊嚴格遵守版權規范,只挑選可用于非商業或學術用途的素材,并過濾掉可能包含大量文字說明或需要文化常識才能理解的圖片。由此獲得的海量圖片進入人工標注環節:多名專業人員逐一檢查圖片,篩除不適合出題的樣本,對保留下來的圖片精心設計問題和標準答案。為了確保答案的客觀正確,每個問題還附有詳細的 “解題過程” 說明,以證明答案確實可由視覺推理得出。
最終,所有標注完成的問題都經過 “雙盲質檢”—— 兩位獨立專家交叉審核,每道題只有在雙方都認可其答案無誤、推理嚴謹的情況下才被收錄 ;若出現異議則退回修改,反復仍無法達成一致的題目則果斷棄用。經過這一系列嚴苛的篩選,BabyVision 最終產出了 388 道高質量視覺題目,涵蓋 22 種子任務。
![]()
最終評測結果:人類 94.1%,最強閉源 49.7%,最強開源 22.2%
在 BabyVision?Full 上,研究團隊引入了人類基線,16 位至少本科背景的測試者完成全量 388 題,人類準確率達94.1%
再看模型:
- 閉源最強:Gemini3?Pro?Preview 49.7%
- 其后:GPT?5.2 34.8%、Doubao?1.8 30.2%
開源側:
- 最強模型(Qwen3VL?235B?Thinking)整體22.2%,多數模型在 12–19% 區間。
更關鍵的是:差距不是集中在某一個類別。四大類能力都在下滑,說明這是 “系統性缺基礎視覺能力”,而非某個單點缺陷。 一些子任務甚至幾乎 “全員翻車”,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型結構化場景能力不足。
![]()
04|為什么會這樣?因為這些視覺推理題目是沒法用語言描述的(Unspeakable)
最反直覺的地方在于:
BabyVision 里的很多題,對人類來說不難,甚至孩子會用指一指、圈一圈、沿著線走一遍就搞定。
但模型一旦用文字去 “復述” 視覺,再用語言推理去算,信息就丟了。
研究團隊把這種現象概括為:
這些視覺題是 “unspeakable” 的,無法在不損失信息的情況下被完整語言化;模型試圖把視覺壓縮成 token,細節在壓縮中消失。
并進一步總結了 4 類典型挑戰:
挑戰 1:看不見 “非語言細節”(Observing Non-Verbal Details)
![]()
比如拼圖 / 補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位。
- 人類憑幾何直覺 “對齊邊界” 就能秒選;
- 模型一旦把形狀用語言概括成 “像鉤子、兩個腿、差不多七八個六邊形”,細節就被抹平,選項在 token 空間里變得 “幾乎一樣”。
挑戰 2:追線追丟了(Manifold Understanding)
![]()
連線 / 繞線 / 軌跡題,答案編碼在 “連通性” 里:
- 人類是鎖定一條線→穿過交叉→一路追到終點;
- 模型往往把線翻譯成 “左 / 右 / 上 / 下” 的離散步驟,一遇到交叉點就出現分叉爆炸,容易 “換軌” 追錯線
挑戰 3:缺少真正的空間想象(Spatial Imagination)
![]()
三維方塊計數、視角投影、遮擋下的結構判斷,人類通常不是 “用語言一步步描述”,而是把結構在腦中 “立起來”,換個角度看,再數。
模型則容易犯兩類錯誤:漏掉隱藏塊、投影關系搞錯。這不是邏輯差,而是缺少穩定的 3D 內部表征與變換能力。
挑戰 4:圖形規律歸納難(Visual Pattern Induction)
![]()
這類題要求從少量視覺示例里抽象出規則,再遷移到新圖。
人類做的是關系映射,真正決定正確性的是 “發生了什么變化” 而不是 “那里有什么”,具體的形狀、顏色、絕對位置都可以變,只有它們在變換中的 “身份” 不變。
模型常常盯著表面屬性(顏色、形狀),把 “結構規則” 誤讀成 “外觀統計”,導致遷移時幻覺規則。
05|如果不讓它用文字回答,讓它 “畫” 呢?BabyVision?Gen 給出一個新方向
當文本推理不夠用,一個自然的問題出現了:
能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?
于是有了 BabyVision?Gen:
- 從原基準中重新標注出280 道適合 “生成式作答” 的題
- 要求模型輸出圖像 / 視頻來表達解題過程或答案
- 并開發了自動評測工具,與人工評測一致性達95%
研究團隊在 BabyVision?Gen 上評測了多種生成模型(包括 Nano?Banana?Pro、Qwen?Image、Veo?3、Sora?2)。現階段得到的結論很克制但重要:
- 生成式推理在視覺追蹤、精細辨別等 VLM 易翻車任務上出現 “更像人類” 的行為(會真的去畫軌跡、做標注);
- 但整體仍然缺乏穩定到達完全正確解的能力。
這至少說明:把視覺推理 “落地到視覺操作” 上,可能是補齊短板的一條路。
下面看一個具體的例子:
任務:用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑。
Sora2
NanoBanana-pro
![]()
06|為什么 BabyVision 重要?因為現實世界不靠語言提示
正如研究團隊在 Blog(https://unipat.ai/blog/BabyVision)中所寫:
很難想象一個視覺能力低于 3 歲孩子的機器人,能夠可靠地在真實物理世界里幫助人類。
今天,多模態模型 “會說會寫” 已經很強。
但要走向真正的通用智能與具身智能,視覺地基必須補上:
- 看得準(細粒度辨別)
- 追得住(軌跡 / 連通性)
- 想得出(3D 結構想象)
- 歸納得了(圖形規則遷移)
BabyVision 的價值正在于:把 “看懂世界” 拆成可測量、可診斷、可迭代的 22 個原子能力,告訴我們差距到底在哪里、下一步該補什么,從而引導多模態大模型發展。
UniPat
UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。
官網鏈接:https://unipat.ai
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.