<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型拿金牌卻輸給三歲寶寶!一套「純視覺考卷」把頂尖VLM打回幼兒園

      0
      分享至


      新智元報道

      編輯:定慧

      【新智元導讀】大模型能寫代碼、解奧數,卻連幼兒園小班都考不過?簡單的連線找垃圾桶、數積木,人類一眼即知,AI卻因為無法用語言「描述」視覺信息而集體翻車。大模型到底「懂不懂」,這個評測基準給出答案。

      過去一年,大模型在語言與文本推理上突飛猛進:論文能寫、難題能解、甚至在頂級學術/競賽類題目上屢屢刷新上限。

      但一個更關鍵的問題是:當問題不再能「用語言說清楚」時,模型還能不能「看懂」?

      為了測評模型能不能「看懂」,以及能「看懂」多少,UniPat AI攜手紅杉中國xbench團隊,并聯合多家大模型公司與高校的研究員,發布新的多模態理解評測集BabyVision。

      UniPat AI致力于構建真實場景下AI訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。

      如果一個視覺問題可以完全用文字描述且不丟信息,它本質上就會退化成文本題。

      模型可以靠強大的語言推理能力一路通關,看起來很會「看」,其實是在走語言捷徑。

      而真正的視覺能力,需要在沒有語言扶梯的情況下完成:比較、追蹤、空間想象、模式歸納。

      Google DeepMind創始人Demis Hassabis曾提到類似觀點:

      「大模型可以在國際數學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中。」

      展望2026年,我們判斷世界模型與視覺多模態將迎來新一輪突破性進展。

      值此開年之際,UniPat AI聯合xbench率先拋出關鍵問題和全新「考卷」,以此迎接并參與新一輪技術突破的到來。

      讓頂尖模型和孩子做同一張試卷

      BabyVision先做了一項非常直接的對比實驗:把20道視覺中心任務(vision-centric)作為BabyVision-Mini交給不同年齡段孩子(3/6/10/12歲)和當下頂尖多模態模型來做。

      這份「小試卷」要求嚴格控制語言依賴:題目要求很簡單,答案必須靠視覺信息本身得出。

      而最終評測結果顯示:在「看懂世界」這方面,大模型還沒上幼兒園:

      • 大多數模型的分數,聚集在明顯低于平均3歲兒童的區間;

      • Gemini-3-Pro-Preview是唯一穩定超過3歲基線的模型,但距離6歲兒童仍差約20個百分點。


      下面是其中一道題,直觀且反直覺,連線垃圾分類,小孩可以輕松做對,但頂尖模型追蹤一條線都能追丟。

      三件物品沿著線分別連到哪個顏色垃圾桶?A, B, C分別表示上方從左到右的三個物體。



      << 左右滑動查看下一張圖片 >>

      • 正確答案:A-藍,B-黃,C-綠

      • 模型答案(Gemini3-Pro-Preview):A-綠,B-黃,C-藍

      人類的解法幾乎是本能,從點出發沿線走到終點(右側照片是三歲幼兒真實做題痕跡)。

      但模型會寫出一大段「逐段追蹤」的推理,最后仍把兩條路徑接反:看起來「很會分析」,其實在最基礎的視覺追蹤上掉線。

      BabyVision-Full把視覺能力拆成4大類

      研究團隊將視覺能力提煉為四大核心類別,每類下細分若干子任務:

      • 精細辨別(Fine-grained Discrimination):分辨細微的視覺差異(8 個子任務)

      • 視覺追蹤(Visual Tracking):跟隨路徑、線條與運動軌跡(5 個子任務)

      • 空間感知(Spatial Perception):理解三維結構及其關系(5 個子任務)

      • 視覺模式識別(VisualPattern Recognition:識別邏輯與幾何規律(4 個子任務)

      這套設計的核心理念很明確:不是為了「刁難」模型,而是量化那些「人類直覺就會、但構成智能地基」的視覺原子能力。

      這同樣是具身智能(embodied AI)走向現實世界的必修課。

      為了最大程度確保「純視覺」考核的有效性,BabyVision在數據構建上也下足了工夫。

      項目團隊首先參考了兒童認知教材和視覺發育測驗,梳理出了上述4大類共22種基礎視覺子任務。

      接著,每個子技能挑選出 4-5 個種子示例(種子圖片),作為該類型任務的典型代表。

      基于這些種子示例,研究者利用逆向圖像搜索和關鍵詞搜索,從互聯網上爬取了約4000張相似的候選圖片。

      在數據收集過程中,團隊嚴格遵守版權規范,只挑選可用于非商業或學術用途的素材,并過濾掉可能包含大量文字說明或需要文化常識才能理解的圖片。

      由此獲得的海量圖片進入人工標注環節:多名專業人員逐一檢查圖片,篩除不適合出題的樣本,對保留下來的圖片精心設計問題和標準答案。

      為了確保答案的客觀正確,每個問題還附有詳細的「解題過程」說明,以證明答案確實可由視覺推理得出。

      最終,所有標注完成的問題都經過「雙盲質檢」——兩位獨立專家交叉審核,每道題只有在雙方都認可其答案無誤、推理嚴謹的情況下才被收錄 ;若出現異議則退回修改,反復仍無法達成一致的題目則果斷棄用。

      經過這一系列嚴苛的篩選,BabyVision最終產出了388道高質量視覺題目,涵蓋22種子任務。


      最終評測結果

      在BabyVision-Full上,研究團隊引入了人類基線,16位至少本科背景的測試者完成全量388題,人類準確率達94.1%。

      再看模型:

      ?閉源最強:Gemini-3-Pro Preview49.7%

      開源側:

      ? 最強模型(Qwen-3-VL-235B-Thinking)整體為22.2%,多數模型在12–19%區間。

      更關鍵的是:差距不是集中在某一個類別。

      四大類能力都在下滑,說明這是「系統性缺基礎視覺能力」,而非某個單點缺陷。

      一些子任務甚至幾乎「全員翻車」,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型結構化場景能力不足。


      為什么會這樣?

      這些題目unspeakable

      最反直覺的地方在于:BabyVision里的很多題,對人類來說不難,甚至孩子會用指一指、圈一圈、沿著線走一遍就搞定。

      但模型一旦用文字去「復述」視覺,再用語言推理去算,信息就丟了。

      研究團隊把這種現象概括為:「這些視覺題是「unspeakable」的,無法在不損失信息的情況下被完整語言化;模型試圖把視覺壓縮成token,細節在壓縮中消失?!?/p>

      并進一步總結了4類典型挑戰:


      挑戰 1:「非語言細節」(Observing Non-Verbal Details)


      比如拼圖/補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位。

      人類憑幾何直覺「對齊邊界」就能秒選,但模型一旦把形狀用語言概括成「像鉤子、兩個腿、差不多七八個六邊形」,細節就被抹平,選項在token空間里變得「幾乎一樣」。


      挑戰 2:追線追丟了(Manifold Understanding)


      連線/繞線/軌跡題,答案編碼在「連通性」里:

      人類是鎖定一條線→穿過交叉→一路追到終點;

      模型往往把線翻譯成「左/右/上/下」的離散步驟,一遇到交叉點就出現分叉爆炸,容易「換軌」追錯線。


      挑戰 3:缺少真正的空間想象(Spatial Imagination)


      三維方塊計數、視角投影、遮擋下的結構判斷,人類通常不是「用語言一步步描述」,而是把結構在腦中「立起來」,換個角度看,再數。

      模型則容易犯兩類錯誤:漏掉隱藏塊、投影關系搞錯。這不是邏輯差,而是缺少穩定的3D內部表征與變換能力。


      挑戰 4:圖形規律歸納難(Visual Pattern Induction)


      這類題要求從少量視覺示例里抽象出規則,再遷移到新圖。

      人類做的是關系映射,真正決定正確性的是「發生了什么變化」而不是「那里有什么」,具體的形狀、顏色、絕對位置都可以變,只有它們在變換中的「身份」不變。

      模型常常盯著表面屬性(顏色、形狀),把「結構規則」誤讀成「外觀統計」,導致遷移時幻覺規則。

      BabyVision-Gen給出一個新方向

      當文本推理不夠用,一個自然的問題出現了:

      能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?

      于是,有了BabyVision-Gen:

      ? 從原基準中重新標注出280道適合「生成式作答」的題

      ?要求模型輸出圖像/視頻來表達解題過程或答案

      ?并開發了自動評測工具,與人工評測一致性達96%

      研究團隊在BabyVision-Gen上評測了多種生成模型(包括Nano Banana Pro、Qwen-Image、Veo 3、Sora 2)。

      現階段得到的結論很克制但重要:

      ? 生成式推理在視覺追蹤、精細辨別等VLM易翻車任務上出現「更像人類」的行為(會真的去畫軌跡、做標注);

      ? 但整體仍然缺乏穩定到達完全正確解的能力。

      這至少說明:把視覺推理「落地到視覺操作」上,可能是補齊短板的一條路。

      下面看一個具體的例子:用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑。

      Sora 2:

      Nano Banana Pro:


      為什么BabyVision重要?

      正如研究團隊在Blog中所寫:

      「很難想象一個視覺能力低于3歲孩子的機器人,能夠可靠地在真實物理世界里幫助人類?!?/strong>

      今天,多模態模型「會說會寫」已經很強,但要走向真正的通用智能與具身智能,視覺地基必須補上:看得準(細粒度辨別),追得住(軌跡/連通性),想得出(3D結構想象),歸納得了(圖形規則遷移)。

      因此,BabyVision的價值正在于:

      把「看懂世界」拆成可測量、可診斷、可迭代的22個原子能力,告訴我們差距到底在哪里、下一步該補什么,從而引導多模態大模型發展。

      開源地址

      blog

      https://unipat.ai/blog/BabyVision

      github

      https://github.com/UniPat-AI/BabyVision

      huggingface

      https://huggingface.co/collections/UnipatAI/babyvision

      UniPat

      UniPat AI致力于構建真實場景下AI訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。

      官網鏈接:https://unipat.ai

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我們建議訪日游客轉向俄羅斯,但赴日的俄羅斯游客創歷史新高

      我們建議訪日游客轉向俄羅斯,但赴日的俄羅斯游客創歷史新高

      火星宏觀
      2026-01-20 18:02:44
      2026款上汽大眾朗逸正式上市 售價12.09萬起

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      車質網
      2026-01-21 09:12:35
      電商平臺驚現800元一顆的粉菠蘿,半月售出近100件,占據熱賣榜前十,商家:哥斯達黎加進口,口感更好一點

      電商平臺驚現800元一顆的粉菠蘿,半月售出近100件,占據熱賣榜前十,商家:哥斯達黎加進口,口感更好一點

      極目新聞
      2026-01-21 16:31:10
      丹麥首相:主權不談判 準備貿易戰

      丹麥首相:主權不談判 準備貿易戰

      新華社
      2026-01-20 22:09:03
      湖南一鎮政府辦事大廳上班時間無人上崗,辦事群眾稱等了1個多小時只好回家,官方回應:屬實已在整改

      湖南一鎮政府辦事大廳上班時間無人上崗,辦事群眾稱等了1個多小時只好回家,官方回應:屬實已在整改

      觀威海
      2026-01-21 15:38:04
      沈伯洋喊有青鳥臺積電才能全球投資!陳揮文轟亂講:應率先汰除他

      沈伯洋喊有青鳥臺積電才能全球投資!陳揮文轟亂講:應率先汰除他

      新時光點滴
      2026-01-22 02:01:21
      慶祝偉大的3:0時,還有人記得被網暴過的U23和西安嗎?

      慶祝偉大的3:0時,還有人記得被網暴過的U23和西安嗎?

      銀河敘事
      2026-01-21 13:03:50
      硬扛兩個月,日不行了,中方第四波制裁開始,高市想見中方領導人

      硬扛兩個月,日不行了,中方第四波制裁開始,高市想見中方領導人

      靚仔情感
      2026-01-22 00:07:51
      國足挺進亞洲杯決賽,郭廣昌獎勵8000萬,球迷盼早日兌現

      國足挺進亞洲杯決賽,郭廣昌獎勵8000萬,球迷盼早日兌現

      安逸安逸
      2026-01-21 08:53:55
      市長的女兒當了局長之后辭職出國:為市長出逃打前站還是另有原因

      市長的女兒當了局長之后辭職出國:為市長出逃打前站還是另有原因

      實話叔
      2024-02-06 18:19:44
      聶衛平前妻王靜太通透鼓勵兒子看望后媽,這份豁達孔祥明真比不了

      聶衛平前妻王靜太通透鼓勵兒子看望后媽,這份豁達孔祥明真比不了

      TVB的四小花
      2026-01-18 15:25:53
      “每次在歐洲吃飯都感覺自己像來上供的?!?>
    </a>
        <h3>
      <a href=窮游網
      2026-01-20 11:11:24
      伊朗,現代人類文明的傷疤

      伊朗,現代人類文明的傷疤

      科海識貝sci
      2026-01-15 16:44:32
      文明暴打正義了,美歐互加關稅

      文明暴打正義了,美歐互加關稅

      遠方青木
      2026-01-21 00:53:42
      72歲大媽逼小伙讓座被拒當場氣死,家屬索賠208萬,判決令人欣慰

      72歲大媽逼小伙讓座被拒當場氣死,家屬索賠208萬,判決令人欣慰

      星宇共鳴
      2025-08-12 17:54:04
      日本載兩名中國臺灣游客的觀光直升機火山口附近失事:機身幾乎粉碎,機上人員下落不明

      日本載兩名中國臺灣游客的觀光直升機火山口附近失事:機身幾乎粉碎,機上人員下落不明

      紅星新聞
      2026-01-21 12:01:17
      丈夫長期酗酒家暴且不同意離婚,不管家里開支和3個孩子,四川36歲女子伙同情夫將其殺害拋尸,分別被判死緩和無期徒刑

      丈夫長期酗酒家暴且不同意離婚,不管家里開支和3個孩子,四川36歲女子伙同情夫將其殺害拋尸,分別被判死緩和無期徒刑

      揚子晚報
      2026-01-21 19:14:03
      一塊不該出現的石頭,上面記載的若是真的,將徹底改寫人類歷史

      一塊不該出現的石頭,上面記載的若是真的,將徹底改寫人類歷史

      豐譚筆錄
      2026-01-09 07:50:09
      CBA積分榜最新排名出爐!廣東大勝重返前2:遼籃第10四川墊底!

      CBA積分榜最新排名出爐!廣東大勝重返前2:遼籃第10四川墊底!

      籃球快餐車
      2026-01-22 00:29:04
      經紀人回應梁小龍去世原因:他不喝酒,不是睡夢中心梗

      經紀人回應梁小龍去世原因:他不喝酒,不是睡夢中心梗

      紅星新聞
      2026-01-19 21:36:00
      2026-01-22 04:11:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14380文章數 66521關注度
      往期回顧 全部

      科技要聞

      給機器人做仿真訓練 這家創企年營收破億

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      丹麥打響第一槍 歐洲用資本保衛格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      家居
      教育
      親子
      藝術
      軍事航空

      家居要聞

      褪去浮華 觸達松弛與欣喜

      教育要聞

      來上課了——非謂語動詞的難點:獨立主格現象第1段

      親子要聞

      永遠愛你老媽

      藝術要聞

      你絕對想不到,他的油畫美得如此驚人!

      軍事要聞

      特朗普:對美國的真正威脅是聯合國和北約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产熟女精品| av一本久道久久波多野结衣| 日本中文字幕不卡在线一区二区| 亚洲欧美色综合影院| 亚洲天堂网在线播放| 夜夜躁狠狠躁日日躁视频| 全部孕妇毛片| 亚洲欧洲∨国产一区二区三区| 91免费在线| 中文字幕亚洲国产精品| 国产在线欧美日韩精品一区二区| 精品国产91久久久久久亚瑟| 国产一区二区三区小说| 亚洲精品无码永久在线观看性色| 亚洲 欧美 唯美 国产 伦 综合| 色窝AV| 天堂网在线观看| 偷拍亚洲一区二区三区| 国产精品卡一卡二| 亚洲性无码av在线| 国产亚洲欧美日韩俺去了| 五月综合网亚洲乱妇久久| 天堂中文字幕观看| 双牌县| 婷婷五月综合丁香在线| 国产三级精品三级男人的天堂| 香蕉av福利精品导航| 一区二区三区四区亚洲自拍| A片A级毛片| 偷拍网日本一区二区三区| 亚洲高清中文字幕在线看不卡 | 在丈前下药侵犯人妻在线| 亚洲乱色一区二区三区丝袜| 无码高潮爽到爆的喷水视频| 国产乱人伦无无码视频试看| 日本高清视频wwww色| 97人妻在线| 久久www视频| 亚洲制服另类无码专区| av区无码字幕中文色| 国产精品久久香蕉免费播放|