<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      頂尖AI竟輸給三歲寶寶,BabyVision測試暴露多模態模型硬傷

      0
      分享至



      01|“看懂世界” 這關,大模型還沒上幼兒園

      過去一年,大模型在語言與文本推理上突飛猛進:論文能寫、難題能解、甚至在頂級學術 / 競賽類題目上屢屢刷新上限。但一個更關鍵的問題是:當問題不再能 “用語言說清楚” 時,模型還能不能 “看懂”?UniPat AI 攜手紅杉中國 xbench 團隊,并聯合多家大模型公司與高校的研究員,發布新的多模態理解評測集 BabyVision

      UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。

      如果一個視覺問題可以完全用文字描述且不丟信息,它本質上就會 “退化成文本題”。模型可以靠強大的語言推理能力一路通關,看起來很會看,其實是在走語言捷徑。而真正的視覺能力,需要在沒有語言扶梯的情況下完成:比較、追蹤、空間想象、模式歸納。而 BabyVision 證明了多模態大模型的這些純視覺能力還停留在 “三歲幼兒” 的階段 !

      Google DeepMind 創始人 Demis Hassabis,在 25 年終播客中也提到類似觀點:“大模型可以在國際數學奧林匹克拿金牌,卻會在小學幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中。”





      blog

      https://unipat.ai/blog/BabyVision

      github

      https://github.com/UniPat-AI/BabyVision

      huggingface

      https://huggingface.co/collections/UnipatAI/babyvision

      02|把頂尖模型和孩子放到同一張 “純視覺試卷”

      BabyVision 先做了一項非常直接的對比實驗:把 20 道視覺中心任務(vision-centric)作為 BabyVision-Mini 交給不同年齡段孩子(3/6/10/12 歲)和當下頂尖多模態模型來做。

      這份 “小試卷” 要求嚴格控制語言依賴:題目要求很簡單,答案必須靠視覺信息本身得出。

      結果非常 “扎心”(如圖 1 所示):

      • 大多數模型的分數,聚集在明顯低于平均 3 歲兒童的區間;
      • Gemini3?Pro?Preview 是唯一穩定超過 3 歲基線的模型,但距離 6 歲兒童仍差約 20 個百分點。

      下面是其中一道題,直觀且反直覺,連線垃圾分類,小孩可以輕松做對,但頂尖模型追蹤一條線都能追丟。

      任務:三件物品沿著線分別連到哪個顏色垃圾桶?





      • 正確答案:A - 藍,B - 黃,C - 綠
      • 模型答案(Gemini3-Pro-Preview):A - 綠,B - 黃,C - 藍

      人類的解法幾乎是本能,從點出發沿線走到終點(下面照片是三歲幼兒真實做題痕跡)。但模型會寫出一大段 “逐段追蹤” 的推理,最后仍把兩條路徑接反:看起來 “很會分析”,其實在最基礎的視覺追蹤上掉線。

      03|BabyVision?Full 用 388 題,把視覺能力拆成 4 大類能力 22 個子任務

      研究團隊將視覺能力提煉為四大核心類別,每類下細分若干子任務:

      • 精細辨別(Fine-grained Discrimination):分辨細微的視覺差異(8 個子任務)
      • 視覺追蹤(Visual Tracking):跟隨路徑、線條與運動軌跡(5 個子任務)
      • 空間感知(Spatial Perception):理解三維結構及其關系(5 個子任務)
      • 視覺模式識別(Visual Pattern Recognition):識別邏輯與幾何規律(4 個子任務)

      這套設計的核心理念很明確:

      不是為了 “刁難” 模型,而是量化那些 “人類直覺就會、但構成智能地基” 的視覺原子能力。這同樣是具身智能(embodied AI)走向現實世界的必修課。

      為了最大程度確保 “純視覺” 考核的有效性,BabyVision 在數據構建上也下足了工夫。

      項目團隊首先參考了兒童認知教材和視覺發育測驗,梳理出了上述 4 大類共 22 種基礎視覺子任務。

      接著,每個子技能挑選出 2-3 個種子示例(種子圖片),作為該類型任務的典型代表。基于這些種子示例,研究者利用逆向圖像搜索和關鍵詞搜索,從互聯網上爬取了約 4000 張相似的候選圖片。

      在數據收集過程中,團隊嚴格遵守版權規范,只挑選可用于非商業或學術用途的素材,并過濾掉可能包含大量文字說明或需要文化常識才能理解的圖片。由此獲得的海量圖片進入人工標注環節:多名專業人員逐一檢查圖片,篩除不適合出題的樣本,對保留下來的圖片精心設計問題和標準答案。為了確保答案的客觀正確,每個問題還附有詳細的 “解題過程” 說明,以證明答案確實可由視覺推理得出。

      最終,所有標注完成的問題都經過 “雙盲質檢”—— 兩位獨立專家交叉審核,每道題只有在雙方都認可其答案無誤、推理嚴謹的情況下才被收錄 ;若出現異議則退回修改,反復仍無法達成一致的題目則果斷棄用。經過這一系列嚴苛的篩選,BabyVision 最終產出了 388 道高質量視覺題目,涵蓋 22 種子任務。



      最終評測結果:人類 94.1%,最強閉源 49.7%,最強開源 22.2%

      在 BabyVision?Full 上,研究團隊引入了人類基線,16 位至少本科背景的測試者完成全量 388 題,人類準確率達94.1%

      再看模型:

      • 閉源最強:Gemini3?Pro?Preview 49.7%
      • 其后:GPT?5.2 34.8%、Doubao?1.8 30.2%

      開源側:

      • 最強模型(Qwen3VL?235B?Thinking)整體22.2%,多數模型在 12–19% 區間。

      更關鍵的是:差距不是集中在某一個類別。四大類能力都在下滑,說明這是 “系統性缺基礎視覺能力”,而非某個單點缺陷。 一些子任務甚至幾乎 “全員翻車”,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型結構化場景能力不足。



      04|為什么會這樣?因為這些視覺推理題目是沒法用語言描述的(Unspeakable)

      最反直覺的地方在于:

      BabyVision 里的很多題,對人類來說不難,甚至孩子會用指一指、圈一圈、沿著線走一遍就搞定。

      但模型一旦用文字去 “復述” 視覺,再用語言推理去算,信息就丟了。

      研究團隊把這種現象概括為:

      這些視覺題是 “unspeakable” 的,無法在不損失信息的情況下被完整語言化;模型試圖把視覺壓縮成 token,細節在壓縮中消失。

      并進一步總結了 4 類典型挑戰:

      挑戰 1:看不見 “非語言細節”(Observing Non-Verbal Details)



      比如拼圖 / 補全題里,選項差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位。

      • 人類憑幾何直覺 “對齊邊界” 就能秒選;
      • 模型一旦把形狀用語言概括成 “像鉤子、兩個腿、差不多七八個六邊形”,細節就被抹平,選項在 token 空間里變得 “幾乎一樣”。

      挑戰 2:追線追丟了(Manifold Understanding)



      連線 / 繞線 / 軌跡題,答案編碼在 “連通性” 里:

      • 人類是鎖定一條線→穿過交叉→一路追到終點;
      • 模型往往把線翻譯成 “左 / 右 / 上 / 下” 的離散步驟,一遇到交叉點就出現分叉爆炸,容易 “換軌” 追錯線

      挑戰 3:缺少真正的空間想象(Spatial Imagination)



      三維方塊計數、視角投影、遮擋下的結構判斷,人類通常不是 “用語言一步步描述”,而是把結構在腦中 “立起來”,換個角度看,再數。

      模型則容易犯兩類錯誤:漏掉隱藏塊、投影關系搞錯。這不是邏輯差,而是缺少穩定的 3D 內部表征與變換能力。

      挑戰 4:圖形規律歸納難(Visual Pattern Induction)



      這類題要求從少量視覺示例里抽象出規則,再遷移到新圖。

      人類做的是關系映射,真正決定正確性的是 “發生了什么變化” 而不是 “那里有什么”,具體的形狀、顏色、絕對位置都可以變,只有它們在變換中的 “身份” 不變。

      模型常常盯著表面屬性(顏色、形狀),把 “結構規則” 誤讀成 “外觀統計”,導致遷移時幻覺規則。

      05|如果不讓它用文字回答,讓它 “畫” 呢?BabyVision?Gen 給出一個新方向

      當文本推理不夠用,一個自然的問題出現了:

      能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?

      于是有了 BabyVision?Gen:

      • 從原基準中重新標注出280 道適合 “生成式作答” 的題
      • 要求模型輸出圖像 / 視頻來表達解題過程或答案
      • 并開發了自動評測工具,與人工評測一致性達95%

      研究團隊在 BabyVision?Gen 上評測了多種生成模型(包括 Nano?Banana?Pro、Qwen?Image、Veo?3、Sora?2)。現階段得到的結論很克制但重要:

      • 生成式推理在視覺追蹤、精細辨別等 VLM 易翻車任務上出現 “更像人類” 的行為(會真的去畫軌跡、做標注);
      • 但整體仍然缺乏穩定到達完全正確解的能力。

      這至少說明:把視覺推理 “落地到視覺操作” 上,可能是補齊短板的一條路。

      下面看一個具體的例子:

      任務:用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑。

      Sora2

      NanoBanana-pro



      06|為什么 BabyVision 重要?因為現實世界不靠語言提示

      正如研究團隊在 Blog(https://unipat.ai/blog/BabyVision)中所寫:

      很難想象一個視覺能力低于 3 歲孩子的機器人,能夠可靠地在真實物理世界里幫助人類。

      今天,多模態模型 “會說會寫” 已經很強。

      但要走向真正的通用智能與具身智能,視覺地基必須補上:

      • 看得準(細粒度辨別)
      • 追得住(軌跡 / 連通性)
      • 想得出(3D 結構想象)
      • 歸納得了(圖形規則遷移)

      BabyVision 的價值正在于:把 “看懂世界” 拆成可測量、可診斷、可迭代的 22 個原子能力,告訴我們差距到底在哪里、下一步該補什么,從而引導多模態大模型發展。

      UniPat

      UniPat AI 致力于構建真實場景下 AI 訓練、評測與應用的新范式,推動其實現可泛化、可信賴的真實世界部署,并創造切實的經濟與社會價值。

      官網鏈接:https://unipat.ai

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      驚天陰謀!美國明搶格陵蘭為假動作,真正目標曝光:逼中國出手!

      驚天陰謀!美國明搶格陵蘭為假動作,真正目標曝光:逼中國出手!

      笑談歷史阿晡
      2026-01-23 05:16:39
      這么網紅模特把紫色穿出了滿滿的高級感,很值得學習借鑒

      這么網紅模特把紫色穿出了滿滿的高級感,很值得學習借鑒

      牛彈琴123456
      2026-01-21 19:47:46
      普京贊助美國10億美元,順手給西方出難題,特朗普這下難辦了

      普京贊助美國10億美元,順手給西方出難題,特朗普這下難辦了

      第一軍情
      2026-01-22 10:59:12
      小米近4月回購44次,股價半年跌超40%

      小米近4月回購44次,股價半年跌超40%

      21世紀經濟報道
      2026-01-22 21:34:28
      故事:大伯排污口對準我魚塘,我不吭聲,連夜抽干水種五十株桉樹

      故事:大伯排污口對準我魚塘,我不吭聲,連夜抽干水種五十株桉樹

      二十一號故事鋪
      2026-01-19 22:40:04
      克宮:普京與美特使在莫斯科舉行會談

      克宮:普京與美特使在莫斯科舉行會談

      財聯社
      2026-01-23 04:42:05
      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      拒掛國旗、訂單全給日韓,被停止合作封鎖航線的長榮,今咎由自取

      近史談
      2026-01-21 20:33:15
      4國首腦準備訪華,中方已遞出一張邀請函,3天后專機將抵達北京

      4國首腦準備訪華,中方已遞出一張邀請函,3天后專機將抵達北京

      特特農村生活
      2026-01-23 04:58:33
      反轉再反轉!貝克漢姆婚紗風波真相曝光,布魯克林控訴被打臉,妮可拉謊言藏不住了

      反轉再反轉!貝克漢姆婚紗風波真相曝光,布魯克林控訴被打臉,妮可拉謊言藏不住了

      科學發掘
      2026-01-21 09:35:13
      太監身上又騷又臭,為何皇帝和妃子們一點不嫌棄?還和他們很親近

      太監身上又騷又臭,為何皇帝和妃子們一點不嫌棄?還和他們很親近

      小豫講故事
      2026-01-23 06:00:04
      方紅衛,被罷免人大代表職務

      方紅衛,被罷免人大代表職務

      觀察者網
      2026-01-22 17:11:29
      香港近40年最嚴重海難!39名遇難者竟是“非法被殺”......

      香港近40年最嚴重海難!39名遇難者竟是“非法被殺”......

      港漂圈
      2026-01-22 19:33:34
      胡春華發表署名文章

      胡春華發表署名文章

      社評
      2025-10-31 10:11:37
      羅馬諾:小蜘蛛仍為夏窗保留所有可能,目前沒俱樂部處于領先

      羅馬諾:小蜘蛛仍為夏窗保留所有可能,目前沒俱樂部處于領先

      懂球帝
      2026-01-23 07:30:12
      國羽2勝1負!男雙提前丟冠,陳雨菲PK世界冠軍,混雙劍指2席8強!

      國羽2勝1負!男雙提前丟冠,陳雨菲PK世界冠軍,混雙劍指2席8強!

      劉姚堯的文字城堡
      2026-01-22 17:04:47
      眾議院選戰即將打響,日本“最大在野黨”公布競選綱領:堅守“無核三原則”

      眾議院選戰即將打響,日本“最大在野黨”公布競選綱領:堅守“無核三原則”

      環球網資訊
      2026-01-23 06:48:05
      “鬼城”又添一座!房價2萬暴跌到4千,住戶:晚上開燈才可怕!

      “鬼城”又添一座!房價2萬暴跌到4千,住戶:晚上開燈才可怕!

      貓叔東山再起
      2026-01-16 11:00:08
      李湘風波再發酵!家境被扒底朝天,父母身份曝光,原來何炅沒說錯

      李湘風波再發酵!家境被扒底朝天,父母身份曝光,原來何炅沒說錯

      杜鱂手工制作
      2026-01-21 18:46:02
      現貨白銀漲超3%,再創歷史新高

      現貨白銀漲超3%,再創歷史新高

      每日經濟新聞
      2026-01-23 06:09:39
      中國空軍從俄烏沖突吸取經驗:殲20決不能再打火箭彈了

      中國空軍從俄烏沖突吸取經驗:殲20決不能再打火箭彈了

      無情有思可
      2026-01-23 03:54:52
      2026-01-23 07:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12171文章數 142547關注度
      往期回顧 全部

      科技要聞

      財報還行,股價崩了,英特爾“掉鏈子”

      頭條要聞

      美國啟動“和平委員會”18國已簽署 西歐國家無一參加

      頭條要聞

      美國啟動“和平委員會”18國已簽署 西歐國家無一參加

      體育要聞

      跑個步而已,他們在燃什么?

      娛樂要聞

      車銀優賺800億 涉嫌逃稅200億!

      財經要聞

      西貝拿到“救命錢”,然后呢

      汽車要聞

      配備多塊娛樂屏 極氪8X內飾曝光

      態度原創

      教育
      數碼
      游戲
      公開課
      軍事航空

      教育要聞

      吉利學院山東招生分數曝光!工商管理471分穩嗎?

      數碼要聞

      2026款華碩a豆14 Air筆記本發布,6999元起

      魂師對決:最新版全SP節奏榜公布!SP+寧榮榮到底能排第幾?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍首艘“高超導彈戰艦”出海測試

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天天躁狠狠躁狠狠躁性色av| 无码精品国产va在线观看| 国产精品无码一区二区桃花视频 | 伊人精品成人久久综合97| 黑人变态另类videos| 亚洲欧洲制服| 斗六市| 91网站国产| 免费在线观看av毛片| 日韩一区中文免费视频| 亚洲人成色777777无码| 人人综合亚洲无线码另类| 成熟丰满熟妇高潮xxxxx视频| 热无码| 最新精品露脸国产在线| 鲁鲁AV| 久久天天躁夜夜躁狠狠I女人| 爆乳日韩尤物无码一区| 伊人久久大香线蕉精品,亚洲国产一成人久久精品,久久99精品久久久久久三级,亚 | 熟妇自搞| 久久久影院| 国产91色综合久久高清| 中文字幕av久久激情| 久久精品成人欧美大片| 人人妻人人狠人人爽天天综合网| 国产69精品久久久久久久| 久久国产精品老女人| 中文字幕无码不卡在线| 久久国产劲爆∧v内射| 国产成人精品高清在线观看93| 欧美精品综合| 777米奇影视第四色| 日日噜噜夜夜狠狠视频| 婷婷久香综合在线| 尤物193在线人妻精品免费| 偷拍亚洲一区二区三区| 性欧美老人牲交xxxxx视频| 四虎国产精品永久地址99| 国产在线拍偷自揄观看视频网站| 极品虎白一线天馒头最新消息| 亚洲国内自拍|