<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      紅杉xbench評測:大模型的視覺能力,普遍低于3歲兒童

      0
      分享至

      紅杉中國 xbench 和 UniPat AI 發(fā)了一個新的多模態(tài)評測集,叫 BabyVision,在這里:

      核心發(fā)現(xiàn):當(dāng)前最強(qiáng)的多模態(tài)模型,在純視覺任務(wù)上的得分,普遍低于3歲兒童

      人類準(zhǔn)確率 94.1%
      而在模型當(dāng)中,Gemini 3 Pro Preview 最高,49.7%
      大多數(shù)模型,則在 12-22% 區(qū)間


      這個評測的設(shè)計思路有點(diǎn)意思,和大家分享一下

      先看一道題

      三件物品,沿著線分別連到哪個顏色垃圾桶?


      正確答案:A-藍(lán)B-黃C-綠
      Gemini 3 Pro Preview 的錯誤答案:A-綠B-黃C-藍(lán)

      人類怎么做這道題?從點(diǎn)出發(fā),沿著線走到終點(diǎn)
      三歲小孩用手指頭比劃一下就能做對


      模型怎么做?輸出一大段的推理過程,看起來很牛逼,但最后還是搞錯了
      最頂尖的模型,在最基礎(chǔ)的視覺追蹤上,一敗涂地

      這個評測在測什么

      BabyVision 把視覺能力拆成了4大類,共22個子任務(wù)


      精細(xì)辨別
      分辨細(xì)微的視覺差異,比如找不同、補(bǔ)全拼圖、數(shù)相同圖案,共 8 個子任務(wù)

      視覺追蹤
      跟隨路徑、線條與運(yùn)動軌跡,比如走迷宮、連線、地鐵圖找站,共 5 個子任務(wù)

      空間感知
      理解三維結(jié)構(gòu),比如數(shù)方塊、視角投影、折紙展開圖,共 5 個子任務(wù)

      視覺模式識別
      識別邏輯與幾何規(guī)律,比如旋轉(zhuǎn)規(guī)律、鏡像規(guī)律、邏輯推理,共 4 個子任務(wù)

      這套測試有一個核心設(shè)計原則:嚴(yán)格控制語言依賴

      題目要求很簡單,答案必須靠視覺信息本身得出
      如果一道視覺題可以完全用文字描述且不丟信息,它本質(zhì)上就會退化成文本題,模型可以靠語言推理能力一路通關(guān)

      BabyVision 要測的是:當(dāng)語言幫不上忙的時候,模型還能不能「看懂」

      然后結(jié)果就是:在BabyVision?Full上,16 位至少本科背景的測試者完成全量 388 題,人類準(zhǔn)確率達(dá) 94.1%,大多數(shù)模型只在 12~19%之間,具體如下


      為什么模型會翻車

      研究團(tuán)隊(duì)用了一個詞:unspeakable

      這些視覺題無法在不損失信息的情況下被完整語言化
      模型試圖把視覺壓縮成 token,細(xì)節(jié)在壓縮中消失

      4類典型挑戰(zhàn):

      挑戰(zhàn) 1:「非語言細(xì)節(jié)」(Observing Non-Verbal Details)


      拼圖/補(bǔ)全題里,選項(xiàng)差別可能只是一個微小邊界、一個局部凸起、一個像素級錯位

      人類憑幾何直覺,就能秒選

      模型一旦把形狀用語言概括成「像鉤子兩個腿差不多七八個六邊形」,細(xì)節(jié)就被抹平,選項(xiàng)在 token 空間里變得幾乎一樣

      挑戰(zhàn) 2:追線追丟了(Manifold Understanding)


      對于連線/繞線/軌跡之類的題,人類會始終鎖定一條線,穿過交叉,一路追到終點(diǎn)

      模型往往把線翻譯成左/右/上/下的離散步驟,一遇到交叉點(diǎn)就出現(xiàn)分叉爆炸,容易換軌追錯線

      挑戰(zhàn) 3:缺少真正的空間想象(Spatial Imagination)


      三維方塊計數(shù)、視角投影、遮擋下的結(jié)構(gòu)判斷
      人類通常是把結(jié)構(gòu)在腦中立起來,換個角度看,再數(shù)

      模型容易犯兩類錯誤:漏掉隱藏塊投影關(guān)系搞錯
      所以嘛,大模型目前還是缺少穩(wěn)定的 3D 內(nèi)部表征與變換能力

      挑戰(zhàn) 4:圖形規(guī)律歸納難(Visual Pattern Induction)


      這類題,要求從少量視覺示例里抽象出規(guī)則,再遷移到新圖

      人類做的是關(guān)系映射,真正決定正確性的是「發(fā)生了什么變化」,具體的形狀、顏色、絕對位置都可以變,只有它們的「身份」不變

      模型常常盯著表面屬性(顏色、形狀),把「結(jié)構(gòu)規(guī)則」誤讀成「外觀統(tǒng)計」,導(dǎo)致遷移時幻覺規(guī)則

      BabyVision-Gen

      既然文本推理不夠用,一個自然的想法:能不能讓模型像孩子一樣,用畫、圈、連線、描軌跡來作答?

      BabyVision-Gen 就是這個方向的嘗試

      從原基準(zhǔn)中重新標(biāo)注出 280 道適合「生成式作答」的題,要求模型輸出圖像或視頻來表達(dá)解題過程

      研究團(tuán)隊(duì)測了 Sora 2、Veo 3、Qwen-Image 等生成模型,比如用紅線沿著從左上角圖形延伸出的那條線,完整地描出其全程路徑,下面這個是 Sora 的實(shí)現(xiàn)

      這個,則是 NanoBanana 的


      初步結(jié)論:生成式推理在視覺追蹤、精細(xì)辨別等 VLM 易翻車的任務(wù)上,出現(xiàn)了「更像人類」的行為

      模型會真的去畫軌跡、做標(biāo)注,但整體仍然缺乏穩(wěn)定,無法做到完全正確

      把視覺推理「落地到視覺操作」上,可能是補(bǔ)齊短板的一條路

      xbench 是什么

      這個我得仔細(xì)說說,和 xbench 的朋友們可太熟了,一堆有趣的逗比,新模型出來后,我總是先去找他們?nèi)枺@東西靠譜么

      xbench 是紅杉中國 2025 年 5 月發(fā)布的 AI 評測基準(zhǔn)
      這是全球首個由投資機(jī)構(gòu)主導(dǎo),核心設(shè)計是雙軌評估體系

      AGI Tracking
      驗(yàn)證模型在特定能力維度的智能邊界,題目追求「足夠難、巧妙、有區(qū)分度」

      Profession-Aligned
      把 AI 系統(tǒng)當(dāng)作數(shù)字員工,放在具體業(yè)務(wù)流程中考察效用價值

      已經(jīng)發(fā)布的評測集包括 ScienceQA(研究生水平學(xué)科知識)、DeepSearch(中文互聯(lián)網(wǎng)深度搜索)、招聘和營銷兩個垂類場景

      BabyVision 是 AGI Tracking 系列的新成員,專門測多模態(tài)的純視覺能力

      Demis Hassabis 說過一句話:大模型可以在國際數(shù)學(xué)奧林匹克拿金牌,卻會在小學(xué)幾何題上出錯;它能生成驚艷圖像,卻不理解杯子為什么不會飄在空中

      BabyVision 就是把這個 gap 量化出來

      xbench 的設(shè)計思路是 Evergreen Evaluation
      持續(xù)維護(hù)、動態(tài)更新,每月匯報最新模型表現(xiàn),每季度更新評估集

      作為 AGI 賽道的投資者,紅杉是有驅(qū)動力去要判斷 AI 技術(shù)何時能達(dá)到市場可落地的閾值

      傳統(tǒng)評測集容易被刷爆,題目泄露導(dǎo)致過擬合,跟真實(shí)業(yè)務(wù)價值脫節(jié),對于要投錢的事情,紅杉更會以足夠客觀的方式去評估

      開源地址

      website:
      https://xbench.org/

      blog:
      https://unipat.ai/blog/BabyVision

      github:
      https://github.com/UniPat-AI/BabyVision

      huggingface:
      https://huggingface.co/collections/UnipatAI/babyvision

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      杠上了!“誰說歐洲文明要完?加拿大還想加入呢”

      杠上了!“誰說歐洲文明要完?加拿大還想加入呢”

      觀察者網(wǎng)
      2026-02-15 22:54:13
      高市沒想到,日本剛扣押中國漁船,抓走船長,中方就迅速出手了!

      高市沒想到,日本剛扣押中國漁船,抓走船長,中方就迅速出手了!

      歲暮的歸南山
      2026-02-16 00:18:08
      拉夫羅夫公開說“看不懂”,西方政客集體沉默 這事真有那么難解釋

      拉夫羅夫公開說“看不懂”,西方政客集體沉默 這事真有那么難解釋

      西莫的藝術(shù)宮殿
      2026-02-16 03:44:59
      俄媒:一旦開戰(zhàn),中方只靠解放軍難以取勝,必須調(diào)動另一股力量!

      俄媒:一旦開戰(zhàn),中方只靠解放軍難以取勝,必須調(diào)動另一股力量!

      勇士軍武閑談
      2026-02-13 11:54:35
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權(quán)先生
      2026-01-26 15:41:26
      網(wǎng)速更快!華為公布支持5A通信機(jī)型:覆蓋Mate、Pura、nova等系列

      網(wǎng)速更快!華為公布支持5A通信機(jī)型:覆蓋Mate、Pura、nova等系列

      快科技
      2026-02-14 12:13:04
      最高可得2888元!剛剛,千問APP宣布發(fā)放口令紅包

      最高可得2888元!剛剛,千問APP宣布發(fā)放口令紅包

      大象新聞
      2026-02-15 17:59:05
      好慘烈的身高對比差距,中越邊境上的一張軍人合影突然火了起來

      好慘烈的身高對比差距,中越邊境上的一張軍人合影突然火了起來

      我心縱橫天地間
      2026-01-30 22:17:29
      回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

      回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

      就一點(diǎn)
      2025-10-09 12:19:42
      樊振東3-1逆轉(zhuǎn)賈哈!后三局拿捏關(guān)鍵分,為薩爾布呂肯奪首勝!

      樊振東3-1逆轉(zhuǎn)賈哈!后三局拿捏關(guān)鍵分,為薩爾布呂肯奪首勝!

      籃球資訊達(dá)人
      2026-02-15 20:50:48
      德國那位軍事專家說得夠直白:美國不是怕中國,是怕打了也白打

      德國那位軍事專家說得夠直白:美國不是怕中國,是怕打了也白打

      扶蘇聊歷史
      2026-01-28 18:04:09
      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預(yù)防

      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預(yù)防

      離離言幾許
      2026-02-13 18:34:28
      貝克漢姆家劇情更新,小七情人節(jié)曬與大布合照,貝嫂回應(yīng)但沒人理

      貝克漢姆家劇情更新,小七情人節(jié)曬與大布合照,貝嫂回應(yīng)但沒人理

      手工制作阿殲
      2026-02-16 02:42:05
      你無意之中撞見過什么秘密?網(wǎng)友:我婆婆和公公外面各自有人

      你無意之中撞見過什么秘密?網(wǎng)友:我婆婆和公公外面各自有人

      帶你感受人間冷暖
      2026-02-12 00:05:09
      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      小熊侃史
      2026-01-06 11:17:00
      中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

      中央電視臺直播錄播2026年2月16日至22日乒乓球比賽

      乒乓球球
      2026-02-16 00:27:52
      前勇士、湖人冠軍中鋒麥基:我將加入北京首鋼

      前勇士、湖人冠軍中鋒麥基:我將加入北京首鋼

      懂球帝
      2026-02-15 09:17:17
      這種飲料正在摧毀你的胰島細(xì)胞!很多糖尿病,都和這種飲料有關(guān)!

      這種飲料正在摧毀你的胰島細(xì)胞!很多糖尿病,都和這種飲料有關(guān)!

      蜉蝣說
      2026-01-29 14:46:50
      從5260萬降到600萬,還準(zhǔn)備退役巡演么?奪冠熱門似乎不太需要你

      從5260萬降到600萬,還準(zhǔn)備退役巡演么?奪冠熱門似乎不太需要你

      老梁體育漫談
      2026-02-15 00:03:47
      2026央視春晚最新動態(tài)!節(jié)目單曝光,重量級嘉賓登場

      2026央視春晚最新動態(tài)!節(jié)目單曝光,重量級嘉賓登場

      夢在深巷qw
      2026-02-16 03:42:26
      2026-02-16 05:15:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數(shù) 36關(guān)注度
      往期回顧 全部

      科技要聞

      發(fā)春節(jié)紅包的大廠都被約談了

      頭條要聞

      大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特 撞臉明星

      頭條要聞

      大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級嘉賓登場

      財經(jīng)要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國換帥:段建軍離任,李德思接棒

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      本地
      時尚
      公開課

      藝術(shù)要聞

      168米!廣州“翠竹”摩天大樓復(fù)工?

      旅游要聞

      開放機(jī)關(guān)事業(yè)單位床位給游客,“寵客”還要善始善終

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      多巴胺失寵了?過年這樣穿彩色時髦又減齡

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版