![]()
最近,浦東美術館突然闖進了個 AI 「顯眼包」。
豆包正式「入職」上海浦東美術館,成了盧浮宮、畢加索雙展的「官方 AI 講解員」,甚至能陪知名主持人陳魯豫在線看展。
![]()
有一說一現場的效果是真不錯,但作為一個喜歡看展的編輯,我也懷疑,如果在全世界任何一個其他沒有和豆包有合作的博物館或美術館,它還能有這么強嗎?
![]()
為了探出目前 AI 看展的真正實力,APPSO 決定拉來 ChatGPT 和 Gemini 和豆包同臺競技,而且咱就不測浦東美術館的展品,從全球藝術文化作品中隨機挑選對象,看看究竟誰才是逛展的最強 AI 向導。
AI 看展哪家強?三大模型 battle
我先祭出《唐朝詭事錄三》同款素材,劇中喜君贈送了老費一款以「唐代鎏金舞馬銜杯紋銀壺」為原型的酒壺。于是,我也將我的問題交給了這三名 AI 向導。
- 我在《唐朝詭事錄》里好像看過類似的道具。你幫我看看這個銀壺上的馬在干什么?
- 既然是盛酒的壺,為什么要設計成馬咬著杯子的造型?
豆包和 Gemini 表現尚可,準確識別了馬的造型,但讓我沒想到的是,豆包直接關聯到了唐玄宗祝壽的歷史背景,反觀 ChatGPT 看似一本正經,實則在那兒水字數,主打一個已讀亂回。

▲點擊觀看橫評完整視頻,依次展示豆包、ChatGPT、Gemini 的回答,同下文
在本土語境理解上,這一局豆包可以說是贏麻了。
此前,彩繪陶牽手女俑走紅網絡,讓無數閨蜜團排隊打卡。只是,我也難免好奇,這兩人牽手是否有啥特殊含義,以及從這個陶俑中我們是否能一窺當時的穿搭風格。

好家伙,Gemini 上來就翻車,非說是唐朝的,把朝代搞混可是大忌。豆包則是一針見血指出這是北魏的陶俑,歷史背景檢索能力簡直是降維打擊。至于分析陶俑穿搭風格這一塊,三者的視覺分析還是挺在線的,基本做到了所見即所得。
我知道你想說什么,中國模型測中國文物這不妥妥有主場優勢嗎?
好,我這就拿出荷蘭肖像畫黃金時代的代表作《夜巡》,這是畫家倫勃朗·范·萊因(Rembrandt van Rijn)于 1642 年創作的一幅布面油畫。
這幅畫自然沒有那么簡單,我提問道::「這幅畫叫《夜巡》,但看光影感覺不像是在晚上畫的。倫勃朗當時到底是畫的白天還是晚上?為什么后來名字搞錯了」

ChatGPT 和 Gemini 表現得像個乖巧的學生,老老實實點出了「夜巡」這個名字是因為后期灰塵掩蓋以及清漆氧化變黑導致的誤解。
唯獨豆包除了犀利地指出了畫作的核心誤區,更進一步點出了畫作描繪的真實場景——民兵連隊在白天整裝出發。這種基于視覺細節的深度推理,確實有點超出我的預期了。
跨越 2000年的「啤酒套裝」,能騙過 AI 嗎?
前面這些測試只能算熱身題,現在 APPSO 開始上強度了。
你可能也在網上看過很現代物品瘋狂「撞臉」的文物,我們當然知道這世上并沒有穿越這么一回事,但 AI 能不能識破這種情況呢?
就比如「唐代紫檀木畫槽琵琶」,如果不是對歷史有了解,我想大部分人第一反應應該會覺得像 LV 的花紋,我同樣把問題甩給了 AI :「這個琵琶是不是 LV 的哪個限定款?如果我穿越回唐朝,帶著這把琵琶去參加宮廷宴會,應該搭配什么樣的服裝」

有趣的是,Gemini 嚴肅分析了半天,顯得很沒底氣,最終得出的結論也僅僅是「不太像」,而豆包和 ChatGPT 的語氣則更肯定,果斷否認了其中的聯系。
![]()
▲為了讓測試更嚴謹,我們對同一個問題進行了重復測試
不過,三者在「穿越穿搭」建議上倒是出奇一致,清一色推薦了朱紅或大氣風格的服裝,審美在線。
更有趣的是「古代啤酒套裝」測試。戰國水晶杯、元代琉璃酒瓶和明代銀香盒,這三件跨越 2300 年的文物拼在一起號真的太像啤酒了,搞了個「釣魚執法」,問 AI 們是不是有人穿越了。

面對這個陷阱,Gemini 居然漏看了杯子和蓋子,只盯著瓶子聊工藝;ChatGPT 依然在做老學究式的科普,回答略顯寬泛;只有豆包一眼識破了我的詭計,精準指出了這三件看似一套的文物,其實分別來自戰國、元代和明代。
最后還有那架酷似現代戰斗機的金巴亞黃金飛機,我對著 AI 們好奇發問:「這看起來完全就是一架現代戰斗機,你看那尾翼和機翼的設計。這到底是哥倫比亞古人的藝術品,還是證明了遠古外星人的存在」。

對此,ChatGPT 給了一句萬金油評價,并感嘆古代精湛的工藝和想象力。Gemini 援引了考古學家的說法,指出這是一種飾品。
而豆包則在科普的基礎上,進一步點出了這種垂飾的設計原型可能是當代的蜂鳥或神鳥,體現了古印第安人對自然和神靈的崇拜,直接給「外星人說」來了一波祛魅。
![]()
▲為了讓測試更嚴謹,我們對同一個問題進行了重復測試
玩歸玩,最后還得測點硬核的。這輪測試的是 AI 鑒寶的能力,也就是分辨真偽。
我找了一張地攤上 5 塊錢批發、號稱「價值百萬」的明成化斗彩雞缸杯仿品圖,假裝好奇是不是撿漏了:「這個同款雞缸杯之前拍賣了 2 個多億。古玩城老板說是明代成化年的老貨,只要 9800 塊賣給我。你看這畫工,我是不是撿大漏了?」

很快,Gemini 和 ChatGPT 開啟了經典的「端水模式」,建議找專家、找機構,主打一個免責聲明。只有豆包直接開啟「毒舌鑒寶」模式,直言這大概率是仿品,一針見血指出釉面過亮、雞冠輪廓模糊等破綻,甚至調侃千萬別當真品收藏。
AI 成了發現藝術美的好搭子,背后是 VLM 的進化
三輪實測下來,豆包的表現確實出乎了我的意料。
要問它為啥讓人瑞思拜,翻看豆包的技術文檔后我發現,核心就在于其背后的 Seed-1.8 模型,是一個點滿了天賦的 VLM(Vision-Language Model,視覺語言模型)。
給不了解技術的朋友簡單科普下,啥叫 VLM?
VLM 是一種能夠同時「看懂」圖像和「讀懂」文字的 AI 模型。如果說傳統的 LLM(大語言模型,如 GPT-3)是只有「大腦」但沒有「眼睛」的學者,那么 VLM 就是為這個大腦裝上了高性能攝像頭。它不再只是處理單一的文本,而是能直接理解圖片、視頻甚至網頁截屏。
基準測試結果顯示,Seed1.8 在多個視覺語言基準測試中表現突出,不僅在多模態推理任務中超越了前代模型 Seed1.5-VL,在大部分任務上的表現甚至已經開始「貼臉開大」,直逼目前最頂尖的 Gemini-3-Pro。
![]()
尤其是在難度極高的視覺推理考試 ZeroBench 里,Seed-1.8-Thinking 拿到了 11.0 的全場最高分,成功解答問題的數量也是大幅增加。
在通用視覺問答任務中,Seed1.8 的 VLMsAreBiased 基準測試成績反手就是一個 62.0,把一眾同行甩開了一大截。
![]()
而且不管是 2D 還是 3D 的空間感,Seed-1.8 也都拿捏得死死的,哪怕是面對復雜得像迷宮一樣的動態數據集,適應性也極強。
![]()
也正是有了這些硬核技術做支撐,豆包才能在剛才的幾輪「刁難」中脫穎而出。
這也讓我回想起以前我逛博物館,逛展的情況——基本就是走馬觀花,一圈逛下來,印象最深刻的往往只有展廳空調的溫度以及文創店周邊的價格,知識屬實是一點都沒進腦子。
以前我們總覺得,把博物館、美術館建到更多人的家門口,這就是藝術普惠了。但實際上,物理上的距離消除了,認知的門檻依然高聳。金牌講解員要么太貴,要么根本約不到;專家講座又太深奧,不適合所有人。
絕大多數時候,普通觀眾只能隔著玻璃柜,看著那些冷冰冰的文物發呆。

▲豆包「視頻通話」功能使用方式參考
認知門檻才是藝術欣賞的最后一公里, 也是最難打通的一公里。通過這次體驗我發現,豆包還真能充當那個「打破次元壁」的講解員,把那些晦澀的文物知識,翻譯成咱們普通人能聽懂的大白話。
而且,這也是一種全新的看展姿勢。 以前逛博物館,基本是單向輸出,但現在有了豆包,你可以隨時提問、隨時找茬、隨時互動,這種「把麥克風交給觀眾」的體驗,確實和以前不一樣了。
![]()
目前豆包已經和國家博物館、河南博物院、成都博物館等大館合作,上線了「豆包帶你逛懂博物館」項目。
當然,換個視角來看,這也是 Seed-1.8 模型在復雜真實世界里,進行的一次大規模眾測。 它用通俗的解答拉近了文物和觀眾的距離,也算是用另一種數字化方式,把幾千年前的古代工匠和拿著智能手機的我們,真正連接在了一起。
以后再去刷展時,別光顧著在那兒拍照,比剪刀手了,不妨把那些看不懂的文物、字畫涂鴉都丟給豆包試試。沒準你會發現,當藝術不再高冷,逛博物館也同樣輕松有趣。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.