藝術(shù)或許是人類世界中最復(fù)雜、最微妙的“視覺文本”之一。而當(dāng)AI的視線投向這片由人類精神凝結(jié)的沃土?xí)r,將會(huì)發(fā)生什么?
1月20日,字節(jié)跳動(dòng)旗下豆包與上海浦東美術(shù)館達(dá)成合作,正式成為該館兩項(xiàng)國際大展——“圖案的奇跡:盧浮宮印度、伊朗與奧斯曼的藝術(shù)杰作”與“非常畢加索:保羅·史密斯的新視角”的官方AI講解員。這也是AI產(chǎn)品首次以“官方身份”進(jìn)駐美術(shù)館。
![]()
圖片來源:每經(jīng)記者 李宇彤 攝
這背后,是豆包大模型視覺理解能力的一次場景化落地。通過獨(dú)家數(shù)據(jù)訓(xùn)練與定向搜索優(yōu)化,在展廳中,豆包能辨識(shí)數(shù)百件展品,并支持觀眾連續(xù)、深入的追問式互動(dòng)。
《每日經(jīng)濟(jì)新聞》記者(以下簡稱“每經(jīng)記者”)注意到,從識(shí)別一幅畫到理解一段文明,AI的“眼睛”正在變得愈發(fā)敏銳。隨著行業(yè)競爭從文本生成轉(zhuǎn)向視頻理解與實(shí)時(shí)交互,一個(gè)能真正“看得懂、說得清”的大模型,成為在智能體(Agent)時(shí)代的競爭中的關(guān)鍵。而視頻通話成為這項(xiàng)能力的集中展示場景。
2024年8月,智譜清言率先推出了國內(nèi)首個(gè)面向C端(消費(fèi)者端)開放的視頻通話功能。而到了2025年,阿里“千問”同樣配備了視頻通話功能。
那么在實(shí)際運(yùn)用中豆包表現(xiàn)如何?當(dāng)AI的“眼睛”成為兵家必爭之地,豆包又能否出奇制勝?
現(xiàn)場實(shí)測:豆包的識(shí)別、問答與它的“知識(shí)邊界”
在真實(shí)的觀展場景中,觀眾的提問往往是開放而發(fā)散的。從“這是什么”的基礎(chǔ)詢問,到對(duì)創(chuàng)作背景、制作工藝的深入探討,這類多層次、即興的交互對(duì)AI的知識(shí)儲(chǔ)備與實(shí)時(shí)解析能力構(gòu)成了持續(xù)考驗(yàn)。
那么,豆包能否應(yīng)對(duì)這樣的挑戰(zhàn)?每經(jīng)記者在浦東美術(shù)館進(jìn)行了一次現(xiàn)場檢驗(yàn)。
在基礎(chǔ)信息層面,每經(jīng)記者在“非常畢加索”展區(qū)請(qǐng)豆包介紹畢加索的“藍(lán)色時(shí)期”,其回答不僅涵蓋該階段的具體時(shí)間,還關(guān)聯(lián)到藝術(shù)家個(gè)人經(jīng)歷與時(shí)代背景。每經(jīng)記者還將豆包的回答與浦東美術(shù)館官方介紹進(jìn)行了進(jìn)一步核對(duì),發(fā)現(xiàn)二者信息一致,但相較官方文藝的表達(dá),豆包的表述更接近口語。
![]()
浦東美術(shù)館官方介紹和豆包介紹
在識(shí)別能力上,每經(jīng)記者發(fā)現(xiàn)即使刻意避開展簽,豆包也能快速識(shí)別畫作并給出介紹,這項(xiàng)能力在面對(duì)“圖案的奇跡”中較為小眾的展品時(shí)亦能保持精準(zhǔn)。
當(dāng)問題深入至技法與工藝細(xì)節(jié)時(shí),豆包同樣展現(xiàn)出結(jié)構(gòu)化的解析能力。例如,面對(duì)畢加索畫作《裝扮成喜劇丑角的保羅》,它能結(jié)合藝術(shù)家當(dāng)時(shí)初為人父的心境,闡釋其風(fēng)格轉(zhuǎn)向與“未完成”筆觸的創(chuàng)作意圖。當(dāng)每經(jīng)記者在“圖案的奇跡”展區(qū)指向一件印度作品《珍珠母與貝殼執(zhí)壺》,接連拋出“珍珠母產(chǎn)地”“大器具如何固定”“彎曲部分如何制作”等具體工藝問題時(shí),豆包也能從原料產(chǎn)地、工藝結(jié)構(gòu)到歷史流通背景逐層解答。
![]()
豆包對(duì)于《珍珠母與貝殼執(zhí)壺》問題的回答
不過,在實(shí)際體驗(yàn)中,豆包作為解說員的表現(xiàn)仍會(huì)受到客觀環(huán)境因素的制約。每經(jīng)記者注意到,在手機(jī)信號(hào)較弱時(shí),豆包難以完整、精確地識(shí)別語音提問的信息,但能依據(jù)對(duì)話上下文進(jìn)行合理推斷,給出大致對(duì)應(yīng)的回復(fù)。
事實(shí)上,在走進(jìn)美術(shù)館之前,豆包的視頻通話能力已在更廣泛場景中經(jīng)歷了數(shù)月的實(shí)踐打磨。2025年5月,豆包App上線基于視覺推理模型的視頻通話功能,支持實(shí)時(shí)視頻問答與聯(lián)網(wǎng)搜索,迅速吸引了眾多用戶體驗(yàn)。
然而,從日常場景跨越到專業(yè)的美術(shù)館場域,對(duì)豆包的識(shí)別精度與知識(shí)儲(chǔ)備提出了更高維度的挑戰(zhàn)。豆包逛展項(xiàng)目負(fù)責(zé)人坦言:“在博物館場景中運(yùn)用AI講解,最大的挑戰(zhàn)是保證內(nèi)容的準(zhǔn)確性。模型不僅要能區(qū)分外觀高度相似的文物、理解小眾且缺乏公開資料的展品,還要能在觀眾移動(dòng)觀展、從不同角度和距離觀察同一件展品時(shí),始終保持穩(wěn)定識(shí)別。”
為此,豆包與浦東美術(shù)館進(jìn)行了獨(dú)家數(shù)據(jù)合作與定向搜索優(yōu)化,以此提升了文物識(shí)別與講解的可靠性,并實(shí)現(xiàn)了支持連續(xù)、深入追問的交互體驗(yàn)。
據(jù)項(xiàng)目負(fù)責(zé)人介紹,該功能基于豆包視覺理解模型Seed 1.8的視覺語言理解能力。與早期“拍圖—提問—再拍圖”的斷點(diǎn)式交互不同,該模型能持續(xù)理解觀眾移動(dòng)中不斷變化的視角和場景,實(shí)現(xiàn)近似于人與人之間的自然對(duì)話。
超越曝光:藝術(shù)館合作背后的多模態(tài)深水區(qū)競賽
每經(jīng)記者注意到,這不是豆包首次涉足文博領(lǐng)域。此前,豆包已與中國國家博物館、河南博物院等七家國家一級(jí)博物館達(dá)成合作,共同打造數(shù)字化看展體驗(yàn)區(qū)。但此次以“官方AI講解員”身份參與,為豆包積累了稀缺的垂直領(lǐng)域經(jīng)驗(yàn),也為其視覺模型在復(fù)雜、高要求場景下的可靠性提供了背書。
豆包在美術(shù)館中展現(xiàn)的“視覺能力”,背后是一場全球范圍內(nèi)加速演進(jìn)的多模態(tài)AI競賽,其中“視覺理解與實(shí)時(shí)交互”是當(dāng)前關(guān)注的焦點(diǎn)。
2024年5月,OpenAI和谷歌接連發(fā)布“GPT-4o”和“Project Astra”兩款具備實(shí)時(shí)語音、視頻交互能力的產(chǎn)品之后,在國內(nèi)市場,該賽道也被按下了加速鍵。同年8月,智譜清言面向用戶推出視頻通話功能,掀起了一輪測試熱潮。而到了2025年,阿里面向C端市場上線的千問項(xiàng)目同樣配備了視頻通話功能。
隨著競爭持續(xù)升級(jí),行業(yè)對(duì)多模態(tài)價(jià)值的認(rèn)識(shí)也逐步升級(jí)為衡量AI能否進(jìn)入更深場景的標(biāo)尺。
2025年12月,在火山引擎原動(dòng)力大會(huì)上,火山引擎總裁譚待明確指出:“多模態(tài)其實(shí)代表著模型的應(yīng)用進(jìn)入更深的領(lǐng)域。”他在接受包括每經(jīng)記者在內(nèi)的媒體采訪時(shí)闡釋,現(xiàn)實(shí)中的需求常伴隨視覺信息,工具返回的結(jié)果也多是視覺化的,只有具備視覺理解能力,模型才能像人一樣操作工具、處理任務(wù),從而極大地?cái)U(kuò)展適用邊界。“我們很早就意識(shí)到,多模態(tài)才是模型真正成為復(fù)雜Agent的關(guān)鍵。”
在這一戰(zhàn)略邏輯下,與浦東美術(shù)館這類專業(yè)機(jī)構(gòu)的深度合作,對(duì)豆包而言具有超越市場曝光的長期價(jià)值。
藝術(shù)展覽場景知識(shí)密度高、且充滿人文闡釋空間。在此處深耕,既是對(duì)模型準(zhǔn)確性與穩(wěn)定性的測試,也是對(duì)其專業(yè)知識(shí)庫的構(gòu)建。而在藝術(shù)領(lǐng)域靠“分辨相似展品”修煉出的視覺理解與知識(shí)組織的能力,未來也可以遷移至教育、電商、設(shè)計(jì)乃至工業(yè)質(zhì)檢等更多需要精細(xì)化視覺辨別的行業(yè)。
此前,知名經(jīng)濟(jì)學(xué)者、工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林在接受每經(jīng)記者微信采訪時(shí)曾表示,AI視頻交互的使用前景非常光明,并且隨著AI眼鏡這一類符合視頻通話應(yīng)用場景的新硬件逐漸升溫,AI視頻交互還有更多的可能性。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請(qǐng)核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.