網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)豆包“看懂”畢加索：一次美術(shù)館的AI解說實(shí)驗(yàn)，如何成為多模態(tài)競爭的試金石？

2026-01-21 22:03:07　來源: 每日經(jīng)濟(jì)新聞

四川舉報(bào)

分享至

藝術(shù)或許是人類世界中最復(fù)雜、最微妙的“視覺文本”之一。而當(dāng)AI的視線投向這片由人類精神凝結(jié)的沃土?xí)r，將會(huì)發(fā)生什么？

1月20日，字節(jié)跳動(dòng)旗下豆包與上海浦東美術(shù)館達(dá)成合作，正式成為該館兩項(xiàng)國際大展——“圖案的奇跡：盧浮宮印度、伊朗與奧斯曼的藝術(shù)杰作”與“非常畢加索：保羅·史密斯的新視角”的官方AI講解員。這也是AI產(chǎn)品首次以“官方身份”進(jìn)駐美術(shù)館。

圖片來源：每經(jīng)記者李宇彤攝

這背后，是豆包大模型視覺理解能力的一次場景化落地。通過獨(dú)家數(shù)據(jù)訓(xùn)練與定向搜索優(yōu)化，在展廳中，豆包能辨識(shí)數(shù)百件展品，并支持觀眾連續(xù)、深入的追問式互動(dòng)。

《每日經(jīng)濟(jì)新聞》記者（以下簡稱“每經(jīng)記者”）注意到，從識(shí)別一幅畫到理解一段文明，AI的“眼睛”正在變得愈發(fā)敏銳。隨著行業(yè)競爭從文本生成轉(zhuǎn)向視頻理解與實(shí)時(shí)交互，一個(gè)能真正“看得懂、說得清”的大模型，成為在智能體（Agent）時(shí)代的競爭中的關(guān)鍵。而視頻通話成為這項(xiàng)能力的集中展示場景。

2024年8月，智譜清言率先推出了國內(nèi)首個(gè)面向C端（消費(fèi)者端）開放的視頻通話功能。而到了2025年，阿里“千問”同樣配備了視頻通話功能。

那么在實(shí)際運(yùn)用中豆包表現(xiàn)如何？當(dāng)AI的“眼睛”成為兵家必爭之地，豆包又能否出奇制勝？

現(xiàn)場實(shí)測：豆包的識(shí)別、問答與它的“知識(shí)邊界”

在真實(shí)的觀展場景中，觀眾的提問往往是開放而發(fā)散的。從“這是什么”的基礎(chǔ)詢問，到對(duì)創(chuàng)作背景、制作工藝的深入探討，這類多層次、即興的交互對(duì)AI的知識(shí)儲(chǔ)備與實(shí)時(shí)解析能力構(gòu)成了持續(xù)考驗(yàn)。

那么，豆包能否應(yīng)對(duì)這樣的挑戰(zhàn)？每經(jīng)記者在浦東美術(shù)館進(jìn)行了一次現(xiàn)場檢驗(yàn)。

在基礎(chǔ)信息層面，每經(jīng)記者在“非常畢加索”展區(qū)請(qǐng)豆包介紹畢加索的“藍(lán)色時(shí)期”，其回答不僅涵蓋該階段的具體時(shí)間，還關(guān)聯(lián)到藝術(shù)家個(gè)人經(jīng)歷與時(shí)代背景。每經(jīng)記者還將豆包的回答與浦東美術(shù)館官方介紹進(jìn)行了進(jìn)一步核對(duì)，發(fā)現(xiàn)二者信息一致，但相較官方文藝的表達(dá)，豆包的表述更接近口語。

浦東美術(shù)館官方介紹和豆包介紹

在識(shí)別能力上，每經(jīng)記者發(fā)現(xiàn)即使刻意避開展簽，豆包也能快速識(shí)別畫作并給出介紹，這項(xiàng)能力在面對(duì)“圖案的奇跡”中較為小眾的展品時(shí)亦能保持精準(zhǔn)。

當(dāng)問題深入至技法與工藝細(xì)節(jié)時(shí)，豆包同樣展現(xiàn)出結(jié)構(gòu)化的解析能力。例如，面對(duì)畢加索畫作《裝扮成喜劇丑角的保羅》，它能結(jié)合藝術(shù)家當(dāng)時(shí)初為人父的心境，闡釋其風(fēng)格轉(zhuǎn)向與“未完成”筆觸的創(chuàng)作意圖。當(dāng)每經(jīng)記者在“圖案的奇跡”展區(qū)指向一件印度作品《珍珠母與貝殼執(zhí)壺》，接連拋出“珍珠母產(chǎn)地”“大器具如何固定”“彎曲部分如何制作”等具體工藝問題時(shí)，豆包也能從原料產(chǎn)地、工藝結(jié)構(gòu)到歷史流通背景逐層解答。

豆包對(duì)于《珍珠母與貝殼執(zhí)壺》問題的回答

不過，在實(shí)際體驗(yàn)中，豆包作為解說員的表現(xiàn)仍會(huì)受到客觀環(huán)境因素的制約。每經(jīng)記者注意到，在手機(jī)信號(hào)較弱時(shí)，豆包難以完整、精確地識(shí)別語音提問的信息，但能依據(jù)對(duì)話上下文進(jìn)行合理推斷，給出大致對(duì)應(yīng)的回復(fù)。

事實(shí)上，在走進(jìn)美術(shù)館之前，豆包的視頻通話能力已在更廣泛場景中經(jīng)歷了數(shù)月的實(shí)踐打磨。2025年5月，豆包App上線基于視覺推理模型的視頻通話功能，支持實(shí)時(shí)視頻問答與聯(lián)網(wǎng)搜索，迅速吸引了眾多用戶體驗(yàn)。

然而，從日常場景跨越到專業(yè)的美術(shù)館場域，對(duì)豆包的識(shí)別精度與知識(shí)儲(chǔ)備提出了更高維度的挑戰(zhàn)。豆包逛展項(xiàng)目負(fù)責(zé)人坦言：“在博物館場景中運(yùn)用AI講解，最大的挑戰(zhàn)是保證內(nèi)容的準(zhǔn)確性。模型不僅要能區(qū)分外觀高度相似的文物、理解小眾且缺乏公開資料的展品，還要能在觀眾移動(dòng)觀展、從不同角度和距離觀察同一件展品時(shí)，始終保持穩(wěn)定識(shí)別。”

為此，豆包與浦東美術(shù)館進(jìn)行了獨(dú)家數(shù)據(jù)合作與定向搜索優(yōu)化，以此提升了文物識(shí)別與講解的可靠性，并實(shí)現(xiàn)了支持連續(xù)、深入追問的交互體驗(yàn)。

據(jù)項(xiàng)目負(fù)責(zé)人介紹，該功能基于豆包視覺理解模型Seed 1.8的視覺語言理解能力。與早期“拍圖—提問—再拍圖”的斷點(diǎn)式交互不同，該模型能持續(xù)理解觀眾移動(dòng)中不斷變化的視角和場景，實(shí)現(xiàn)近似于人與人之間的自然對(duì)話。

超越曝光：藝術(shù)館合作背后的多模態(tài)深水區(qū)競賽

每經(jīng)記者注意到，這不是豆包首次涉足文博領(lǐng)域。此前，豆包已與中國國家博物館、河南博物院等七家國家一級(jí)博物館達(dá)成合作，共同打造數(shù)字化看展體驗(yàn)區(qū)。但此次以“官方AI講解員”身份參與，為豆包積累了稀缺的垂直領(lǐng)域經(jīng)驗(yàn)，也為其視覺模型在復(fù)雜、高要求場景下的可靠性提供了背書。

豆包在美術(shù)館中展現(xiàn)的“視覺能力”，背后是一場全球范圍內(nèi)加速演進(jìn)的多模態(tài)AI競賽，其中“視覺理解與實(shí)時(shí)交互”是當(dāng)前關(guān)注的焦點(diǎn)。

2024年5月，OpenAI和谷歌接連發(fā)布“GPT-4o”和“Project Astra”兩款具備實(shí)時(shí)語音、視頻交互能力的產(chǎn)品之后，在國內(nèi)市場，該賽道也被按下了加速鍵。同年8月，智譜清言面向用戶推出視頻通話功能，掀起了一輪測試熱潮。而到了2025年，阿里面向C端市場上線的千問項(xiàng)目同樣配備了視頻通話功能。

隨著競爭持續(xù)升級(jí)，行業(yè)對(duì)多模態(tài)價(jià)值的認(rèn)識(shí)也逐步升級(jí)為衡量AI能否進(jìn)入更深場景的標(biāo)尺。

2025年12月，在火山引擎原動(dòng)力大會(huì)上，火山引擎總裁譚待明確指出：“多模態(tài)其實(shí)代表著模型的應(yīng)用進(jìn)入更深的領(lǐng)域。”他在接受包括每經(jīng)記者在內(nèi)的媒體采訪時(shí)闡釋，現(xiàn)實(shí)中的需求常伴隨視覺信息，工具返回的結(jié)果也多是視覺化的，只有具備視覺理解能力，模型才能像人一樣操作工具、處理任務(wù)，從而極大地?cái)U(kuò)展適用邊界。“我們很早就意識(shí)到，多模態(tài)才是模型真正成為復(fù)雜Agent的關(guān)鍵。”

在這一戰(zhàn)略邏輯下，與浦東美術(shù)館這類專業(yè)機(jī)構(gòu)的深度合作，對(duì)豆包而言具有超越市場曝光的長期價(jià)值。

藝術(shù)展覽場景知識(shí)密度高、且充滿人文闡釋空間。在此處深耕，既是對(duì)模型準(zhǔn)確性與穩(wěn)定性的測試，也是對(duì)其專業(yè)知識(shí)庫的構(gòu)建。而在藝術(shù)領(lǐng)域靠“分辨相似展品”修煉出的視覺理解與知識(shí)組織的能力，未來也可以遷移至教育、電商、設(shè)計(jì)乃至工業(yè)質(zhì)檢等更多需要精細(xì)化視覺辨別的行業(yè)。

此前，知名經(jīng)濟(jì)學(xué)者、工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林在接受每經(jīng)記者微信采訪時(shí)曾表示，AI視頻交互的使用前景非常光明，并且隨著AI眼鏡這一類符合視頻通話應(yīng)用場景的新硬件逐漸升溫，AI視頻交互還有更多的可能性。

免責(zé)聲明：本文內(nèi)容與數(shù)據(jù)僅供參考，不構(gòu)成投資建議，使用前請(qǐng)核實(shí)。據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.