要聞

當(dāng)豆包“看懂”畢加索：一次美術(shù)館的AI解說(shuō)實(shí)驗(yàn)，如何成為多模態(tài)競(jìng)爭(zhēng)的試金石？

2026-01-21 21:58:52

1月20日，豆包成為上海浦東美術(shù)館兩項(xiàng)國(guó)際大展的官方AI講解員，是AI產(chǎn)品首次以“官方身份”進(jìn)駐美術(shù)館。在展廳中，豆包能辨識(shí)數(shù)百件展品并支持互動(dòng)。此前，豆包已與七家國(guó)家一級(jí)博物館合作，此次合作積累了垂直領(lǐng)域經(jīng)驗(yàn)。當(dāng)前多模態(tài)AI競(jìng)賽加速演進(jìn)，豆包與專(zhuān)業(yè)機(jī)構(gòu)合作具有長(zhǎng)期價(jià)值，未來(lái)能力可遷移至多行業(yè)。

每經(jīng)記者｜李宇彤每經(jīng)編輯｜魏文藝

藝術(shù)或許是人類(lèi)世界中最復(fù)雜、最微妙的“視覺(jué)文本”之一。而當(dāng)AI的視線投向這片由人類(lèi)精神凝結(jié)的沃土?xí)r，將會(huì)發(fā)生什么？

1月20日，字節(jié)跳動(dòng)旗下豆包與上海浦東美術(shù)館達(dá)成合作，正式成為該館兩項(xiàng)國(guó)際大展——“圖案的奇跡：盧浮宮印度、伊朗與奧斯曼的藝術(shù)杰作”與“非常畢加索：保羅·史密斯的新視角”的官方AI講解員。這也是AI產(chǎn)品首次以“官方身份”進(jìn)駐美術(shù)館。

圖片來(lái)源：每經(jīng)記者李宇彤攝

這背后，是豆包大模型視覺(jué)理解能力的一次場(chǎng)景化落地。通過(guò)獨(dú)家數(shù)據(jù)訓(xùn)練與定向搜索優(yōu)化，在展廳中，豆包能辨識(shí)數(shù)百件展品，并支持觀眾連續(xù)、深入的追問(wèn)式互動(dòng)。

《每日經(jīng)濟(jì)新聞》記者（以下簡(jiǎn)稱(chēng)“每經(jīng)記者”）注意到，從識(shí)別一幅畫(huà)到理解一段文明，AI的“眼睛”正在變得愈發(fā)敏銳。隨著行業(yè)競(jìng)爭(zhēng)從文本生成轉(zhuǎn)向視頻理解與實(shí)時(shí)交互，一個(gè)能真正“看得懂、說(shuō)得清”的大模型，成為在智能體（Agent）時(shí)代的競(jìng)爭(zhēng)中的關(guān)鍵。而視頻通話成為這項(xiàng)能力的集中展示場(chǎng)景。

2024年8月，智譜清言率先推出了國(guó)內(nèi)首個(gè)面向C端（消費(fèi)者端）開(kāi)放的視頻通話功能。而到了2025年，阿里“千問(wèn)”同樣配備了視頻通話功能。

那么在實(shí)際運(yùn)用中豆包表現(xiàn)如何？當(dāng)AI的“眼睛”成為兵家必爭(zhēng)之地，豆包又能否出奇制勝？

現(xiàn)場(chǎng)實(shí)測(cè)：豆包的識(shí)別、問(wèn)答與它的“知識(shí)邊界”

在真實(shí)的觀展場(chǎng)景中，觀眾的提問(wèn)往往是開(kāi)放而發(fā)散的。從“這是什么”的基礎(chǔ)詢問(wèn)，到對(duì)創(chuàng)作背景、制作工藝的深入探討，這類(lèi)多層次、即興的交互對(duì)AI的知識(shí)儲(chǔ)備與實(shí)時(shí)解析能力構(gòu)成了持續(xù)考驗(yàn)。

那么，豆包能否應(yīng)對(duì)這樣的挑戰(zhàn)？每經(jīng)記者在浦東美術(shù)館進(jìn)行了一次現(xiàn)場(chǎng)檢驗(yàn)。

在基礎(chǔ)信息層面，每經(jīng)記者在“非常畢加索”展區(qū)請(qǐng)豆包介紹畢加索的“藍(lán)色時(shí)期”，其回答不僅涵蓋該階段的具體時(shí)間，還關(guān)聯(lián)到藝術(shù)家個(gè)人經(jīng)歷與時(shí)代背景。每經(jīng)記者還將豆包的回答與浦東美術(shù)館官方介紹進(jìn)行了進(jìn)一步核對(duì)，發(fā)現(xiàn)二者信息一致，但相較官方文藝的表達(dá)，豆包的表述更接近口語(yǔ)。

浦東美術(shù)館官方介紹和豆包介紹

在識(shí)別能力上，每經(jīng)記者發(fā)現(xiàn)即使刻意避開(kāi)展簽，豆包也能快速識(shí)別畫(huà)作并給出介紹，這項(xiàng)能力在面對(duì)“圖案的奇跡”中較為小眾的展品時(shí)亦能保持精準(zhǔn)。

當(dāng)問(wèn)題深入至技法與工藝細(xì)節(jié)時(shí)，豆包同樣展現(xiàn)出結(jié)構(gòu)化的解析能力。例如，面對(duì)畢加索畫(huà)作《裝扮成喜劇丑角的保羅》，它能結(jié)合藝術(shù)家當(dāng)時(shí)初為人父的心境，闡釋其風(fēng)格轉(zhuǎn)向與“未完成”筆觸的創(chuàng)作意圖。當(dāng)每經(jīng)記者在“圖案的奇跡”展區(qū)指向一件印度作品《珍珠母與貝殼執(zhí)壺》，接連拋出“珍珠母產(chǎn)地”“大器具如何固定”“彎曲部分如何制作”等具體工藝問(wèn)題時(shí)，豆包也能從原料產(chǎn)地、工藝結(jié)構(gòu)到歷史流通背景逐層解答。

豆包對(duì)于《珍珠母與貝殼執(zhí)壺》問(wèn)題的回答

不過(guò)，在實(shí)際體驗(yàn)中，豆包作為解說(shuō)員的表現(xiàn)仍會(huì)受到客觀環(huán)境因素的制約。每經(jīng)記者注意到，在手機(jī)信號(hào)較弱時(shí)，豆包難以完整、精確地識(shí)別語(yǔ)音提問(wèn)的信息，但能依據(jù)對(duì)話上下文進(jìn)行合理推斷，給出大致對(duì)應(yīng)的回復(fù)。

事實(shí)上，在走進(jìn)美術(shù)館之前，豆包的視頻通話能力已在更廣泛場(chǎng)景中經(jīng)歷了數(shù)月的實(shí)踐打磨。2025年5月，豆包App上線基于視覺(jué)推理模型的視頻通話功能，支持實(shí)時(shí)視頻問(wèn)答與聯(lián)網(wǎng)搜索，迅速吸引了眾多用戶體驗(yàn)。

然而，從日常場(chǎng)景跨越到專(zhuān)業(yè)的美術(shù)館場(chǎng)域，對(duì)豆包的識(shí)別精度與知識(shí)儲(chǔ)備提出了更高維度的挑戰(zhàn)。豆包逛展項(xiàng)目負(fù)責(zé)人坦言：“在博物館場(chǎng)景中運(yùn)用AI講解，最大的挑戰(zhàn)是保證內(nèi)容的準(zhǔn)確性。模型不僅要能區(qū)分外觀高度相似的文物、理解小眾且缺乏公開(kāi)資料的展品，還要能在觀眾移動(dòng)觀展、從不同角度和距離觀察同一件展品時(shí)，始終保持穩(wěn)定識(shí)別?！?/p>

為此，豆包與浦東美術(shù)館進(jìn)行了獨(dú)家數(shù)據(jù)合作與定向搜索優(yōu)化，以此提升了文物識(shí)別與講解的可靠性，并實(shí)現(xiàn)了支持連續(xù)、深入追問(wèn)的交互體驗(yàn)。

據(jù)項(xiàng)目負(fù)責(zé)人介紹，該功能基于豆包視覺(jué)理解模型Seed 1.8的視覺(jué)語(yǔ)言理解能力。與早期“拍圖—提問(wèn)—再拍圖”的斷點(diǎn)式交互不同，該模型能持續(xù)理解觀眾移動(dòng)中不斷變化的視角和場(chǎng)景，實(shí)現(xiàn)近似于人與人之間的自然對(duì)話。

超越曝光：藝術(shù)館合作背后的多模態(tài)深水區(qū)競(jìng)賽

每經(jīng)記者注意到，這不是豆包首次涉足文博領(lǐng)域。此前，豆包已與中國(guó)國(guó)家博物館、河南博物院等七家國(guó)家一級(jí)博物館達(dá)成合作，共同打造數(shù)字化看展體驗(yàn)區(qū)。但此次以“官方AI講解員”身份參與，為豆包積累了稀缺的垂直領(lǐng)域經(jīng)驗(yàn)，也為其視覺(jué)模型在復(fù)雜、高要求場(chǎng)景下的可靠性提供了背書(shū)。

豆包在美術(shù)館中展現(xiàn)的“視覺(jué)能力”，背后是一場(chǎng)全球范圍內(nèi)加速演進(jìn)的多模態(tài)AI競(jìng)賽，其中“視覺(jué)理解與實(shí)時(shí)交互”是當(dāng)前關(guān)注的焦點(diǎn)。

2024年5月，OpenAI和谷歌接連發(fā)布“GPT-4o”和“Project Astra”兩款具備實(shí)時(shí)語(yǔ)音、視頻交互能力的產(chǎn)品之后，在國(guó)內(nèi)市場(chǎng)，該賽道也被按下了加速鍵。同年8月，智譜清言面向用戶推出視頻通話功能，掀起了一輪測(cè)試熱潮。而到了2025年，阿里面向C端市場(chǎng)上線的千問(wèn)項(xiàng)目同樣配備了視頻通話功能。

隨著競(jìng)爭(zhēng)持續(xù)升級(jí)，行業(yè)對(duì)多模態(tài)價(jià)值的認(rèn)識(shí)也逐步升級(jí)為衡量AI能否進(jìn)入更深場(chǎng)景的標(biāo)尺。

2025年12月，在火山引擎原動(dòng)力大會(huì)上，火山引擎總裁譚待明確指出：“多模態(tài)其實(shí)代表著模型的應(yīng)用進(jìn)入更深的領(lǐng)域?！彼诮邮馨拷?jīng)記者在內(nèi)的媒體采訪時(shí)闡釋?zhuān)F(xiàn)實(shí)中的需求常伴隨視覺(jué)信息，工具返回的結(jié)果也多是視覺(jué)化的，只有具備視覺(jué)理解能力，模型才能像人一樣操作工具、處理任務(wù)，從而極大地?cái)U(kuò)展適用邊界?！拔覀兒茉缇鸵庾R(shí)到，多模態(tài)才是模型真正成為復(fù)雜Agent的關(guān)鍵?！?/p>

在這一戰(zhàn)略邏輯下，與浦東美術(shù)館這類(lèi)專(zhuān)業(yè)機(jī)構(gòu)的深度合作，對(duì)豆包而言具有超越市場(chǎng)曝光的長(zhǎng)期價(jià)值。

藝術(shù)展覽場(chǎng)景知識(shí)密度高、且充滿人文闡釋空間。在此處深耕，既是對(duì)模型準(zhǔn)確性與穩(wěn)定性的測(cè)試，也是對(duì)其專(zhuān)業(yè)知識(shí)庫(kù)的構(gòu)建。而在藝術(shù)領(lǐng)域靠“分辨相似展品”修煉出的視覺(jué)理解與知識(shí)組織的能力，未來(lái)也可以遷移至教育、電商、設(shè)計(jì)乃至工業(yè)質(zhì)檢等更多需要精細(xì)化視覺(jué)辨別的行業(yè)。

此前，知名經(jīng)濟(jì)學(xué)者、工信部信息通信經(jīng)濟(jì)專(zhuān)家委員會(huì)委員盤(pán)和林在接受每經(jīng)記者微信采訪時(shí)曾表示，AI視頻交互的使用前景非常光明，并且隨著AI眼鏡這一類(lèi)符合視頻通話應(yīng)用場(chǎng)景的新硬件逐漸升溫，AI視頻交互還有更多的可能性。

免責(zé)聲明：本文內(nèi)容與數(shù)據(jù)僅供參考，不構(gòu)成投資建議，使用前請(qǐng)核實(shí)。據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

封面圖片來(lái)源：每經(jīng)記者李宇彤攝

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

ST新動(dòng)力股東會(huì)現(xiàn)爭(zhēng)議投票：投票是否“被代表”成為分歧點(diǎn)，深交所火速發(fā)出關(guān)注函

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

維斯塔斯風(fēng)力技術(shù)集團(tuán)跌幅擴(kuò)大至約3%

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

国产成人一区二区三区久久精品 , 如果爱有天意在线观看免费完整版 , 香港战役电影完整版在线看未删减 , 夺冠电影在线观看完整版1080,国产少妇国语对白污,国产最新视频,久久色网站

當(dāng)豆包“看懂”畢加索：一次美術(shù)館的AI解說(shuō)實(shí)驗(yàn)，如何成為多模態(tài)競(jìng)爭(zhēng)的試金石？

現(xiàn)場(chǎng)實(shí)測(cè)：豆包的識(shí)別、問(wèn)答與它的“知識(shí)邊界”

超越曝光：藝術(shù)館合作背后的多模態(tài)深水區(qū)競(jìng)賽

當(dāng)豆包“看懂”畢加索：一次美術(shù)館的AI解說(shuō)實(shí)驗(yàn)，如何成為多模態(tài)競(jìng)爭(zhēng)的試金石？

現(xiàn)場(chǎng)實(shí)測(cè)：豆包的識(shí)別、問(wèn)答與它的“知識(shí)邊界”