2026-01-21 21:58:52
1月20日,豆包成為上海浦東美術(shù)館兩項國際大展的官方AI講解員,是AI產(chǎn)品首次以“官方身份”進(jìn)駐美術(shù)館。在展廳中,豆包能辨識數(shù)百件展品并支持互動。此前,豆包已與七家國家一級博物館合作,此次合作積累了垂直領(lǐng)域經(jīng)驗。當(dāng)前多模態(tài)AI競賽加速演進(jìn),豆包與專業(yè)機構(gòu)合作具有長期價值,未來能力可遷移至多行業(yè)。
每經(jīng)記者|李宇彤 每經(jīng)編輯|魏文藝
藝術(shù)或許是人類世界中最復(fù)雜、最微妙的“視覺文本”之一。而當(dāng)AI的視線投向這片由人類精神凝結(jié)的沃土?xí)r,將會發(fā)生什么?
1月20日,字節(jié)跳動旗下豆包與上海浦東美術(shù)館達(dá)成合作,正式成為該館兩項國際大展——“圖案的奇跡:盧浮宮印度、伊朗與奧斯曼的藝術(shù)杰作”與“非常畢加索:保羅·史密斯的新視角”的官方AI講解員。這也是AI產(chǎn)品首次以“官方身份”進(jìn)駐美術(shù)館。

圖片來源:每經(jīng)記者 李宇彤 攝
這背后,是豆包大模型視覺理解能力的一次場景化落地。通過獨家數(shù)據(jù)訓(xùn)練與定向搜索優(yōu)化,在展廳中,豆包能辨識數(shù)百件展品,并支持觀眾連續(xù)、深入的追問式互動。
《每日經(jīng)濟新聞》記者(以下簡稱“每經(jīng)記者”)注意到,從識別一幅畫到理解一段文明,AI的“眼睛”正在變得愈發(fā)敏銳。隨著行業(yè)競爭從文本生成轉(zhuǎn)向視頻理解與實時交互,一個能真正“看得懂、說得清”的大模型,成為在智能體(Agent)時代的競爭中的關(guān)鍵。而視頻通話成為這項能力的集中展示場景。
2024年8月,智譜清言率先推出了國內(nèi)首個面向C端(消費者端)開放的視頻通話功能。而到了2025年,阿里“千問”同樣配備了視頻通話功能。
那么在實際運用中豆包表現(xiàn)如何?當(dāng)AI的“眼睛”成為兵家必爭之地,豆包又能否出奇制勝?
在真實的觀展場景中,觀眾的提問往往是開放而發(fā)散的。從“這是什么”的基礎(chǔ)詢問,到對創(chuàng)作背景、制作工藝的深入探討,這類多層次、即興的交互對AI的知識儲備與實時解析能力構(gòu)成了持續(xù)考驗。
那么,豆包能否應(yīng)對這樣的挑戰(zhàn)?每經(jīng)記者在浦東美術(shù)館進(jìn)行了一次現(xiàn)場檢驗。
在基礎(chǔ)信息層面,每經(jīng)記者在“非常畢加索”展區(qū)請豆包介紹畢加索的“藍(lán)色時期”,其回答不僅涵蓋該階段的具體時間,還關(guān)聯(lián)到藝術(shù)家個人經(jīng)歷與時代背景。每經(jīng)記者還將豆包的回答與浦東美術(shù)館官方介紹進(jìn)行了進(jìn)一步核對,發(fā)現(xiàn)二者信息一致,但相較官方文藝的表達(dá),豆包的表述更接近口語。

浦東美術(shù)館官方介紹和豆包介紹
在識別能力上,每經(jīng)記者發(fā)現(xiàn)即使刻意避開展簽,豆包也能快速識別畫作并給出介紹,這項能力在面對“圖案的奇跡”中較為小眾的展品時亦能保持精準(zhǔn)。
當(dāng)問題深入至技法與工藝細(xì)節(jié)時,豆包同樣展現(xiàn)出結(jié)構(gòu)化的解析能力。例如,面對畢加索畫作《裝扮成喜劇丑角的保羅》,它能結(jié)合藝術(shù)家當(dāng)時初為人父的心境,闡釋其風(fēng)格轉(zhuǎn)向與“未完成”筆觸的創(chuàng)作意圖。當(dāng)每經(jīng)記者在“圖案的奇跡”展區(qū)指向一件印度作品《珍珠母與貝殼執(zhí)壺》,接連拋出“珍珠母產(chǎn)地”“大器具如何固定”“彎曲部分如何制作”等具體工藝問題時,豆包也能從原料產(chǎn)地、工藝結(jié)構(gòu)到歷史流通背景逐層解答。

豆包對于《珍珠母與貝殼執(zhí)壺》問題的回答
不過,在實際體驗中,豆包作為解說員的表現(xiàn)仍會受到客觀環(huán)境因素的制約。每經(jīng)記者注意到,在手機信號較弱時,豆包難以完整、精確地識別語音提問的信息,但能依據(jù)對話上下文進(jìn)行合理推斷,給出大致對應(yīng)的回復(fù)。
事實上,在走進(jìn)美術(shù)館之前,豆包的視頻通話能力已在更廣泛場景中經(jīng)歷了數(shù)月的實踐打磨。2025年5月,豆包App上線基于視覺推理模型的視頻通話功能,支持實時視頻問答與聯(lián)網(wǎng)搜索,迅速吸引了眾多用戶體驗。
然而,從日常場景跨越到專業(yè)的美術(shù)館場域,對豆包的識別精度與知識儲備提出了更高維度的挑戰(zhàn)。豆包逛展項目負(fù)責(zé)人坦言:“在博物館場景中運用AI講解,最大的挑戰(zhàn)是保證內(nèi)容的準(zhǔn)確性。模型不僅要能區(qū)分外觀高度相似的文物、理解小眾且缺乏公開資料的展品,還要能在觀眾移動觀展、從不同角度和距離觀察同一件展品時,始終保持穩(wěn)定識別?!?/p>
為此,豆包與浦東美術(shù)館進(jìn)行了獨家數(shù)據(jù)合作與定向搜索優(yōu)化,以此提升了文物識別與講解的可靠性,并實現(xiàn)了支持連續(xù)、深入追問的交互體驗。
據(jù)項目負(fù)責(zé)人介紹,該功能基于豆包視覺理解模型Seed 1.8的視覺語言理解能力。與早期“拍圖—提問—再拍圖”的斷點式交互不同,該模型能持續(xù)理解觀眾移動中不斷變化的視角和場景,實現(xiàn)近似于人與人之間的自然對話。
每經(jīng)記者注意到,這不是豆包首次涉足文博領(lǐng)域。此前,豆包已與中國國家博物館、河南博物院等七家國家一級博物館達(dá)成合作,共同打造數(shù)字化看展體驗區(qū)。但此次以“官方AI講解員”身份參與,為豆包積累了稀缺的垂直領(lǐng)域經(jīng)驗,也為其視覺模型在復(fù)雜、高要求場景下的可靠性提供了背書。
豆包在美術(shù)館中展現(xiàn)的“視覺能力”,背后是一場全球范圍內(nèi)加速演進(jìn)的多模態(tài)AI競賽,其中“視覺理解與實時交互”是當(dāng)前關(guān)注的焦點。
2024年5月,OpenAI和谷歌接連發(fā)布“GPT-4o”和“Project Astra”兩款具備實時語音、視頻交互能力的產(chǎn)品之后,在國內(nèi)市場,該賽道也被按下了加速鍵。同年8月,智譜清言面向用戶推出視頻通話功能,掀起了一輪測試熱潮。而到了2025年,阿里面向C端市場上線的千問項目同樣配備了視頻通話功能。
隨著競爭持續(xù)升級,行業(yè)對多模態(tài)價值的認(rèn)識也逐步升級為衡量AI能否進(jìn)入更深場景的標(biāo)尺。
2025年12月,在火山引擎原動力大會上,火山引擎總裁譚待明確指出:“多模態(tài)其實代表著模型的應(yīng)用進(jìn)入更深的領(lǐng)域?!彼诮邮馨拷?jīng)記者在內(nèi)的媒體采訪時闡釋,現(xiàn)實中的需求常伴隨視覺信息,工具返回的結(jié)果也多是視覺化的,只有具備視覺理解能力,模型才能像人一樣操作工具、處理任務(wù),從而極大地擴展適用邊界?!拔覀兒茉缇鸵庾R到,多模態(tài)才是模型真正成為復(fù)雜Agent的關(guān)鍵?!?/p>
在這一戰(zhàn)略邏輯下,與浦東美術(shù)館這類專業(yè)機構(gòu)的深度合作,對豆包而言具有超越市場曝光的長期價值。
藝術(shù)展覽場景知識密度高、且充滿人文闡釋空間。在此處深耕,既是對模型準(zhǔn)確性與穩(wěn)定性的測試,也是對其專業(yè)知識庫的構(gòu)建。而在藝術(shù)領(lǐng)域靠“分辨相似展品”修煉出的視覺理解與知識組織的能力,未來也可以遷移至教育、電商、設(shè)計乃至工業(yè)質(zhì)檢等更多需要精細(xì)化視覺辨別的行業(yè)。
此前,知名經(jīng)濟學(xué)者、工信部信息通信經(jīng)濟專家委員會委員盤和林在接受每經(jīng)記者微信采訪時曾表示,AI視頻交互的使用前景非常光明,并且隨著AI眼鏡這一類符合視頻通話應(yīng)用場景的新硬件逐漸升溫,AI視頻交互還有更多的可能性。
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請核實。據(jù)此操作,風(fēng)險自擔(dān)。
封面圖片來源:每經(jīng)記者 李宇彤 攝
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP