每日經濟新聞 2026-03-10 22:40:11
每經記者|可楊 每經編輯|楊軍
人工智能帶來效率提升,倫理安全問題也相伴而生,成為一大隱患。近日,多位人大代表及政協委員談及AI(人工智能)給日常生活帶來的風險,例如AI換臉導致虛假信息滿天飛,建議出臺更嚴厲的細則進行規(guī)范及治理。
一位同時研究AI生成與檢測的學者,如何看待自己所在領域的“貓鼠游戲”?
董晶來自中國科學院自動化所,她同時也是IEEE(電氣電子工程師學會)亞太區(qū)執(zhí)委。IEEE是全球最大的專業(yè)技術組織,致力于推動電氣、電子、計算機及通信等領域的技術創(chuàng)新。
“不妨讓二者對抗一下:一邊做出生成技術,另一邊拿去檢測是否存在安全風險,再據此迭代優(yōu)化?!倍дf,“這就相當于自己跟自己對抗,一邊造、一邊查,在內部形成攻防博弈?!?/p>
作為IEEE亞太區(qū)執(zhí)委、中國科學院自動化所研究員,董晶是專注AI生成與內容安全雙向研究的學者。恰逢“三八”國際婦女節(jié),她接受了《每日經濟新聞》記者(以下簡稱NBD)專訪,聊了聊AI人臉技術從平面到立體的躍遷,也聊了聊AI飛速發(fā)展的“矛與盾”,以及給想要進入AI行業(yè)的年輕人提出了一些建議。
AI人臉以前是“改圖”,現在是“造人”
NBD:這幾年大眾對AI人臉的印象,可能還停留在換臉或者美顏。您做的3D感知、表情遷移,聽起來更偏結構層面。今天的人臉生成和幾年前比,最大變化是什么?
董晶:過去人們對AI人臉的理解,大多停留在2D(二維)圖像層面的編輯與修改——從像素維度調整色彩、排列方式與統(tǒng)計規(guī)律,讓一張雜亂的噪聲圖逐步形成規(guī)整的人臉結構??蛇@類生成結果一旦換個角度、換種光線,就很容易露出破綻。
現在的變化是從平面修圖變成立體建模。我們做的3D(三維)感知、表情遷移,本質上是先還原人臉的三維結構、骨骼和肌肉關系,再去生成和驅動。從平面修圖變成了立體建模,相當于在做雕刻,從二維到三維,讓人臉立起來。同時,更強調可信與安全,不僅要逼真,還要可溯源、可取證。
NBD:這種“立起來”帶來了什么實質變化?
董晶:首先是更穩(wěn)定、自然;其次是可控性大大增強,從二維到三維,參數量變多了,表情、姿態(tài)、光照這些屬性可以用不同的參數分別調節(jié);最后是可信與安全,參數量多了,我們在計算過程中建立的可溯源、可取證的鏈條就更完善。
簡單說就是以前我們是“改圖”,現在是在“造人”。
NBD:這個技術突破和什么有關?算力、數據還是算法?
董晶:關鍵在于兩點:一是算力水平,二是模型性能。過去受限于條件,既難以處理海量數據,對數據的理解能力也相對有限。如今不僅有了更多優(yōu)質數據,借助生成式技術本身,還能補全許多此前難以獲取、處理和存儲的數據。
另外就是算法更智能了,研究這個方向的人越來越多,智力投入足夠,對參數怎么調優(yōu)的理解也在加深。人工智能,首先是人的智能。
NBD:大語言模型有海量語料,圖像領域會面臨數據缺乏的問題嗎?
董晶:確實會。圖像視頻數據本身就是非結構化數據,建模難度大,存儲需求也大。從量級上說,一篇文本跟一張圖像比,圖像的數據肯定是缺乏的,所以現在我們用很多生成式技術去做(指生成圖像、視頻),其實也是在補這些短板。
NBD:補短板包括補視覺大模型甚至具身智能的數據短板嗎?
董晶:視覺是人類接觸世界最直觀的表達,70%的數據來自眼睛。所以我們肯定希望這個技術,能讓大家從想象到想象力,給想象力更廣的空間。
不過現在的生成技術還在發(fā)展階段,不是所有數據都能生成得很逼真。有些生成內容看上去像真圖,但不符合物理世界的規(guī)律。想象力是可以有的,但是它不能太超前,在醫(yī)療、安全等高精尖、強精準要求的領域,現有技術仍未達到成熟可用、落地應用的階段。
NBD:您一直強調可控編輯,可以調節(jié)年齡、表情、身份屬性。為什么可控會成為重要方向?
董晶:可控編輯,是AI生成從炫技走向實用的關鍵。過去生成模型最大的痛點是不可控、不可復現,想改個表情、調整年齡,都要反復生成,沒法精準滿足需求??煽鼐庉嫲讶四樀牟煌瑢傩圆鸾忾_,獨立調控,讓AI從黑箱生成變成按需定制。它解決的是生成與需求脫節(jié)、結果不可靠、技術難落地的問題。
這個技術的應用場景也包括了數字人直播、影視特效、電商內容生產、醫(yī)美預覽、安全教育、身份認證安全等。同時,可控也是AI安全與內容監(jiān)管的前提,和我研究的深度偽造檢測、多媒體取證高度契合。
NBD:對抗性妝容這類技術的原理是什么?目前技術是否已經具備了從實驗室走向手機App(應用程序),甚至金融支付前端的商業(yè)條件?
董晶:對抗性妝容的原理,是通過人眼幾乎不可察覺的細微妝容,干擾人臉識別模型,從而保護面部隱私。它不靠遮擋,而是精準、溫和地讓AI認不出來。
目前技術效果已經比較成熟,但還沒完全具備大規(guī)模商業(yè)化條件。一方面,光線、角度、攝像頭的魯棒性仍需提升;另一方面,涉及金融安全、隱私合規(guī)、倫理規(guī)范,需要行業(yè)標準和監(jiān)管體系同步完善。短期內會更多用于隱私保護研究和特定場景防護。
NBD:識別系統(tǒng)可以被干擾,是否意味著人臉識別本身并不是絕對可靠?未來的支付安全或手機解鎖會走向哪里?會不會需要依靠更多多模態(tài)結合的識別?
董晶:沒有任何一種生物識別是絕對安全的,人臉識別在日常場景中高效便捷,但在對抗、偽裝、攻擊場景下,確實存在被繞過的可能。
我們研究攻擊,不是否定它,而是讓它更安全。人臉識別是便利工具,不是絕對防線。日常通行、手機解鎖沒問題;但金融支付、大額交易,不能只依賴人臉。未來方向一定是多模態(tài)融合:人臉、指紋、聲紋、行為特征、設備信息等交叉校驗。單一模態(tài)可能被攻破,但多模態(tài)會把安全等級大幅提高。
沒有安全的盾,生成也無法落地
NBD:以前說“有圖有真相”,現在視頻也可能是假的。技術上還能有效識別這些嗎?
董晶:目前仍然可以有效識別,我們課題組就在做生成式內容的檢測與測評。現在很多短視頻都要求標注是不是AI生成,主動標注當然好,但更多的可能不標,就需要檢測技術跟上來。
從技術角度,我們分析生成式技術的共性特征。比如生成出來的圖是不是真彩色更強,很多時候你會發(fā)現它比一般視頻拍得更漂亮、更炫酷。從像素層面,它的連續(xù)性、邊緣效應可能有特定規(guī)律,就像模型有自己的“指紋”。
還有就是從大量數據中學到的一些不太好定義的經驗特征,可以幫助我們給出一個概率判斷。AI生成再逼真,也會留下物理、幾何、時序上的細微痕跡:光影不一致、微結構扭曲、時間不連貫等。人眼看不出來,但算法可以捕捉。
NBD:檢測的難點具體在哪里?
董晶:AI生成的檢測本質上是弱信號檢測,生成模型的目標就是無限逼近真實視頻,而檢測任務則要在高度逼真的內容中,精準識別出偽造痕跡。你越了解生成式技術,就越了解它可能假在哪里。所以我們一定要從生成式原理出發(fā),脫離技術本質空談檢測,無異于閉門造車。
另一個難點是,弱信號的檢測,其特性往往沒有一個在語義層面可表達、可解釋的規(guī)律,很難找到普適的特性。所以我們需要不斷補全知識盲區(qū),把經驗加進去。
NBD:越短的視頻越難檢測嗎?很多用戶會覺得看AI視頻,感覺多看幾秒就能發(fā)現它是AI。3秒的視頻是不是更難發(fā)現其真?zhèn)危?/p>
董晶:這個跟時間長短沒有絕對關系。你要說短,那圖像更短,但圖像的檢測率,在我們很多實際觀測中,可能比視頻更高。
這其中可能用到了一些認知機理。人類多看幾秒,相當于多學了一段時間。從這個角度說,學習時間越長,對知識的掌握能力就越強,這可能符合人類的認知關系。從科學研究的角度來看,檢測效果與視頻時長沒有本質關聯。關鍵在于對問題本質的認知深度:是否真正理解偽造特征、能否有效建模并學習到這些關鍵線索。
我們目前研究發(fā)現,AI生成視頻的檢測難度有一明顯特性:視頻場景頻繁切換、不連續(xù)(如頻繁跳場),會因引入大量無序擾動信息,顯著增加檢測難度。反之,視頻保持幾秒連續(xù)穩(wěn)定,連續(xù)性特征越多,越利于檢測——連續(xù)場景可減少擾動,便于捕捉生成視頻的固有偽造痕跡,提升檢測效果。
NBD:有一種觀點認為,檢測永遠追不上生成,您怎么看?
董晶:現階段檢測仍然略占優(yōu)勢,但雙方處于持續(xù)拉鋸狀態(tài)。生成追求視覺逼真,檢測抓的是物理規(guī)律、幾何一致性、模型痕跡這些人類難以察覺的底層漏洞。短期看,新生成方法剛出現時,檢測會短暫滯后,但很快能追上。長期看,賽道會發(fā)生變化,未來不再是單純攻防,而是可信水印、生成溯源、多模態(tài)校驗、全鏈路合規(guī)的主動防御體系。
NBD:您同時涉足生成和檢測領域,怎么理解這兩者的關系?
董晶:我更愿意定義為相互成就、螺旋上升的共生關系。生成技術不斷逼近真實,主動暴露識別系統(tǒng)的漏洞,逼著安全技術變強;檢測與安全技術不斷升級,又反過來約束生成走向規(guī)范、可信、安全,讓技術不被濫用。
沒有攻,就沒有堅固的守;沒有盾,生成也無法真正落地。它們共同推動整個人工智能領域,從可用走向好用、可靠、可信。
NBD:現在做AI安全研究,重點在哪些方面?
董晶:安全是一個整體觀念,它不是某一個方面的安全,而是有衍生效應。有內生安全,也有外生賦能安全,技術本身可能有脆弱性,也可能延伸到其他領域帶來新的安全問題。
我一方面是在做生成的技術,我會考慮這些前沿技術怎么應用,但應用的過程中,又要測試它會不會帶來安全問題,我們要去測試一下。所以我們既做生成也做檢測。相當于自己對抗自己,很多技術在我的課題組我都分成兩個課題、兩個小組在做,然后讓他們互相對抗。
NBD:當生成內容足以以假亂真時,怎么建立一套有效的溯源機制?
董晶:要防止AI被濫用、成為造謠與詐騙工具,不能只靠事后檢測,必須建立一套從生成到傳播全鏈路可追溯的可信體系。
首先要從源頭強制留痕,未來所有商用AI生成模型,都應該嵌入不可篡改的數字水印、模型指紋、生成日志,讓圖片、視頻在生成的那一刻,就自帶出生證明,記錄生成主體、時間、模型信息,做到誰生成、誰負責。
其次,在傳播環(huán)節(jié),社交平臺、短視頻平臺應接入統(tǒng)一的內容核驗接口,自動識別內容是否為AI生成、是否被篡改。
同時,完善法律與制度保障,明確平臺、開發(fā)者、使用者的責任邊界,讓技術溯源結果能夠成為法律證據鏈的一部分。
NBD:未來在身份驗證、隱私保護方面,技術趨勢是什么?
董晶:現在的檢測技術需要更多從認知角度去做可解釋性,不能只告訴用戶“這是假的”,還要告訴他“為什么是假的”。下次看到同類內容,用戶自己就有判斷力了。我們要找出那些人類可以理解,但視覺難以察覺的底層漏洞,比如違背了哪些圖像或視頻中的幾何規(guī)律、物理規(guī)律。如果只說真假,未來生成式內容越來越多,大家只會越來越眼花繚亂。
性別不是能力的分界線
NBD:在AI和科技行業(yè),女性比例仍然偏低。您怎么看?
董晶:客觀上女性比例仍偏低,但女性正在快速崛起,且具備獨特優(yōu)勢:更細膩、更注重細節(jié)、更擅長溝通協作、更關注技術的人文與倫理價值,這些正是下一代AI最需要的能力。
我也遇到過現實挑戰(zhàn):在學術會議中是少數群體;需要在事業(yè)與生活中做更多平衡;也聽過一些隱性偏見,比如女性不適合硬核算法。但我始終相信:性別從來不是能力的分界線,專業(yè)、熱愛、堅持,才是決定能走多遠的關鍵。
NBD:很多女性往往因為“能力不足”的自我懷疑而錯失機會。您有過類似經歷嗎?
董晶:我非常認同,也完全有過。在職業(yè)生涯早期,面對重要機會,我也會猶豫:我準備好了嗎?能做好嗎?后來我意識到,沒有人天生就準備好,大家都是在一次次上場中變強的。我的辦法很簡單:先接住,再做好;先上場,再變強。不要等完美了再出發(fā),要在出發(fā)的路上,把自己變成更合適的人。
NBD:對想要進入AI行業(yè)的年輕人,尤其是女性,有什么建議?
董晶:不要受限。如果想進來就服從你的本心,因為你有選擇的權利。如果你足夠優(yōu)秀,你想進任何行業(yè),都應該相信自己能成功。
而且不要覺得你是第一個吃螃蟹的,這個領域有很多先行者。如果真想成功,你可以研究前輩是怎么在這個行業(yè)堅持長期主義的,因為在科研或者科技領域,長期主義需要一開始就有打算,而不是只憑一時興趣。
另外,我覺得還是要鼓勵女性進入這個領域。很多女性在技術開發(fā)階段比男性更有溫度,她們很多的技術可能最終會用到教育和醫(yī)療方面。這是AI現在可能最重要的兩個領域,未來需要女性從業(yè)者的智力、能力或者智慧。
封面圖片來源:新華社
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP