![]()
全球觀察者深度出品
縱橫寰宇,洞察時(shí)代風(fēng)云
大家好歡迎收看【】
斯坦福大學(xué)之前做了個挺有意思的實(shí)驗(yàn)。
他們拿當(dāng)前最火的幾款A(yù)I圖像檢測器,先在標(biāo)準(zhǔn)數(shù)據(jù)集上測,準(zhǔn)確率輕松飆到98%,可一到真實(shí)場景,給AI生成的圖像稍微改改格式、裁個尺寸,準(zhǔn)確率"哐當(dāng)"掉到52%。
![]()
這可不是個別現(xiàn)象,同年歐盟搞的AI監(jiān)管沙盒測試更狠,6款主流檢測工具對著經(jīng)過簡單編輯的AI圖像,平均識別率才41%。
AI圖像檢測怎么就成了"應(yīng)試高手,實(shí)戰(zhàn)菜鳥"?這事兒得從根上聊。
現(xiàn)在很多檢測模型都是在實(shí)驗(yàn)室里"刷題"刷出來的,訓(xùn)練數(shù)據(jù)里AI生成的圖像大多是PNG格式、512×512分辨率,內(nèi)容不是人臉就是風(fēng)景。
![]()
可真實(shí)世界的圖像哪有這么規(guī)整?
就拿格式來說,咱們平時(shí)拍的照片90%都是JPEG格式,AI生成的卻愛用PNG。
騰訊團(tuán)隊(duì)做過實(shí)驗(yàn),光把AI生成圖像從PNG轉(zhuǎn)成JPEG,檢測錯誤率直接漲了40%。
你說這模型學(xué)的到底是圖像真假,還是格式標(biāo)簽?
![]()
尺寸問題也挺明顯。
AI生成圖像默認(rèn)采用512×512分辨率,可真實(shí)圖像尺寸五花八門,有手機(jī)拍的豎屏,有單反拍的寬幅。
模型見慣了方方正正的"標(biāo)準(zhǔn)像",突然來個長條的,可不就懵了。
![]()
內(nèi)容上的偏差更要命。
訓(xùn)練數(shù)據(jù)里人臉、風(fēng)景占了大頭,可要是來張古建筑斗拱的細(xì)節(jié)圖,或者醫(yī)學(xué)CT片,AI生成的和真實(shí)的根本分不清。
畢竟模型沒見過多少這類"偏門"樣本,自然談不上識別。
本來以為模型越復(fù)雜越管用,后來發(fā)現(xiàn)不是這么回事。
![]()
有的檢測器用了10億參數(shù)的Transformer架構(gòu),實(shí)驗(yàn)室準(zhǔn)確率99%,到了真實(shí)場景照樣拉胯。
看來不是模型不夠聰明,是喂給它的數(shù)據(jù)本身就有"偏見"。
這時(shí)候騰訊優(yōu)圖聯(lián)合華東理工大學(xué)、北京大學(xué)的團(tuán)隊(duì)站了出來。
他們搞出個叫DDA(DualDataAlignment)的數(shù)據(jù)對齊方法,還發(fā)了論文,直接入選了頂會NeurIPS2025。
![]()
這方法不拼模型復(fù)雜度,而是從數(shù)據(jù)源頭給檢測系統(tǒng)"補(bǔ)課"。
DDA方法核心是搞了三重對齊,聽著挺玄乎,其實(shí)道理不復(fù)雜。
先是像素域?qū)R,用VAE變分自編碼器給AI生成圖像"換張真實(shí)的皮"。
![]()
簡單說就是讓AI生成的圖像在分辨率、細(xì)節(jié)分布上,盡量貼近真實(shí)照片,比如統(tǒng)一縮放到256×256,把那些一看就很"假"的完美細(xì)節(jié)磨掉點(diǎn)。
然后是頻率域?qū)R。
AI生成的圖像高頻信息太"干凈",看著完美反而不真實(shí)。
DDA就給這些對齊后的圖像做JPEG壓縮,質(zhì)量因子設(shè)成75,跟咱們手機(jī)拍照默認(rèn)設(shè)置差不多。
![]()
這么一弄,圖像里該有的噪點(diǎn)、壓縮痕跡都有了,高頻信息誤差從12.3降到2.1,看著就像手機(jī)拍出來的。
最絕的是特征域?qū)R。
他們用Mixup技術(shù)把真實(shí)圖像和處理后的AI生成圖像"攪和"在一起,生成一堆"真假難辨"的混合樣本。
![]()
你想啊,模型訓(xùn)練時(shí)天天看這種"混血"圖像,就沒法靠格式、尺寸這些表面特征偷懶了,只能乖乖學(xué)那些藏在深處的本質(zhì)差異。
實(shí)驗(yàn)設(shè)計(jì)也挺有想法。
以前檢測模型都是"一套數(shù)據(jù)練一個模型",換個場景就得重訓(xùn)。
DDA不搞這套,就用COCO數(shù)據(jù)集單輪訓(xùn)練出一個通用模型。
![]()
測試的時(shí)候更狠,覆蓋人臉、風(fēng)景、古建筑、醫(yī)學(xué)影像等5類場景,還故意對圖像做裁剪、加濾鏡、打水印等20種編輯攻擊,就是要看看模型在"惡劣環(huán)境"下能不能扛住。
結(jié)果怎么樣?直接上數(shù)據(jù)對比。
傳統(tǒng)CNN檢測器在標(biāo)準(zhǔn)數(shù)據(jù)集準(zhǔn)確率98.2%,可遇上跨模型生成的圖像,準(zhǔn)確率掉到62.5%,再加上編輯攻擊,只剩51.3%。
Transformer模型稍好點(diǎn),但跨編輯攻擊準(zhǔn)確率也才58.9%。
![]()
DDA呢?標(biāo)準(zhǔn)數(shù)據(jù)集準(zhǔn)確率97.8%(雖略有下降但很穩(wěn)定),跨模型攻擊準(zhǔn)確率89.3%,跨編輯攻擊準(zhǔn)確率85.6%。
這實(shí)戰(zhàn)能力,一下子拉開差距了。
這技術(shù)已經(jīng)開始落地了。
內(nèi)測的"AI謠言過濾器"就接了DDA模塊,虛假圖像攔截率直接提升37%。
![]()
視覺中國也用它來追溯AI生成圖像的訓(xùn)練數(shù)據(jù)來源,今年初就靠這技術(shù)揪出個盜用攝影作品訓(xùn)練的AI繪畫平臺。
不過話說回來,技術(shù)進(jìn)步也帶來新問題。
現(xiàn)在AI生成技術(shù)發(fā)展太快,Sora生成已經(jīng)能以假亂真,檢測技術(shù)得跟著升級。
而且數(shù)據(jù)對齊涉及真實(shí)圖像重建,這里面還有個"數(shù)據(jù)重建權(quán)"的問題。
![]()
歐盟《AI法案》第14條就說了,數(shù)據(jù)處理得尊重原始創(chuàng)作者權(quán)益,這事兒還得慢慢理順。
說到底,DDA方法最讓人啟發(fā)的是它戳破了一個技術(shù)迷信:高準(zhǔn)確率不等于高可靠性。
實(shí)驗(yàn)室里的漂亮數(shù)字,可能只是模型把"應(yīng)試技巧"練到了家。
要讓AI檢測真正管用,還得回到數(shù)據(jù)本身,把那些藏在格式、尺寸、語義背后的偏見一個個揪出來。
![]()
現(xiàn)在騰訊團(tuán)隊(duì)已經(jīng)把DDA項(xiàng)目代碼開源了,GitHub上就能找到。
他們也呼吁行業(yè)別光盯著模型復(fù)雜度,趕緊建立真實(shí)場景的評測標(biāo)準(zhǔn)。
畢竟AI圖像檢測的戰(zhàn)場從來不在實(shí)驗(yàn)室,而在咱們刷的朋友圈、看的新聞里。
未來這技術(shù)還能往、文本檢測擴(kuò)展。
要是真能把多模態(tài)的"數(shù)據(jù)對齊"玩明白,說不定咱們離一個"能辨真假"的AIGC生態(tài),就不遠(yuǎn)了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.