選自arXiv
作者:Sheng-Yu Wang、Alexei A. Efros等 機(jī)器之心編譯 參與:沉沉、蛋醬 CNN 生成的圖像與真實(shí)圖像很難分辨嗎?來(lái)自 Adobe 和加州伯克利的研究者發(fā)現(xiàn),僅僅在一種 CNN 生成的圖像上進(jìn)行訓(xùn)練的分類器,也可以檢測(cè)許多其他模型生成的結(jié)果?;蛟S,GAN 和 Deepfake 在「瞞天過(guò)?!股弦膊皇侨f(wàn)能的。  近來(lái),諸如生成對(duì)抗網(wǎng)絡(luò)(GAN)的深度圖像生成技術(shù)快速發(fā)展,引發(fā)了公眾的廣泛關(guān)注和興趣,但這也使人們擔(dān)心,我們會(huì)逐漸走入一個(gè)無(wú)法分辨圖像真實(shí)與否的世界。 這種擔(dān)憂尤其體現(xiàn)在一些特定的圖像操縱技術(shù)上,例如用來(lái)進(jìn)行面部風(fēng)格替換的「Deepfake」,以及逼真的人像生成。其實(shí)這些方法僅僅是一種廣泛應(yīng)用技術(shù)中的兩個(gè)實(shí)例:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像生成。來(lái)自 Adobe 和加州伯克利的研究人員在論文預(yù)印本平臺(tái) arXiv 上傳了《CNN-generated images are surprisingly easy to spot... for now》,他們提出,即使是在一種 CNN 生成的圖像所訓(xùn)練的分類器,也能夠跨數(shù)據(jù)集、網(wǎng)絡(luò)架構(gòu)和訓(xùn)練任務(wù),展現(xiàn)出驚人的泛化能力。這篇論文目前已被 CVPR 2020 接收,代碼和模型也已公布。 在這項(xiàng)工作中,研究者希望找到一種用于檢測(cè) CNN 生成圖像的通用圖像偽造檢測(cè)方法。檢測(cè)圖像是否由某種特定技術(shù)生成是相對(duì)簡(jiǎn)單的,只需在由真實(shí)圖像和該技術(shù)生成的圖像組成的數(shù)據(jù)集上訓(xùn)練一個(gè)分類器即可。但現(xiàn)有的很多方法的檢測(cè)效果很可能會(huì)與圖像生成訓(xùn)練中使用的數(shù)據(jù)集(如人臉數(shù)據(jù)集)緊密相關(guān),并且由于數(shù)據(jù)集偏差的存在,一些方法在新數(shù)據(jù)(例如汽車)測(cè)試時(shí)可能泛化性較差。更糟糕的是,隨著圖像生成方法的發(fā)展,或是用于訓(xùn)練的技術(shù)被淘汰,這種基于特定生成技術(shù)的檢測(cè)器可能會(huì)很快失效。所以 CNN 生成的圖像是否包含共同的偽造痕跡呢?例如某種可檢測(cè)的 CNN 特征,這樣就可以將分類器推廣到整個(gè)生成方法族,而不只是針對(duì)單個(gè)生成方法。一般來(lái)說(shuō),泛化性確實(shí)一直是圖像偽造檢測(cè)領(lǐng)域的難題。例如,最近的一些工作 [48,13,41] 觀察表明,對(duì)某一種 GAN 架構(gòu)所生成圖像進(jìn)行訓(xùn)練的分類器在其他架構(gòu)上進(jìn)行測(cè)試時(shí)性能較差,并且在許多情況下,僅僅訓(xùn)練數(shù)據(jù)集的改變(而非架構(gòu)或任務(wù))就會(huì)導(dǎo)致泛化失敗 [48]。這是有道理的,因?yàn)閳D像生成方法千差萬(wàn)別,它們使用的是不同的數(shù)據(jù)集、網(wǎng)絡(luò)架構(gòu)、損失函數(shù)和圖像預(yù)處理方式。但研究者發(fā)現(xiàn),與當(dāng)前人們的理解相反,為檢測(cè) CNN 生成的圖像所訓(xùn)練的分類器能夠跨數(shù)據(jù)集、網(wǎng)絡(luò)架構(gòu)和訓(xùn)練任務(wù),展現(xiàn)出驚人的泛化能力。在本文中,研究者遵循慣例并通過(guò)簡(jiǎn)單的方式訓(xùn)練分類器,使用單個(gè) CNN 模型(使用 ProGAN,一種高性能的非條件式 GAN 模型)生成大量偽造圖像,并訓(xùn)練一個(gè)二分類器來(lái)檢測(cè)偽造圖像,將模型使用的真實(shí)訓(xùn)練圖像作為負(fù)例。此外,本文還提出了一個(gè)用于檢測(cè) CNN 生成圖像的新數(shù)據(jù)集和評(píng)價(jià)指標(biāo),并通過(guò)實(shí)驗(yàn)分析了影響跨模型泛化性的因素。研究者創(chuàng)建了一個(gè) CNN 生成圖像的新數(shù)據(jù)集「ForenSynths」,該數(shù)據(jù)集由 11 種模型生成的圖像組成,從非條件式的圖像生成方法(如 StyleGAN)到超分辨率方法,以及 deepfake。每個(gè)模型都在適合其特定任務(wù)的不同圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練。研究者還繼續(xù)在論文撰寫后發(fā)布的模型上評(píng)估檢測(cè)器,發(fā)現(xiàn)它可以在最新的非條件式 GAN——StyleGAN2 實(shí)現(xiàn)開箱即用。 表 1:生成模型。研究者評(píng)估了偽造檢測(cè)分類器在多種基于 CNN 的圖像生成方法上的效果。 實(shí)驗(yàn):檢測(cè) CNN 生成的圖像鑒于數(shù)據(jù)集中的非條件式 GAN 模型可以生成任意數(shù)量的圖像,研究者選擇了一種特定的模型 ProGAN 來(lái)訓(xùn)練檢測(cè)器。使用單一模型進(jìn)行訓(xùn)練,這個(gè)方法與現(xiàn)實(shí)世界中的檢測(cè)問(wèn)題極為相似,即訓(xùn)練時(shí)并不清楚需要泛化模型的多樣性和數(shù)量。接著,研究者創(chuàng)建了一個(gè)僅由 ProGAN 生成的圖像和真實(shí)圖像組成的大規(guī)模數(shù)據(jù)集。使用 20 個(gè)模型,每個(gè)模型在不同的 LSUN 物體類別上進(jìn)行訓(xùn)練,并生成 36K 的訓(xùn)練圖像和 200 張驗(yàn)證圖像,每個(gè)模型所用的真實(shí)和偽造的圖像數(shù)量是相等的。一共有 720K 圖像用于訓(xùn)練、4K 圖像用于驗(yàn)證。這一實(shí)驗(yàn)的主要思想是在這個(gè) ProGAN 數(shù)據(jù)集上訓(xùn)練一個(gè)判斷「真實(shí)或偽造」的分類器,并評(píng)估該模型對(duì)其他 CNN 合成圖像的泛化效果。在分類器的選擇上,使用了經(jīng)過(guò) ImageNet 預(yù)訓(xùn)練的 ResNet-50,并在二分類的設(shè)定下進(jìn)行訓(xùn)練。 表 2:跨生成器的泛化結(jié)果。圖中展示了 Zhang 等人提供的基線和本文模型在不同分類器上的平均準(zhǔn)確度(AP),共 11 個(gè)生成器參與測(cè)試。符號(hào) X 和 ? 分別表示在訓(xùn)練時(shí)分別以 50%和 10%的概率應(yīng)用數(shù)據(jù)增強(qiáng)。隨機(jī)表現(xiàn)是 50%,可能的最佳表現(xiàn)是 100%。在測(cè)試用的生成器被用于訓(xùn)練時(shí),結(jié)果顯示為灰色(因?yàn)樗鼈儾皇窃跍y(cè)試泛化性)。黑色的值表示跨生成器的泛化性結(jié)果。其中,最高值以黑色加粗顯示。通過(guò)減少數(shù)據(jù)擴(kuò)充,研究者展示了針對(duì) ProGAN 中較少類的消融實(shí)驗(yàn)結(jié)果。同時(shí)通過(guò)平均所有數(shù)據(jù)集的 AP 分?jǐn)?shù)來(lái)得到 mean AP。為了方便比較,子集被繪制在圖 3、4、5 中。研究者將該方法的泛化性能與其他圖像偽造檢測(cè)方法進(jìn)行了比較。Zhang 等人的方法提出了一套經(jīng)過(guò)訓(xùn)練可以檢測(cè)由通用 CNN 架構(gòu)生成的偽造圖像的分類器,這套通用架構(gòu)在許多圖像生成任務(wù)中都有出現(xiàn)(如 CycleGAN 和 StarGAN)。他們引入了 AutoGAN,這是一種基于 CycleGAN 生成器的自動(dòng)編碼器,可以模擬類似于 CycleGAN 生成的偽造圖像。研究者考慮了 Zhang 等人預(yù)訓(xùn)練模型的四個(gè)變體,其中每個(gè)都分別從兩個(gè)圖像源(CycleGAN 和 AutoGAN)之一和兩種圖像表示(圖像和光譜)之一進(jìn)行訓(xùn)練。在訓(xùn)練過(guò)程中,所有四個(gè)變體都使用了 JPEG 和放縮進(jìn)行數(shù)據(jù)增強(qiáng),以提高每個(gè)模型的魯棒性。除了 CycleGAN([48] 使用的模型架構(gòu))和 StarGAN(兩種方法都獲得了接近 100.0 AP 的結(jié)果)外,本文提出的模型對(duì)其他架構(gòu)的泛化性能明顯更好。比較結(jié)果可見于表 2 和圖 5。表 2 展示了使用不同數(shù)據(jù)增強(qiáng)方法進(jìn)行訓(xùn)練的泛化能力。研究者發(fā)現(xiàn),即使在測(cè)試時(shí)未使用此類擾動(dòng),使用激進(jìn)的數(shù)據(jù)增強(qiáng)方法(以模擬后處理的形式)也提供了驚人的泛化能力。此外也觀察到這些模型明顯對(duì)于后處理更加魯棒(圖 6)。 圖 3:數(shù)據(jù)增強(qiáng)方法的效果。所有的檢測(cè)器都在 ProGAN 上進(jìn)行訓(xùn)練,在其他生成器上進(jìn)行測(cè)試(AP 結(jié)果如圖所示)??傮w來(lái)說(shuō),使用數(shù)據(jù)增強(qiáng)進(jìn)行訓(xùn)練可以幫助提高模型的效果。其中超分辨率模型和 DeepFake 是例外。 圖 4:數(shù)據(jù)集多樣性的效果。所有的檢測(cè)器都在 ProGAN 上進(jìn)行訓(xùn)練,在其他生成器上進(jìn)行測(cè)試(AP 結(jié)果如圖所示)。使用更多類進(jìn)行訓(xùn)練可以提高模型表現(xiàn)。所有的訓(xùn)練都以 50% 的概率使用了模糊和 JPEG 進(jìn)行數(shù)據(jù)增強(qiáng)。 圖 5:模型比較。研究者觀察到,和 Zhang 等人的方法相比,在大多數(shù)情況下,本文模型可以更好地推廣到其他架構(gòu)。值得注意的例外是 CycleGAN(與 [48] 中的訓(xùn)練架構(gòu)相同)、StarGAN(兩種方法均獲得接近 100. AP 的結(jié)果)和 SAN(應(yīng)用數(shù)據(jù)增強(qiáng)會(huì)導(dǎo)致性能下降)。結(jié)果表明,如今的 CNN 生成的圖像保留了可檢測(cè)到的特征,從而可以將它們與真實(shí)照片區(qū)分開。這就使得鑒別偽造照片的分類器無(wú)需大量修改即可從一種模型推廣到另一種模型。但是,這并不意味著這種情況將持續(xù)下去。首先,即使是最好的偽造檢測(cè)器,也要在真實(shí)檢測(cè)率和假陽(yáng)性率之間進(jìn)行權(quán)衡。其次,偽造照片可能會(huì)在社交媒體平臺(tái)(Facebook,Twitter,YouTube 等)上被大量惡意使用,因此數(shù)據(jù)將會(huì)被劇烈變換(壓縮,縮放,重采樣等)。最后,迄今為止,被記錄在案的的大多數(shù)有效的偽造實(shí)例都使用經(jīng)典的「淺層」方法,例如 Photoshop。在論文的最后,研究者也提到,檢測(cè)偽造圖像只是解決視覺(jué)虛假信息威脅這一難題的一小部分,有效的解決方案需要融合從技術(shù)、社會(huì)到法律等各方面的廣泛戰(zhàn)略。[48] Xu Zhang, Svebor Karaman, and Shih-Fu Chang. Detecting and simulating artifacts in gan fake images. In WIFS, 2019. [41] RunWang,LeiMa,FelixJuefei-Xu,XiaofeiXie,JianWang, and Yang Liu. Fakespotter: A simple baseline for spotting ai-synthesized fake faces. arXiv preprint arXiv:1909.06122, 2019. 2 [13] Davide Cozzolino, Justus Thies, Andreas Ro ?ssler, Christian Riess, Matthias Nie?ner, and Luisa Verdoliva. Forensictrans- fer: Weakly-supervised domain adaptation for forgery detec- tion. arXiv preprint arXiv:1812.02510, 2018. 2 本文為機(jī)器之心編譯,轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)。 ?------------------------------------------------加入機(jī)器之心(全職記者 / 實(shí)習(xí)生):hr@jiqizhixin.com投稿或?qū)で髨?bào)道:content@jiqizhixin.com廣告 & 商務(wù)合作:bd@jiqizhixin.com
|