造假AI又進化！只要一張照片，說話唱歌視頻自動生成，降維打擊Deepfakes丨已開源

skysun000001 2019-06-23

展開全文

曾造出無數(shù)“小視頻”、惡搞過多位明星的知名換臉神器Deepfakes，這下被降維打擊了。

這個新AI不再是篡改視頻了，而是直接把一張靜態(tài)的照片變成視頻。

像這樣，一張施瓦辛格：

開始說話了：

饒舌歌手Tupac Shakur：

也能張嘴了：

只要有一張靜態(tài)的人臉照片，甭管是誰，在這個新AI的驅(qū)動下，任意配上一段語音，就能張嘴說出來。

當然，上面的gif動圖沒有聲音，你可以點開下面視頻聽聽效果，里面有川普、施瓦辛格，還有愛因斯坦。

△ 總共2M，流量黨請放心食用

當然，除了說話之外，唱歌也毫無問題，比如讓生活在一百多年前的“俄羅斯妖僧”拉斯普京唱碧昂絲的Halo：

雖然聲音和性別不太匹配，但是畫面和歌曲組合起來有種莫名的鬼畜感呢。

你也別以為這個AI只能給照片對口型，它還可以讓這個說話的人擁有喜怒哀樂各種情緒。

開心的：

難過的：

炸毛的：

連體態(tài)都符合不同情緒的狀態(tài)，你打開視頻聽聽看，是不是很符合說話的情緒？

這眉眼，這目光，這臉部肌肉，得拯救多少“面癱”演員??！

這項研究來自帝國理工學(xué)院和三星，研究者們還準備了一套包含24個真假難辨的視頻的圖靈測試，我們簡單測了一下，只能猜對一半左右。

也就是說，這些AI生成的“真假美猴王”，足以蒙騙人類了。

相比此前的斯坦福輸入任意文本改變視頻人物口型的研究，以及三星的說話換臉，實現(xiàn)難度可以說高了很多。

不少網(wǎng)友聞之色變：

現(xiàn)在是拉斯普京唱Halo，以后會不會整出川普向墨西哥選戰(zhàn)啊，感覺怕怕的。

連科技媒體The Verge都評價說：

這樣的研究總讓人們擔憂，怕它會被用在謠言和政治宣傳上，實在是讓美國立法者們傷腦筋。當然，你也可以說這種在政治領(lǐng)域的威脅沒那么嚴重，但deepfakes已經(jīng)確確實實傷害了一些人，尤其是女性，在未經(jīng)同意的情況下被用來制造了又難堪又羞辱的色情視頻。

也有人覺得，等技術(shù)普及之后會給做壞事的人掩蓋的理由：

等這技術(shù)成熟了，川普真的干壞事的小視頻出來，他就可以輕描淡寫的說這是假視頻。
呵呵，真棒，以后壞人們被捏到把柄的時候，就都能說“沒有的事啦，是假視頻。”

多鑒別器結(jié)構(gòu)

如何用一張照片做出連貫視頻？研究人員認為，這需要時序生成對抗網(wǎng)絡(luò)（Temporal GAN）來幫忙。

邏輯上不難理解，如果想讓生成的假視頻逼真，畫面上至少得有兩點因素必須滿足：

一是人臉圖像必須高質(zhì)量，二是需要配合談話內(nèi)容，協(xié)調(diào)嘴唇、眉毛等面部五官的位置。也不用動用復(fù)雜的面部捕捉技術(shù)，現(xiàn)在，只用機器學(xué)習(xí)的方法，就能自動合成人臉。

這中間的秘訣，就在于時序生成對抗網(wǎng)絡(luò)，也就是Temporal GAN，此前在2018年提出過這個研究。

這是一個端對端的語音驅(qū)動的面部動畫合成模型，通過靜止圖像和一個語音生成人臉視頻。

在Temporal GAN中有兩個鑒別器，一個為幀鑒別器，確保生成的圖像清晰詳細，另一個是序列鑒別器，負責響應(yīng)聽到的聲音并產(chǎn)生對應(yīng)的面部運動，但效果并不那么優(yōu)異。

△ Temporal GAN模型示意圖

論文End-to-End Speech-Driven Facial Animation with Temporal GANs 地址：

https:///abs/1805.09313

在這項工作，研究人員借用這種時序生成對抗網(wǎng)絡(luò)，使用兩個時間鑒別器，對生成的視頻進行視聽對應(yīng)，來生成逼真的面部動作。

同時還鼓勵模型進一步自發(fā)產(chǎn)生新的面部表情，比如眨眼等動作。

所以，最新版基于語音的人臉合成模型來了。模型由時間生成器和3個鑒別器構(gòu)成，結(jié)構(gòu)如下：

這是一個井然有序的分工結(jié)構(gòu)，生成器負責接收單個圖像和音頻信號作為輸入，并將其分割為0.2秒的重疊幀，每個音頻幀必須以視頻幀為中心。

這個生成器由內(nèi)容編碼器（Content Encoder)，一個鑒別編碼器（Identity Encoder）、一個幀解碼器（Frame Decoder）和聲音解碼器（Noise Generator）組成，不同模塊組合成一個可嵌入模塊，通過解碼網(wǎng)絡(luò)轉(zhuǎn)換成幀。

這個系統(tǒng)使用了多個鑒別器來捕捉自然視頻的不同方面，各部分各司其職。

幀鑒別器（Frame Discriminator）是一個6層的卷積神經(jīng)網(wǎng)絡(luò)，來決定一幀為真還是假，同時實現(xiàn)對說話人面部的高質(zhì)量視頻重建。

序列鑒別器（Sequence Discriminator）確保各個幀能形成一個連貫的視頻，顯示自然運動。

同步鑒別器（Synchronization Discriminator）加強了對視聽同步的要求，決定畫面和音頻應(yīng)該如何同步。它使用了兩種編碼器獲取音頻和視頻的嵌入信息，并基于歐式距離給出判斷。

同步鑒別器的結(jié)構(gòu)如下：

就是這樣，無需造價高昂的面部捕捉技術(shù)，只需這樣一個網(wǎng)絡(luò)，就能將一張照片+一段音頻組合成流暢連貫的視頻了。

30多篇CVPR的作者

這項研究共有三位作者，分別為Konstantinos Vougioukas、Stavros Petridis和Maja Pantic，均來自倫敦帝國學(xué)院iBUG小組，主攻智能行為理解，其中二作和三作也是英國三星AI中心的員工。

一作Konstantinos Vougioukas2011年在佩特雷大學(xué)獲得電氣與計算機工程專業(yè)的本科學(xué)位后，奔赴愛丁堡大學(xué)攻讀人工智能方向的碩士學(xué)位。

現(xiàn)在，Konstantinos Vougioukas在倫敦帝國學(xué)院的Maja Pantic教授（本文三作）的指導(dǎo)下攻讀博士，主要研究方向為人類行為合成和面部行為合成。

Maja Pantic教授是iBUG小組的負責人，也是劍橋三星AI中心的研究主任，她在面部表情分析、人體姿態(tài)分析、情緒和社會信號是挺分析等方面發(fā)表過超過250篇論文，引用次數(shù)超過25000次。

從2005年開始，Maja Pantic帶學(xué)生發(fā)了30多篇CVPR（包含workshop）論文。

Maja Pantic教授主頁：
https://ibug.doc./people/mpantic

傳送門

論文Realistic Speech-Driven Facial Animation with GANs地址：

https:///abs/1906.06337

項目主頁：
https://sites.google.com/view/facial-animation

GitHub：
https://github.com/DinoMan/speech-driven-animation

— 完 —

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： skysun000001 > 《科學(xué)技術(shù)衛(wèi)生健康養(yǎng)生養(yǎng)老體育環(huán)?！?/a>

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

skysun000001

關(guān)注對話

TA的最新館藏

空間站第八批科學(xué)實驗樣品，回來了！
生命，居然也可以懸在邊界上，不活不死……
3.7 千克月球 “土特產(chǎn)” 藏著多少寶貝？
胡錫進：登記結(jié)婚數(shù)量斷崖式下降，好可怕！我觀察到部分原因
女子赤腳進入萬年晶花池拍照，專家稱破壞不可逆，當?shù)鼗貞?yīng)
地球上的人類，可能比我們知道的還多數(shù)十億

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

造假AI又進化！只要一張照片，說話唱歌視頻自動生成，降維打擊Deepfakes丨已開源

△ 總共2M，流量黨請放心食用

多鑒別器結(jié)構(gòu)

△ Temporal GAN模型示意圖

30多篇CVPR的作者

傳送門

造假AI又進化！只要一張照片，說話唱歌視頻自動生成，降維打擊Deepfakes丨已開源