曾造出無數(shù)“小視頻”、惡搞過多位明星的知名換臉神器Deepfakes,這下被降維打擊了。 這個新AI不再是篡改視頻了,而是直接把一張靜態(tài)的照片變成視頻。 像這樣,一張施瓦辛格: 開始說話了: 饒舌歌手Tupac Shakur: 也能張嘴了: 只要有一張靜態(tài)的人臉照片,甭管是誰,在這個新AI的驅(qū)動下,任意配上一段語音,就能張嘴說出來。 當然,上面的gif動圖沒有聲音,你可以點開下面視頻聽聽效果,里面有川普、施瓦辛格,還有愛因斯坦。 △ 總共2M,流量黨請放心食用當然,除了說話之外,唱歌也毫無問題,比如讓生活在一百多年前的“俄羅斯妖僧”拉斯普京唱碧昂絲的Halo: 雖然聲音和性別不太匹配,但是畫面和歌曲組合起來有種莫名的鬼畜感呢。 你也別以為這個AI只能給照片對口型,它還可以讓這個說話的人擁有喜怒哀樂各種情緒。 開心的: 難過的: 炸毛的: 連體態(tài)都符合不同情緒的狀態(tài),你打開視頻聽聽看,是不是很符合說話的情緒? 這眉眼,這目光,這臉部肌肉,得拯救多少“面癱”演員??! 這項研究來自帝國理工學(xué)院和三星,研究者們還準備了一套包含24個真假難辨的視頻的圖靈測試,我們簡單測了一下,只能猜對一半左右。 也就是說,這些AI生成的“真假美猴王”,足以蒙騙人類了。 相比此前的斯坦福輸入任意文本改變視頻人物口型的研究,以及三星的說話換臉,實現(xiàn)難度可以說高了很多。 不少網(wǎng)友聞之色變:
連科技媒體The Verge都評價說:
也有人覺得,等技術(shù)普及之后會給做壞事的人掩蓋的理由:
多鑒別器結(jié)構(gòu)如何用一張照片做出連貫視頻?研究人員認為,這需要時序生成對抗網(wǎng)絡(luò)(Temporal GAN)來幫忙。 邏輯上不難理解,如果想讓生成的假視頻逼真,畫面上至少得有兩點因素必須滿足: 一是人臉圖像必須高質(zhì)量,二是需要配合談話內(nèi)容,協(xié)調(diào)嘴唇、眉毛等面部五官的位置。也不用動用復(fù)雜的面部捕捉技術(shù),現(xiàn)在,只用機器學(xué)習(xí)的方法,就能自動合成人臉。 這中間的秘訣,就在于時序生成對抗網(wǎng)絡(luò),也就是Temporal GAN,此前在2018年提出過這個研究。 這是一個端對端的語音驅(qū)動的面部動畫合成模型,通過靜止圖像和一個語音生成人臉視頻。 在Temporal GAN中有兩個鑒別器,一個為幀鑒別器,確保生成的圖像清晰詳細,另一個是序列鑒別器,負責響應(yīng)聽到的聲音并產(chǎn)生對應(yīng)的面部運動,但效果并不那么優(yōu)異。 △ Temporal GAN模型示意圖論文End-to-End Speech-Driven Facial Animation with Temporal GANs 地址: https:///abs/1805.09313 在這項工作,研究人員借用這種時序生成對抗網(wǎng)絡(luò),使用兩個時間鑒別器,對生成的視頻進行視聽對應(yīng),來生成逼真的面部動作。 同時還鼓勵模型進一步自發(fā)產(chǎn)生新的面部表情,比如眨眼等動作。 所以,最新版基于語音的人臉合成模型來了。模型由時間生成器和3個鑒別器構(gòu)成,結(jié)構(gòu)如下: 這是一個井然有序的分工結(jié)構(gòu),生成器負責接收單個圖像和音頻信號作為輸入,并將其分割為0.2秒的重疊幀,每個音頻幀必須以視頻幀為中心。 這個生成器由內(nèi)容編碼器(Content Encoder),一個鑒別編碼器(Identity Encoder)、一個幀解碼器(Frame Decoder)和聲音解碼器(Noise Generator)組成,不同模塊組合成一個可嵌入模塊,通過解碼網(wǎng)絡(luò)轉(zhuǎn)換成幀。 這個系統(tǒng)使用了多個鑒別器來捕捉自然視頻的不同方面,各部分各司其職。 幀鑒別器(Frame Discriminator)是一個6層的卷積神經(jīng)網(wǎng)絡(luò),來決定一幀為真還是假,同時實現(xiàn)對說話人面部的高質(zhì)量視頻重建。 序列鑒別器(Sequence Discriminator)確保各個幀能形成一個連貫的視頻,顯示自然運動。 同步鑒別器(Synchronization Discriminator)加強了對視聽同步的要求,決定畫面和音頻應(yīng)該如何同步。它使用了兩種編碼器獲取音頻和視頻的嵌入信息,并基于歐式距離給出判斷。 同步鑒別器的結(jié)構(gòu)如下: 就是這樣,無需造價高昂的面部捕捉技術(shù),只需這樣一個網(wǎng)絡(luò),就能將一張照片+一段音頻組合成流暢連貫的視頻了。 30多篇CVPR的作者這項研究共有三位作者,分別為Konstantinos Vougioukas、Stavros Petridis和Maja Pantic,均來自倫敦帝國學(xué)院iBUG小組,主攻智能行為理解,其中二作和三作也是英國三星AI中心的員工。 一作Konstantinos Vougioukas2011年在佩特雷大學(xué)獲得電氣與計算機工程專業(yè)的本科學(xué)位后,奔赴愛丁堡大學(xué)攻讀人工智能方向的碩士學(xué)位。 現(xiàn)在,Konstantinos Vougioukas在倫敦帝國學(xué)院的Maja Pantic教授(本文三作)的指導(dǎo)下攻讀博士,主要研究方向為人類行為合成和面部行為合成。 Maja Pantic教授是iBUG小組的負責人,也是劍橋三星AI中心的研究主任,她在面部表情分析、人體姿態(tài)分析、情緒和社會信號是挺分析等方面發(fā)表過超過250篇論文,引用次數(shù)超過25000次。 從2005年開始,Maja Pantic帶學(xué)生發(fā)了30多篇CVPR(包含workshop)論文。 Maja Pantic教授主頁: 傳送門論文Realistic Speech-Driven Facial Animation with GANs地址: https:///abs/1906.06337 項目主頁: GitHub: — 完 — |
|