“ 靜態(tài)人臉動起來,一張照片就能換臉! 關于蒙娜麗莎, 我們都很熟了。。 可是! 開口說話的蒙娜麗莎。。 你見過嗎?! 這可不是在開玩笑, 真的有人把她給做出來了~ 眼睛、嘴巴和整個頭部都在動! 喋喋不休的蒙娜麗莎, 看上去就是個話癆家庭主婦。。 ▼ 還有這個, 略顯沮喪的蒙娜麗莎 ▼ 同樣, 愛因斯坦。。也坐不住了! 有些不情愿的愛因斯坦 ▼ 還有聊嗨了的愛因斯坦! ▼ 再來看看這個, 這是一張女神夢露的照片: 她竟然開始說話了! 嘴角眉梢流露都是性感: ▼ 妥妥滴風情萬種, 簡直就是活了~ ▼ 剩下的名人頭部動畫例子還有很多,達利、陀思妥耶夫斯基、戴珍珠耳環(huán)的少女以及 Wu Tang Clan 的 RZA等等。。 它們有一個共同特點:只需要一張人像圖片,無論是油畫還是照片,都能立馬動起來,照片變真人!四不四很神奇?! 原來,這些由一張圖片生成的視頻,是由三星莫斯科 AI 中心和 Skolkovo 科技研究所的研究人員用“深度偽造”(deep fake)技術賦予了生命! 研究人員稱這種學習方式為 few-shot learning 。該技術最神奇之處是完全無需 3D 建模,僅需一張圖片就能形成惟妙惟肖的動畫。 簡單來說,這套 AI 系統(tǒng)是將人物頭部圖片的面部特征和動作映射到一張照片上,使其栩栩如生。 研究人員使用 VoxCeleb2 視頻數(shù)據(jù)集進行元訓練(meta trainning)。具體來說,在元學習過程中,系統(tǒng)創(chuàng)建了三種神經(jīng)網(wǎng)絡: “讓照片動起來”元學習架構 首先,嵌入式網(wǎng)絡映射輸入圖像中的眼睛、鼻子、嘴巴大小等信息,并將其轉(zhuǎn)換為向量; 其次,生成式網(wǎng)絡通過繪制人像的面部地標(face landmarks)來復制人在視頻中的面部表情; 第三,鑒別器網(wǎng)絡將來自輸入圖像的嵌入向量粘貼到目標視頻的 landmark 上,使輸入圖像能夠模擬視頻中的運動。 最后,評估“真實性得分”。該分數(shù)用于檢查源圖像與目標視頻中的姿態(tài)的匹配程度。 憑借這三種網(wǎng)絡,此系統(tǒng)就能在大型視頻數(shù)據(jù)集上執(zhí)行長時間的元學習過程。待元學習收斂后,就能構建 few-shot 或 one-shot 的神經(jīng)頭像特寫模型。 該模型將未見過的目標任務視為對抗學習問題,這樣就能利用已學習的高質(zhì)量生成器與判別器。 而且在把圖片中的人物變活后,你想用什么表情控制它,就可以用什么表情控制它,甚至控制畫風鬼畜一點的人像也不在話下~ 當然,你要是覺得一張圖出來的效果有瑕疵,也可以用八張同一個人的照片,那這個效果就很鮮活了~ 以這個胡子小哥為例 : 然后讓他參照驅(qū)動序列即另一個人說話的視頻 就可以形成胡子小哥做出相同動作的視頻! 這是更加生猛的十六張照片生成的效果~ 不得不承認,這樣的生成效果,幾乎看不出bug了。 一起來瞅瞅視頻吧: 整個算法是在一個公共數(shù)據(jù)庫上進行,這個數(shù)據(jù)庫包含了從YouTube上收集的7000張名人照片。 不得不說,這種技術太具有顛覆性了——一張圖像或畫作就合成了人物開口說話狀態(tài)的頭部動畫相信這個 AI 系統(tǒng)很快就會被廣泛應用在視頻、游戲、電視、電影等行業(yè)中。。 網(wǎng)友們對此的反應褒貶不一, 有人形容它就像在觀看天網(wǎng)的未來, 有人擔心: 這種難辨真假的 deepfake 技術的崛起, 有著巨大的被濫用的可能性。 蒙娜麗莎都給“復活”了, 那我們放在網(wǎng)絡上的照片是也會被。。。 對此, 你是咋看的呢? 最炫的創(chuàng)意 · 最酷的設計 · 最黑的科技 |
|
來自: squareyang > 《科技界新聞》