郭一璞 發(fā)自 凹非寺? 量子位 報道 | 公眾號 QbitAI“來我辦公室一趟。” “您哪位???” “啥?你聽不出來我是誰嗎?” “是……張總嗎?” 
接著,就會發(fā)現(xiàn)電話那頭的“張總”,讓你去找財務部的同事,然后以“陪客戶”、“聯(lián)絡高層”的由頭,要求給一個陌生賬號匯款…… 你也接到過類似的電話吧?這個詐騙套路關鍵的一環(huán)就在于,你要把他的聲音聽成自己公司某個老板的聲音。 好在,大部分人不會聽錯,因此也不會上當受騙。 但現(xiàn)在,借助AI語音合成技術,騙子可以讓他的聲音和你老板一模一樣,并且一家英國公司真的上當受騙了,被騙走了22萬歐元(173萬人民幣)巨款。 案發(fā)過程據(jù)《華爾街日報》報道,總部位于巴黎的保險公司裕利安宜(Euler Hermes)的一家客戶上當了。 這家客戶是總部位于英國的一家能源公司,該公司的母公司位于德國,英國的是子公司。 一天,英國子公司CEO接了母公司“老板”電話,畢竟母公司是德國的,因此母公司老板日常說英文的時候會有德國腔。英國子公司CEO一聽,來電人的英語帶點德國口音,跟母公司的老板一毛一樣,那就是老板本人了。 原來,德國“老板”在跟“匈牙利供應商”談生意,賬要從英國的子公司走,也就是英國子公司把錢打給“匈牙利供應商”,德國的母公司后續(xù)再給英國子公司補上。 德國“老板”要求的時間緊任務重,必須在一個小時之內給“匈牙利供應商”的賬戶打22萬歐元,折合人民幣173萬元。 
錢打過去之后,在當天稍晚的時候,“老板”又打電話來了。這次“老板”說,剛才那22萬歐元,德國的母公司已經(jīng)給英國子公司轉過去了,現(xiàn)在需要英國子公司再轉一筆錢。 這下英國子公司的人就覺得不對勁了。一方面,“老板”轉的錢沒到賬;另一方面,怎么“老板”這次是從奧地利打過來的電話呢? 雖然英國子公司沒有第二次上當受騙,但之前打的22萬歐元已經(jīng)回不來了。調查人員發(fā)現(xiàn),這22萬歐元打到“匈牙利供應商”的匈牙利賬戶之后,被轉到了墨西哥,之后轉到了其他地方,因此警察也找不到騙子在哪兒。 裕利安宜保險公司要給客戶保密,沒有透露這是哪家公司,最后他們按照英國子公司的要求給予了理賠。 語音克隆技術相當成熟這家受騙公司遭遇的核心問題,在于打來的電話實在太像母公司那個真正的老板了。 騙子本人是不太可能剛好是這個聲音的,而能讓老板的聲音出現(xiàn),并且說出特定的話,用到的是語音克隆或者語音合成技術。 語音克隆技術已經(jīng)有了許多應用,比如此前,搜狗輸入法就在終端推出了“變聲”功能,你對著手機說一句話,發(fā)送給好友之后就是林志玲、周星馳、高曉松等明星的聲音。 在今年的科大訊飛新品發(fā)布會上,就現(xiàn)場播報了合成的羅永浩和林志玲的聲音。 語音合成就更成熟了,你常用的百度地圖、高德地圖里,導航用的林志玲、易烊千璽等明星的語音包,都是用明星本人說的話做語料庫訓練,通過語音合成技術生成的。 甚至,今年315晚會上的AI打騷擾電話,打來電話的聲音也是語音合成的。 如果你想體驗一下語音克隆的效果,可以試試最近在GitHub上非?;鸬倪@個實時語音克隆的開源項目: Real-Time-Voice-Cloning https://github.com/CorentinJ/Real-Time-Voice-Cloning 項目中已經(jīng)給出了預訓練模型,下載到本地部署后,每次只要5秒鐘,就可以把另外一個人說的話,變成你的聲音。 也是因此,語音類的技術易得、易用,效果也不錯,被壞人盯上也是難免的。 聲音造假,開視頻驗證呢?以前的電信詐騙都是短信、微信文字,上當者會被銀行工作人員提醒:打個電話確認一下。 現(xiàn)在,恐怕不僅要打電話,還要視頻一下,以確保是本人了。然而,現(xiàn)在的一些AI技術,不僅可以合成特定人的語音,甚至還能根據(jù)語音對口型、處理視頻。 可以讓人物的靜態(tài)照片動起來,并且說出特定的話。帝國理工學院和三星這篇《Realistic Speech-Driven Facial Animation with GANs》論文,就用不少明星靜態(tài)照片: 直接生成說話、唱歌的動態(tài)視頻: 
點開視頻聽一聽,是不是表情口型毫無違和感? 
可以把錄好的視頻改掉。斯坦福和普林斯頓的這篇《Text-based Editing of Talking-head Video》論文中,錄好的說話視頻,可以把聲音、口型全部改掉: 
蘋果今日收盤價191塊4,改成182塊2你也看不出來。 也可以讓照片中的人物邊說話邊配上豐富的表情姿態(tài)。來自三星和俄羅斯斯科爾科沃科學技術研究所的這篇名為《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》的論文中發(fā)表的技術,就讓靜態(tài)的蒙娜麗莎: 
變得活靈活現(xiàn): 

要知道,類似的AI技術有不少都是開源的,如果被用在惡意用途上,被用來混淆視聽、詐騙,將造成極大的惡果。
實在不行,用AI來抓AI騙子不管是處理語音、圖片還是視頻,這些技術開發(fā)出的新功能一般都被認為能在幫助人類節(jié)省時間、提升樂趣等方面起到作用。 但是,拿來作惡的也不少??赡茏屓嗣u掃地的AI換臉應用、可能侵犯隱私的人臉識別、加上如今的AI詐騙,技術總有其兩面性。 正如AAAI前主席Subbarao Kambhampati看到這則消息之后的評論: 
我很震驚語音技術會被用于這種邪惡的目的!百度不是明確的告訴過我們,語音技術是用來讓忙碌的媽媽給娃唱搖籃曲的嘛?
也有人提出,以AI制AI可能是個不錯的方法: 
我們需要人工智能輔助網(wǎng)絡安全框架來解決人工智能驅動的網(wǎng)絡犯罪問題
最后,要是你接到了聽起來和老板聲音一樣的電話,會用什么方法去辨別呢? 參考鏈接: https://www./articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402
|