AI騙走173萬！偽造老板聲音要求轉賬，這家公司上當了，贓款幾經(jīng)易手，騙子無影無蹤

索利 2019-09-04

展開全文

郭一璞發(fā)自凹非寺?
量子位報道 | 公眾號 QbitAI

“來我辦公室一趟。”

“您哪位??？”

“啥？你聽不出來我是誰嗎？”

“是……張總嗎？”

接著，就會發(fā)現(xiàn)電話那頭的“張總”，讓你去找財務部的同事，然后以“陪客戶”、“聯(lián)絡高層”的由頭，要求給一個陌生賬號匯款……

你也接到過類似的電話吧？這個詐騙套路關鍵的一環(huán)就在于，你要把他的聲音聽成自己公司某個老板的聲音。

好在，大部分人不會聽錯，因此也不會上當受騙。

但現(xiàn)在，借助AI語音合成技術，騙子可以讓他的聲音和你老板一模一樣，并且一家英國公司真的上當受騙了，被騙走了22萬歐元（173萬人民幣）巨款。

案發(fā)過程

據(jù)《華爾街日報》報道，總部位于巴黎的保險公司裕利安宜（Euler Hermes）的一家客戶上當了。

這家客戶是總部位于英國的一家能源公司，該公司的母公司位于德國，英國的是子公司。

一天，英國子公司CEO接了母公司“老板”電話，畢竟母公司是德國的，因此母公司老板日常說英文的時候會有德國腔。英國子公司CEO一聽，來電人的英語帶點德國口音，跟母公司的老板一毛一樣，那就是老板本人了。

原來，德國“老板”在跟“匈牙利供應商”談生意，賬要從英國的子公司走，也就是英國子公司把錢打給“匈牙利供應商”，德國的母公司后續(xù)再給英國子公司補上。

德國“老板”要求的時間緊任務重，必須在一個小時之內給“匈牙利供應商”的賬戶打22萬歐元，折合人民幣173萬元。

錢打過去之后，在當天稍晚的時候，“老板”又打電話來了。這次“老板”說，剛才那22萬歐元，德國的母公司已經(jīng)給英國子公司轉過去了，現(xiàn)在需要英國子公司再轉一筆錢。

這下英國子公司的人就覺得不對勁了。一方面，“老板”轉的錢沒到賬；另一方面，怎么“老板”這次是從奧地利打過來的電話呢？

雖然英國子公司沒有第二次上當受騙，但之前打的22萬歐元已經(jīng)回不來了。調查人員發(fā)現(xiàn)，這22萬歐元打到“匈牙利供應商”的匈牙利賬戶之后，被轉到了墨西哥，之后轉到了其他地方，因此警察也找不到騙子在哪兒。

裕利安宜保險公司要給客戶保密，沒有透露這是哪家公司，最后他們按照英國子公司的要求給予了理賠。

語音克隆技術相當成熟

這家受騙公司遭遇的核心問題，在于打來的電話實在太像母公司那個真正的老板了。

騙子本人是不太可能剛好是這個聲音的，而能讓老板的聲音出現(xiàn)，并且說出特定的話，用到的是語音克隆或者語音合成技術。

語音克隆技術已經(jīng)有了許多應用，比如此前，搜狗輸入法就在終端推出了“變聲”功能，你對著手機說一句話，發(fā)送給好友之后就是林志玲、周星馳、高曉松等明星的聲音。

在今年的科大訊飛新品發(fā)布會上，就現(xiàn)場播報了合成的羅永浩和林志玲的聲音。

語音合成就更成熟了，你常用的百度地圖、高德地圖里，導航用的林志玲、易烊千璽等明星的語音包，都是用明星本人說的話做語料庫訓練，通過語音合成技術生成的。

甚至，今年315晚會上的AI打騷擾電話，打來電話的聲音也是語音合成的。

如果你想體驗一下語音克隆的效果，可以試試最近在GitHub上非?；鸬倪@個實時語音克隆的開源項目：

Real-Time-Voice-Cloning
https://github.com/CorentinJ/Real-Time-Voice-Cloning

項目中已經(jīng)給出了預訓練模型，下載到本地部署后，每次只要5秒鐘，就可以把另外一個人說的話，變成你的聲音。

也是因此，語音類的技術易得、易用，效果也不錯，被壞人盯上也是難免的。

聲音造假，開視頻驗證呢？

以前的電信詐騙都是短信、微信文字，上當者會被銀行工作人員提醒：打個電話確認一下。

現(xiàn)在，恐怕不僅要打電話，還要視頻一下，以確保是本人了。然而，現(xiàn)在的一些AI技術，不僅可以合成特定人的語音，甚至還能根據(jù)語音對口型、處理視頻。

可以讓人物的靜態(tài)照片動起來，并且說出特定的話。帝國理工學院和三星這篇《Realistic Speech-Driven Facial Animation with GANs》論文，就用不少明星靜態(tài)照片：

直接生成說話、唱歌的動態(tài)視頻：

點開視頻聽一聽，是不是表情口型毫無違和感？

可以把錄好的視頻改掉。斯坦福和普林斯頓的這篇《Text-based Editing of Talking-head Video》論文中，錄好的說話視頻，可以把聲音、口型全部改掉：

蘋果今日收盤價191塊4，改成182塊2你也看不出來。

也可以讓照片中的人物邊說話邊配上豐富的表情姿態(tài)。來自三星和俄羅斯斯科爾科沃科學技術研究所的這篇名為《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》的論文中發(fā)表的技術，就讓靜態(tài)的蒙娜麗莎：