聲音克隆是熱門的AI應(yīng)用領(lǐng)域。當(dāng)AI能精準(zhǔn)克隆人類的聲音,并能按照人物原型的思想與你對(duì)話時(shí),你會(huì)想要體驗(yàn)?zāi)男┊a(chǎn)品功能? # 案例在 podcast.ai 推出的第一集播客節(jié)目里,嘉賓是已故的喬布斯,在長達(dá)20分鐘的對(duì)話,討論了關(guān)于喬布斯的大學(xué)、對(duì)計(jì)算機(jī)的看法、工作狀態(tài)以及信仰等等。根據(jù) podcast.ai 的說法,喬布斯的聲音是由人工智能語言模型使用蘋果創(chuàng)始人的錄音生成的。 
AI Voice Clone 應(yīng)用于電影、游戲等配音也是最熱門的領(lǐng)域之一。目前也有較為成熟的產(chǎn)品。 
replicastudios.com# 現(xiàn)狀技術(shù)到達(dá)了什么階段? - 理論界近些年,聲音合成學(xué)習(xí)相關(guān)前沿論文層出不窮,如 Tacotron,Tacotron2,MelGAN,Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 等。
| 模型名 | 模型全稱 | 1806.04558 | SV2TTS | Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis | 1802.08435 | WaveRNN (vocoder) | Efficient Neural Audio Synthesis | 1703.10135 | Tacotron (synthesizer) | Tacotron: Towards End-to-End Speech Synthesis | 1710.10467 | GE2E (encoder) | Generalized End-To-End Loss for Speaker Verification |
- 應(yīng)用層一些知名的開源項(xiàng)目如: Mocking-Bird gitee.com/mirrors/Mocking-Bird 特性 - 支持普通話并使用多種中文數(shù)據(jù)集進(jìn)行測(cè)試:aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等。
- 適用于 Pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中測(cè)試,GPU Tesla T4 和 GTX 2060
- 可在 Windows 操作系統(tǒng)和 linux 操作系統(tǒng)中運(yùn)行(蘋果系統(tǒng) M1 版也有社區(qū)成功運(yùn)行案例)。
- 僅需下載或新訓(xùn)練合成器(synthesizer)就有良好效果,復(fù)用預(yù)訓(xùn)練的編碼器 / 聲碼器,或?qū)崟r(shí)的 HiFi-GAN 作為 vocoder。
- 可將訓(xùn)練結(jié)果保存在服務(wù)器端,供遠(yuǎn)程調(diào)用。

Real-Time Voice Cloning github.com/CorentinJ/Real-Time-Voice-Cloning Resemble AI resemble.ai 
# 提案想不想動(dòng)手實(shí)現(xiàn)這么一款A(yù)I產(chǎn)品?教會(huì)機(jī)器模仿你或者TA的聲音一樣說話。
|