【原】Voice Clone 聲音克隆產(chǎn)品設(shè)計(jì) #提案

Mixlab交叉學(xué)科 2022-10-18 發(fā)布于上海

展開全文

MixDAO

聲音克隆是熱門的AI應(yīng)用領(lǐng)域。當(dāng)AI能精準(zhǔn)克隆人類的聲音，并能按照人物原型的思想與你對(duì)話時(shí)，你會(huì)想要體驗(yàn)?zāi)男┊a(chǎn)品功能？

# 案例

在 podcast.ai 推出的第一集播客節(jié)目里，嘉賓是已故的喬布斯，在長達(dá)20分鐘的對(duì)話，討論了關(guān)于喬布斯的大學(xué)、對(duì)計(jì)算機(jī)的看法、工作狀態(tài)以及信仰等等。根據(jù) podcast.ai 的說法，喬布斯的聲音是由人工智能語言模型使用蘋果創(chuàng)始人的錄音生成的。

MixDAO

AI Voice Clone 應(yīng)用于電影、游戲等配音也是最熱門的領(lǐng)域之一。目前也有較為成熟的產(chǎn)品。

replicastudios.com

# 現(xiàn)狀

技術(shù)到達(dá)了什么階段？

- 理論界

近些年，聲音合成學(xué)習(xí)相關(guān)前沿論文層出不窮，如 Tacotron，Tacotron2，MelGAN，Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 等。

論文	模型名	模型全稱
1806.04558	SV2TTS	Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
1802.08435	WaveRNN (vocoder)	Efficient Neural Audio Synthesis
1703.10135	Tacotron (synthesizer)	Tacotron: Towards End-to-End Speech Synthesis
1710.10467	GE2E (encoder)	Generalized End-To-End Loss for Speaker Verification