日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Voice Clone 聲音克隆產(chǎn)品設(shè)計(jì) #提案

 Mixlab交叉學(xué)科 2022-10-18 發(fā)布于上海

MixDAO

聲音克隆是熱門的AI應(yīng)用領(lǐng)域。當(dāng)AI能精準(zhǔn)克隆人類的聲音,并能按照人物原型的思想與你對(duì)話時(shí),你會(huì)想要體驗(yàn)?zāi)男┊a(chǎn)品功能?


# 案例

在 podcast.ai 推出的第一集播客節(jié)目里,嘉賓是已故的喬布斯,在長達(dá)20分鐘的對(duì)話,討論了關(guān)于喬布斯的大學(xué)、對(duì)計(jì)算機(jī)的看法、工作狀態(tài)以及信仰等等。根據(jù) podcast.ai 的說法,喬布斯的聲音是由人工智能語言模型使用蘋果創(chuàng)始人的錄音生成的。



MixDAO

AI Voice Clone 應(yīng)用于電影、游戲等配音也是最熱門的領(lǐng)域之一。目前也有較為成熟的產(chǎn)品。

replicastudios.com

# 現(xiàn)狀

技術(shù)到達(dá)了什么階段?

- 理論界

近些年,聲音合成學(xué)習(xí)相關(guān)前沿論文層出不窮,如 Tacotron,Tacotron2,MelGAN,Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 等。

論文

模型名

模型全稱

1806.04558

SV2TTS

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

1802.08435

WaveRNN (vocoder)

Efficient Neural Audio Synthesis

1703.10135

Tacotron (synthesizer)

Tacotron: Towards End-to-End Speech Synthesis

1710.10467

GE2E (encoder)

Generalized End-To-End Loss for Speaker Verification

- 應(yīng)用層

一些知名的開源項(xiàng)目如:

Mocking-Bird
gitee.com/mirrors/Mocking-Bird

特性

  • 支持普通話并使用多種中文數(shù)據(jù)集進(jìn)行測(cè)試:aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等。
  • 適用于 Pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中測(cè)試,GPU Tesla T4 和 GTX 2060
  • 可在 Windows 操作系統(tǒng)和 linux 操作系統(tǒng)中運(yùn)行(蘋果系統(tǒng) M1 版也有社區(qū)成功運(yùn)行案例)。
  • 僅需下載或新訓(xùn)練合成器(synthesizer)就有良好效果,復(fù)用預(yù)訓(xùn)練的編碼器 / 聲碼器,或?qū)崟r(shí)的 HiFi-GAN 作為 vocoder。
  • 可將訓(xùn)練結(jié)果保存在服務(wù)器端,供遠(yuǎn)程調(diào)用。




Real-Time Voice Cloning
github.com/CorentinJ/Real-Time-Voice-Cloning

Resemble AI
resemble.ai

# 提案

想不想動(dòng)手實(shí)現(xiàn)這么一款A(yù)I產(chǎn)品?教會(huì)機(jī)器模仿你或者TA的聲音一樣說話。


    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多