https://m./i6865068530287510020/?app=news_article×tamp=1598577285&use_new_style=1&req_id=20200828091444010131074200121AEC1F&group_id=6865068530287510020 AI越來(lái)越強(qiáng)大,不僅能模仿別人的表情,還能模仿別人說(shuō)話的聲音和語(yǔ)氣,以后電話聽(tīng)到好友的聲音也有可能不是本人哦,今天小編來(lái)講講一個(gè)實(shí)時(shí)聲音克隆庫(kù)Real-Time-Voice-Cloning github地址為:https://github.com/CorentinJ/Real-Time-Voice-Cloning 該庫(kù)是使用谷歌的開(kāi)源聲音處理算法(SV2TTS)實(shí)現(xiàn)。 SV2TTS是一個(gè)三階段的深度學(xué)習(xí)框架,它允許從幾秒鐘的音頻中創(chuàng)建語(yǔ)音的數(shù)字表示,并使用它來(lái)調(diào)節(jié)經(jīng)過(guò)訓(xùn)練的文本到語(yǔ)音模型,以生成到新的語(yǔ)音。 如果您只想克隆您的聲音(而不是其他人的聲音):我建議在Resemble.AI上使用免費(fèi)計(jì)劃。 首先,因?yàn)槟鷮@得更好的語(yǔ)音質(zhì)量和更少的韻律錯(cuò)誤,其次,因?yàn)樗恍枰翊嘶刭?gòu)協(xié)議那樣的復(fù)雜設(shè)置。 具體的步驟 一、安裝要求 需要Python 3.6或3.7才能運(yùn)行該工具箱。 安裝PyTorch(> = 1.0.1)。 安裝ffmpeg。 運(yùn)行pip install -r requirements.txt以安裝其余必需的軟件包。 二、下載預(yù)訓(xùn)練的模型 下載地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Pretrained-models 三、(可選)測(cè)試配置 在下載任何數(shù)據(jù)集之前,您可以使用以下方法測(cè)試配置: python demo_cli.py 如果所有測(cè)試都通過(guò),那您就很好了。 四、(可選)下載數(shù)據(jù)集 對(duì)于僅使用工具箱的情況,我只建議下載LibriSpeech/train-clean-100。下載地址:http://www./resources/12/train-clean-100.tar.gz,提取內(nèi)容<datasets_root>/LibriSpeech/train-clean-100這里<datasets_root>是你選擇的目錄。工具箱中支持其他數(shù)據(jù)集,請(qǐng)參見(jiàn)此處。您可以自由地不下載任何數(shù)據(jù)集,但是您將需要自己的數(shù)據(jù)作為音頻文件,或者必須在工具箱中記錄下來(lái)。 五、啟動(dòng)工具箱 然后,您可以嘗試使用工具箱: python demo_toolbox.py -d <datasets_root> 要么 python demo_toolbox.py 取決于您是否下載了任何數(shù)據(jù)集。如果您正在運(yùn)行X服務(wù)器或出現(xiàn)錯(cuò)誤Aborted (core dumped) 這個(gè)就是操作界面了,先錄音然后輸入文字就可以模仿別人的聲音說(shuō)話了 六、啟用GPU支持 注意:?jiǎn)⒂肎PU支持是很多工作。如果您要訓(xùn)練自己的模型,則需要進(jìn)行設(shè)置。有人花時(shí)間為如何安裝所有內(nèi)容提供了更好的指南。我建議使用它。 此命令將安裝其他GPU依賴(lài)項(xiàng)和推薦的軟件包: pip install -r requirements_gpu.txt 此外,您需要確保正確安裝了GPU驅(qū)動(dòng)程序,并且您的CUDA版本與PyTorch和Tensorflow安裝相匹配。 |
|