Google 開發(fā)的這個 AI 真的能說人話？！

萬皇之皇 2018-01-16

展開全文

谷歌開發(fā)的Tacotron 2使機器生成的語音聽起來電子味兒更輕，更像一個人的聲音。他們使用神經(jīng)網(wǎng)絡(luò)來訓(xùn)練在文本范本和語音示例，以WaveNet級音頻質(zhì)量和Tacotron級韻律進行語音的合成。

從給定文本（文本到語音合成，TTS）生成自然語音的研究已經(jīng)持續(xù)了幾十年。在過去的幾年里，研究者們?nèi)〉昧肆钊瞬毮康倪M展。

機器人的聲音是我們關(guān)注的重點，像微軟的Cortana（小娜）或蘋果的Siri。隨著時間一點點過去，對比起其他機器人，谷歌 AI 聲音開始聽起來電子味兒輕了好多，更像是一個人。而現(xiàn)在，這幾乎就是人的聲音。

Google 的工程師結(jié)合了 WaveNet 和 Tacotron 等過去工作的 idea，并加強了最終采用于新系統(tǒng) Tacotron 2的技術(shù)。為了實現(xiàn)類似人類的語音，他們使用的神經(jīng)網(wǎng)絡(luò)僅對文本記錄和語音示例進行訓(xùn)練，而不是以任何復(fù)雜的語言和聲學(xué)特征作為輸入。

模型架構(gòu)

該系統(tǒng)包含兩個主要部分

1. 一種針對 TTS 的周期性序列特征的預(yù)測網(wǎng)絡(luò)，優(yōu)化了字母序列的序列特征，對音頻進行了編碼。

2. WaveNet 的改進版本，可根據(jù)預(yù)測的頻譜圖幀生成時域波形采樣。

Tacotron 2 的模型架構(gòu)

序列-序列模型的特征是一個80維的音頻聲譜圖（每 12.5 毫秒測量一次幀），捕捉單詞，速度，音量和語調(diào)。這些功能最終使用增強型WaveNet版本來轉(zhuǎn)換為 24 kHz 波形的 16 位采樣。

由此產(chǎn)生的系統(tǒng)將語音結(jié)合了 WaveNet 級別的音頻質(zhì)量和 Tacotron 級的音調(diào)韻律。它可以在不依賴任何復(fù)雜的特征工程的情況下對數(shù)據(jù)進行訓(xùn)練，并且完成與自然人聲非常接近的最先進的音質(zhì)。

不同于公司的其他核心人工智能研究，這項技術(shù)對 Google 來說非常有用武之地。例如，它最初在 2016 年出現(xiàn)， Google 智能助理中現(xiàn)在也在使用 WaveNet。Tacotron 2 將是一個更強大的附加服務(wù)。

限制

以上聽起來不錯，但仍有一些問題需要解決。該系統(tǒng)面臨著一些問題，而發(fā)音復(fù)雜的單詞如 “merlot” 和 “decorum” 等，在某種特殊情況下，它會隨機產(chǎn)生奇怪的噪音。

目前，該系統(tǒng)無法實時生成音頻，無法控制生成的語音，就像讓它說的話聽起來悲傷或快樂。此外，它只是訓(xùn)練來模仿女性的聲音；要像其他女性或男性一樣說話，開發(fā)者還得重新調(diào)試。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：萬皇之皇 > 《IT互聯(lián)》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

萬皇之皇

關(guān)注對話

TA的最新館藏

14.9萬元，滿血流暢運行DeepSeek一體機抱回家，清華90后初創(chuàng)出品
這種AI爬蟲技術(shù)正在摧毀整個互聯(lián)網(wǎng)生態(tài)
《資治通鑒》3個致命處世禁忌：混不好的人，都栽在這條人性暗河
驚爆！九千萬兩軍餉失蹤之謎：揭開明軍慘敗清軍的真正黑幕！
豪族盟約，劉秀用大儒的腦袋立規(guī)矩：可以賺錢，不能吃干抹凈
資治通鑒：被人做局時，別想著魚死網(wǎng)破，垂死掙扎都在算計之內(nèi)

喜歡該文的人也喜歡更多

熱門閱讀換一換

日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

Google 開發(fā)的這個 AI 真的能說人話？！

限制

Google 開發(fā)的這個 AI 真的能說人話？！