日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

絕佳的ASR學(xué)習(xí)方案:這是一套開源的中文語音識(shí)別系統(tǒng)

 taotao_2016 2019-02-11

作者:AI檸檬博主


語音識(shí)別目前已經(jīng)廣泛應(yīng)用于各種領(lǐng)域,那么你會(huì)想做一個(gè)自己的語音識(shí)別系統(tǒng)嗎?這篇文章介紹了一種開源的中文語音識(shí)別系統(tǒng),讀者可以借助它快速訓(xùn)練屬于自己的中文語音識(shí)別模型,或直接使用預(yù)訓(xùn)練模型測試效果。所以對于那些對語音識(shí)別感興趣的讀者而言,這是一個(gè)學(xué)習(xí)如何搭建 ASR 系統(tǒng)的極好資料。


ASRT 是一套基于深度學(xué)習(xí)實(shí)現(xiàn)的語音識(shí)別系統(tǒng),全稱為 Auto Speech Recognition Tool,由 AI 檸檬博主開發(fā)并在 GitHub 上開源(GPL 3.0 協(xié)議)。本項(xiàng)目聲學(xué)模型通過采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和連接性時(shí)序分類(CTC)方法,使用大量中文語音數(shù)據(jù)集進(jìn)行訓(xùn)練,將聲音轉(zhuǎn)錄為中文拼音,并通過語言模型,將拼音序列轉(zhuǎn)換為中文文本?;谠撃P?,作者在 Windows 平臺(tái)上實(shí)現(xiàn)了一個(gè)基于 ASRT 的語音識(shí)別應(yīng)用軟件它同樣也在 GitHub 上開源了。


  • ASRT 項(xiàng)目主頁:https://asrt.

  • GitHub 項(xiàng)目地址:https://github.com/nl8590687/ASRT_SpeechRecognition


這個(gè)開源項(xiàng)目主要用于語音識(shí)別的研究,作者希望它可以一步步發(fā)展為極高準(zhǔn)確率的 ASR 系統(tǒng)。此外,因?yàn)槟P秃陀?xùn)練代碼都是開源的,所以能節(jié)省開發(fā)者很多時(shí)間。同樣,如果開發(fā)者想要根據(jù)需求修改這個(gè)項(xiàng)目,那也非常簡單,因?yàn)?ASRT 的代碼都是經(jīng)過高度封裝的,所有模塊都是可以自定義的。如下展示了該項(xiàng)目的一些特征:



系統(tǒng)流程


特征提取:將普通的 wav 語音信號(hào)通過分幀加窗等操作轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)需要的二維頻譜圖像信號(hào),即語譜圖。


聲學(xué)模型:基于 Keras 和 TensorFlow 框架,使用這種參考了 VGG 的深層的卷積神經(jīng)網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型,并訓(xùn)練。



CTC 解碼:在語音識(shí)別系統(tǒng)的聲學(xué)模型輸出中,往往包含了大量連續(xù)重復(fù)的符號(hào),因此,我們需要將連續(xù)相同的符號(hào)合并為同一個(gè)符號(hào),然后再去除靜音分隔標(biāo)記符,得到最終實(shí)際的語音拼音符號(hào)序列。



語言模型:使用統(tǒng)計(jì)語言模型,將拼音轉(zhuǎn)換為最終的識(shí)別文本并輸出。拼音轉(zhuǎn)文本本質(zhì)被建模為一條隱含馬爾可夫鏈,這種模型有著很高的準(zhǔn)確率。


使用流程


如果讀者希望直接使用預(yù)訓(xùn)練的中文語音識(shí)別系統(tǒng),那么直接下載 Release 的文件并運(yùn)行就好了:


下載地址:https://github.com/nl8590687/ASRT_SpeechRecognition/releases/tag/v0.4.2


如果讀者希望修改某些模塊,或者在新的數(shù)據(jù)集上進(jìn)行訓(xùn)練,那么我們可以復(fù)制整個(gè)項(xiàng)目到本地,再做進(jìn)一步處理。首先我們通過 Git 將本項(xiàng)目復(fù)制到本地,并下載訓(xùn)練所需要的數(shù)據(jù)集。作者在項(xiàng)目 README 文件中提供了兩個(gè)數(shù)據(jù)集,即清華大學(xué) THCHS30 中文語音數(shù)據(jù)集和 AIShell-1 開源版數(shù)據(jù)集。


$ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git


THCHS30 和 ST-CMDS 國內(nèi)下載鏡像:http://cn-mirror./


在下載數(shù)據(jù)集后,我們需要將 datalist 目錄下的所有文件復(fù)制到 dataset 目錄下,也就是將其與數(shù)據(jù)集放在一起:


$ cp -rf datalist/* dataset/


在開始訓(xùn)練前,我們還需要安裝一些依賴庫:


  • python_speech_features

  • TensorFlow

  • Keras

  • wave


當(dāng)然,其它如 NumPy、Matplotlib、Scipy 和 h5py 等常見的科學(xué)計(jì)算庫也都是需要的。一般有這些包后,環(huán)境應(yīng)該是沒什么問題的,有問題也可以根據(jù)報(bào)錯(cuò)安裝對應(yīng)缺少的庫。


訓(xùn)練模型可以執(zhí)行命令行:


$ python3 train_mspeech.py


測試模型效果可以運(yùn)行:


$ python3 test_mspeech.py


測試之前,請確保代碼中填寫的模型文件路徑存在。最后,更多的用法和特點(diǎn)可以查看原 GitHub 項(xiàng)目和文檔。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多