日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Google,微軟,科大訊飛的語音識別引擎對比

 quasiceo 2015-08-03
Google提供了一個在線語音識別的API接口,通過該API可以進行中文、英文等語言的識別。
API地址:http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN&maxresults=1

—參數(shù)解釋

xjerr:錯誤標準

client: 客戶端類型

lang:待識別語言類型,en-US是英文,中文為zh-CN,

maxresults:最大返回識別結果數(shù)量

—識別基本流程:

從音頻輸入設備獲取原始音頻并編碼或直接調(diào)用音頻文件。

將音頻POST至接口地址。

分析處理返回的JSON并得出結果。

—請求接口

地址:如前

請求方式:http post

請求數(shù)據(jù):編碼后的音頻數(shù)據(jù)

音頻編碼格式:wav、speex或flac。

音頻采樣頻率:8000Hz、11025Hz、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz

—主要優(yōu)點

語音識別引擎龐大,識別精度很高,適用于文本語音識別。提供多國語言的語音識別。

任何平臺都可以進行訪問,容易使用。

—主要缺點

API未開放,未能獲知具體開發(fā)細節(jié)。

識別引擎位于服務器端,識別的速度和網(wǎng)絡質量有關,識別速度較慢。

待識別音頻的格式、大小、時長的限制。





MicrosoftSpeech SDK
—Microsoft Speech SDK是微軟公司提供在Windows平臺上開發(fā)語音識別和語音合成應用程序的開發(fā)包,簡稱為SAPI,內(nèi)含SR(Speech Recognition)和SS(Speechsynthesis)引擎,因此可以很方便地在自己的應用程序中添加這些功能。
—該語音引擎支持多種語音的識別和朗讀,包括英文、日文、中文等。微軟推出的應用編程接口API,雖然現(xiàn)在不是業(yè)界標準,但是應用比較廣泛。
—識別基本流程:
從音頻輸入設備獲取原始音頻并編碼或直接調(diào)用音頻文件。
設定語音引擎和識別上下文等內(nèi)容,配置本地訪問屬性。
分析處理得到的文本結果
—請求接口
請求方式:本地訪問
請求數(shù)據(jù):編碼后的音頻數(shù)據(jù)
音頻編碼格式:wav
音頻采樣頻率:8000Hz、11025Hz、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz
—主要優(yōu)點
基于COM組件,便于與DirectShow中的組件整合。
語音識別引擎位于本地,便于訪問,識別速度較快。
待識別音頻的大小、時長無限制。
—主要缺點
缺少其他平臺的支持,僅支持windows平臺。
語音識別引擎不夠龐大,識別精準度較低。
僅提供中日英三種語言的語音識別功能。



iFLY Mobile Speech Platform 2.0
—科大訊飛為開發(fā)者提供了語音應用開發(fā)平臺,提供語音合成、語音聽寫、語音識別、聲紋識別等服務,為語音應用開發(fā)愛好者提供方便易用的開發(fā)接口,使得用戶能夠基于該開發(fā)接口進行多種語音應用開發(fā)。
—其主要功能有:
實現(xiàn)基于HTTP協(xié)議的語音應用服務器,支持語音合成、語音聽寫、語音識別、聲紋識別等服務
提供基于移動平臺和PC上的語音客戶端子系統(tǒng),內(nèi)部集成音頻處理和音頻編解碼模塊,提供關于語音合成、語音聽寫、語音識別和聲紋識別完善的API
—只需要在http://open.上申請成為開發(fā)者,便可以下載相關的SDK和開發(fā)文檔。

—主要優(yōu)點
支持平臺豐富,各個平臺上都有相應的詳細SDK文檔
語音識別引擎較龐大,對中文的識別精度很高。
具端點檢測功能,便于劃分識別文本的句子。
—主要缺點
識別引擎位于服務器端,須遠程訪問,識別速度較慢。
對語言支持不如Google,目前僅支持中文聽寫。
需要使用1028端口,在某些地方會有使用限制。
當軟件用戶達到百萬次后,需要開始收費。



—測試流程:
從麥克風輸入語音并編碼或直接調(diào)用音頻文件,調(diào)用的音頻文件主要是從電影或是新聞節(jié)目中提取其音頻,前者主要體現(xiàn)識別語音口音的多樣性,后者是體現(xiàn)識別語音口音的正規(guī)性,從麥克風輸入體現(xiàn)對針對某個人特定的口音。主要測試音頻文件格式為wav和flac(flac需要由相同采樣率的wav轉換而來)測試采樣率有8KHz、16KHz、24KHz、32KHz、44.1KHz。
分析各個引擎的識別準確度和花費時間時,選取了5段時長為25S、平均長度為150個中文字符的音頻作為其測試音頻,記錄識別正確的文字和花費時間,準確度以識別正確的文字/文本總字數(shù),同時包含識別出的單獨的字、詞,花費時間對于非本地引擎需要考慮音頻傳送和結果返回的時間。
分析各個引擎中語速對識別準確度的影響,針對同一文本,測試不同語速(分為慢速、中速、快速)的音頻,且時間均控制在25S,僅選取了24KHz和44.1KHz音頻進行測試,因為由測試準確度的測試中,已經(jīng)得出在24KHz和44.1KHz情況下,識別精確度較高。
分別用google、Microsoft和科大訊飛語音識別引擎對測試音頻文件進行測試。其中使用google和科大訊飛引擎需通過訪問其相關服務器,而Microsoft的語音識別引擎則是從本地進行訪問。
對所得結果進行數(shù)據(jù)分析,列出數(shù)據(jù)表格,分析各自引擎的優(yōu)缺點。


測試結果:
語速對識別時間的影響
                        慢速                 中速                   快速
Google              8s                   8.94s               10.125s
SAPI                6.06s               6.63s                 5.375s
科大訊飛          34.6s               35s                     23.6s
  語速對識別精度的影響
                        慢速                 中速                   快速
Google           78.93%           77.52%               11.58%
SAPI               28.7%             42.79%               6.81%
科大訊飛         78.2%             80.48%              15.53%

結果評價:
—1.Google
Google語音識別引擎可以識別wav格式音頻,但是測試所用wav均為非原始wav故識別精度很低,若將其轉換為flac后則識別精度增加。對于flac格式中文音頻,快速語音準確率達到11.58%,中速語音準確率達到72.52%,平均花費時間8.94S。慢速語音準確率達到78.93%,平均花費時間為8S。對于英文音頻,快速語音準確率達到40.22%,中速語音準確率達到89.2%,慢速語音準確率達到80.58%,平均花費時間各為9.2s,8.5s和9.9s。
不同的音頻采樣率對識別效果和花費時間有影響,識別效果主要體現(xiàn)在音頻中間部分名詞和音頻末端1s的識別結果,于中文而言新聞類平均準確率為72.37%,電影類平均準確率為44.36%。于英文而言,電影類平均準確率為35.3%。平均花費時間采樣率越大,識別時間越短,如24KHz和44.1KHz的同樣內(nèi)容音頻,后者時間少1S左右。
對于google語音識別引擎,由于語速過快會導致識別不準確,會出現(xiàn)多個音識別為一個字的現(xiàn)象,故所用時間較短,但是準確度較差。而語速過慢時,雖然語音的特征更加明晰會使得準確率上升,但是字與字之間的聯(lián)系不密切,會出現(xiàn)本該是一個詞卻識別為同音的兩個字,導致準確率下降,故其平均準確率和中速識別率相當,另一方面是所需識別的字較少,故識別時間相對中速短。
對于視頻流提取的音頻和麥克風輸入人聲的識別,麥克風輸入人聲的平均準確度高于視頻流中的的平均準確度,原因是視頻流中的人聲會帶有各種口音一般帶有背景噪音,而麥克風輸入人聲是單一的穩(wěn)定的,背景噪音較小。準確度順序大致為:新聞類>特定人>電影類,但不能忽略電影中也存在普通話標準發(fā)音。對于時間長度為20s以上的快速語音,測試期間無法識別,一直未能返回正確結果。不知原因。對于特定人輸入的音頻,音頻頭尾都可正確識別。若是輸入視頻流中音頻,頭尾1S的內(nèi)容都不能很好的識別,容易出錯。
Google語音識別引擎數(shù)據(jù)庫豐富,可以識別大部分日常用語,還包括當下流行詞匯,人名,地名等。對于新聞類詞匯判別比較準,而特定專業(yè)類名詞通常以同音字代替。
對于google識別的時間包括網(wǎng)絡發(fā)送音頻數(shù)據(jù)包時間,識別花費時間,返回結果時間。由于引擎位于服務器,需要通過網(wǎng)絡訪問,故網(wǎng)絡質量在識別時間上占據(jù)極重要的位置,識別過程中經(jīng)常會發(fā)生訪問延遲、訪問超時和請求無效等錯誤,故應該在網(wǎng)絡良好的條件下使用google引擎,這也是非本地語音引擎庫的缺點。同時音頻文件超過1M時,也無法正確返回結果,估計是服務器的文件限制。
若考慮語音的精準度,則傾向于選擇google語音識別引擎。



—2.SAPI
微軟的SAPI語音識別引擎可以識別任意采樣率的wav格式音頻,當采樣率比較低時如僅為8KHz,音頻內(nèi)容采樣過程中會缺失,故識別不準確,理論上來說,采樣率越高,識別精度越好。但是采樣率超過一定值后,改進并不明顯。經(jīng)過測試得出以44.1KHz采樣率識別精度較好,且花費時間較短。快速語音準確率為6.81%,中速語音準確率達到42.79%,平均花費時間6.63S。慢速語音準確率達到28.7%,平均花費時間為6.06S。識別效果主要體現(xiàn)在音頻中間部分名詞和音頻末端1s的識別結果,新聞類平均準確率51.48%,電影類平均準確率為41.43%,特定人平均準確率為53.06%。
對于特定人輸入的音頻,音頻頭尾都可正確識別。若是輸入視頻流中音頻,頭尾1S的內(nèi)容容易漏識別,且漏識別內(nèi)容并非不顯示,而是以其他文字代替諸如“他、淡”等字,影響了識別結果的理解。
微軟語音識別引擎數(shù)據(jù)庫位于本地,訪問方便、快捷,無需考慮網(wǎng)絡延遲、音頻文件過大無法傳送等問題。其缺點便是本地數(shù)據(jù)庫的大小限制了其識別精度,需要通過長時間的訓練才有可能達到比較高的精準度,而相比之下google引擎數(shù)據(jù)庫可以收集網(wǎng)絡上的所有資料,訓練文本并不缺乏,容易達到很高的精準度。SAPI可以識別大部分日常用語和常用的新聞詞匯,但是對當下流行詞匯,人名,地名識別精度很低,對特定專業(yè)類名詞通常也以同音字代替。


—3.科大訊飛
科大訊飛語音識別引擎僅可識別wav格式音頻,為了達到理想的效果,有諸如條件限制,如音頻須為采樣率16KHz、每采樣一點16bit、單聲道,且音頻長度小于90s。由于具有端點檢測功能,每句話的長度不宜過長。快速語音準確率達到17.63%,平均花費時間29.2S。中速語音準確率達到80.48%,平均花費時間35S。慢速語音準確率達到78.2%,平均花費時間為34.6S。平均花費時間比另外兩個引擎多了許多,主要原因是其端點檢測功能,故一次能識別的語句長度有限制,需要分段識別,因此加長了識別的時間。
端點檢測的好處是方便音頻中句子的分段,易于對對識別結果的理解。
其引擎庫也是位于服務器,需要通過網(wǎng)絡訪問,識別的時間包括網(wǎng)絡發(fā)送音頻數(shù)據(jù)包時間,識別花費時間,返回結果時間。網(wǎng)絡質量在識別時間上也占據(jù)極重要的位置,且其需要開啟80/1028端口后才能有效使用該引擎。待識別的音頻需要質量清晰,一般對于網(wǎng)上流媒體而言,聲音質量不高,識別較困難。


以上的SAPI和科大訊飛的測試DEMO都是用他們SDK里自帶的。GOOGLE的C#代碼可參照http://www.cnblogs.com/eboard/archive/2012/02/29/speech-api.html
另外介紹關于google語音識別的內(nèi)容還可以參照http://blog.csdn.net/dlangu0393/article/details/7214728本文中有轉載其小部分內(nèi)容。




由于測試樣本數(shù)量并不算多,因此以上測試僅供參考。


    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多