科技行者報道 來源 :OREILLY “語音識別”的終極夢想,是真正能夠理解人類語言甚至是方言環(huán)境的系統(tǒng)。但幾十年來,人們并沒有一個有效的策略來創(chuàng)建這樣一個系統(tǒng),直到人工智能技術(shù)的爆發(fā)。 在過去幾年中,人們在人工智能和深度學(xué)習(xí)領(lǐng)域的突破,讓語音識別的探索跨了一大步。市面上玲瑯滿目的產(chǎn)品也反映了這種飛躍式發(fā)展,例如亞馬遜Echo、蘋果Siri 等等。本文將回顧語音識別技術(shù)領(lǐng)域的最新進(jìn)展,研究促進(jìn)其迅猛發(fā)展進(jìn)程的元素,并探討其未來以及我們距離可以完全解決這個問題還有多遠(yuǎn)。 背景:人機(jī)交互 多年來,理解人類一直都是人工智能的最重要任務(wù)之一。人們不僅希望機(jī)器能夠理解他們在說些什么,還希望它們能夠理解他們所要表達(dá)的意思,并基于這些信息采取特定的行動。而這一目標(biāo)正是對話式人工智能(AI)的精髓。 對話式AI包含有兩個主要類別:人機(jī)界面,以及人與人溝通的界面。在人機(jī)界面中,人類與機(jī)器往往通過語音或文本交互,屆時機(jī)器會理解人類 ( 盡管這種理解方式是有限的 ) 并采取相應(yīng)的一些措施。圖1表明,這臺機(jī)器可以是一個私人助理 ( Siri、Alexa之類的產(chǎn)品 ) 或某種聊天機(jī)器人。 圖1:人機(jī)交互AI 在人與人之間的互動中,人工智能會在兩個或兩個以上進(jìn)行會話、互動或提出見解的人類用戶之間構(gòu)建一座橋梁 ( 參見圖2 ) 。例如,一個AI在聽取電話會議后,能夠創(chuàng)立出一段簡要的電話記錄摘要,并跟進(jìn)相關(guān)人員。 圖2:人與人之間互動的人工智能 對話式AI背后:機(jī)器感知與機(jī)器識別 為了理解對話式AI背后的挑戰(zhàn)與技術(shù),我們必須研究人工智能的基本概念:機(jī)器感知與機(jī)器識別。 機(jī)器感知是指機(jī)器能夠采用類似于人類自己憑感覺感知周圍世界來分析數(shù)據(jù)的能力;換句話說,其本質(zhì)上就是為機(jī)器賦予人類的感知能力。近來很多的人工智能算法都需要使用電腦攝像頭,如目標(biāo)檢測和識別,都?xì)w屬于機(jī)器感知范疇——主要涉及視覺處理。語音識別和分析則是那些利用聽覺的機(jī)器感知技術(shù)。 機(jī)器識別是在機(jī)器感知所生成的元數(shù)據(jù)之上的推理運(yùn)算。機(jī)器識別包括決策制定、專家系統(tǒng)、行動執(zhí)行以及用戶的意圖等方面。一般情況下,如果沒有機(jī)器識別,對AI的感知系統(tǒng)不會產(chǎn)生任何影響,而機(jī)器感知會提供適當(dāng)?shù)脑獢?shù)據(jù)信息來令其做出決策與執(zhí)行行動。 在對話式AI中,機(jī)器感知包括所有的語音分析技術(shù),如識別和性能分析;機(jī)器識別則包括所有與語言理解能力相關(guān)的技術(shù),而這也是自然語言處理 ( NLP ) 的一部分。 語音識別的發(fā)展 語音識別的研究和發(fā)展情況基本分為三個主要時期: 2011年之前 人們對語音識別的活躍研究已經(jīng)進(jìn)行了幾十年,而事實上,即使是在二十世紀(jì)50年代和60年代,人們也一直在試圖構(gòu)建語音識別系統(tǒng)。然而,在2011年以及深度學(xué)習(xí)、大數(shù)據(jù)和云計算出現(xiàn)以前,這些解決方案還遠(yuǎn)遠(yuǎn)不足以被大規(guī)模采用以及商業(yè)使用。從本質(zhì)上來說,其算法還不夠好,當(dāng)時也沒有足夠的數(shù)據(jù)可以用于算法的訓(xùn)練,而且無法進(jìn)行高性能計算機(jī)也阻礙了研究人員運(yùn)行更復(fù)雜的實驗。 2011年-2014年 深度學(xué)習(xí)產(chǎn)生的第一個重大影響發(fā)生在2011年,當(dāng)時有一個研究小組一同創(chuàng)造了第一個基于深度學(xué)習(xí)的語音識別系統(tǒng),而這個研究小組成員包括來自微軟的研究人員、李登(Li Deng)、董玉(Dong Yu)和亞歷克斯·阿賽羅(Alex Acero),以及杰弗里·希爾頓(Geoffrey Hinton)和他的學(xué)生喬治·達(dá)爾(George Dahl)。效果很即時:其相對錯誤率降低了25%以上。而這個系統(tǒng)也是深度學(xué)習(xí)領(lǐng)域進(jìn)行大規(guī)模發(fā)展和改進(jìn)的切入點。 此后,在有了更多數(shù)據(jù)、云計算可用后,蘋果(Siri)、亞馬遜 (Alexa) 和谷歌這類的大公司均采用了深度學(xué)習(xí)技術(shù),而且對其產(chǎn)品性能有著顯著的改善,并將其產(chǎn)品發(fā)布到了市場上。 2015至今 在2014年底,遞歸神經(jīng)網(wǎng)絡(luò)獲得了更多的關(guān)注。與此同時,遞歸神經(jīng)網(wǎng)絡(luò)與注意力模型、記憶網(wǎng)絡(luò)以及其他技術(shù)一起,掀起了這個領(lǐng)域發(fā)展的第三次浪潮。如今,幾乎每一種算法或者解決方案都采用了某種類型的神經(jīng)模型,而且實際上,幾乎所有的關(guān)于語音的研究都已轉(zhuǎn)向深度學(xué)習(xí)。 語音識別領(lǐng)域,神經(jīng)模型的最新進(jìn)展 過去六年中,語音識別在此前40多年的基礎(chǔ)上創(chuàng)造了更多的突破。這種非凡的新進(jìn)展主要歸功于神經(jīng)網(wǎng)絡(luò)。要理解深度學(xué)習(xí)所帶來的影響以及它所扮演的角色,我們首先需要理解語音識別是如何工作的。 盡管近50年來語音識別一直屬于熱門研究領(lǐng)域,然而構(gòu)建能夠理解人類語言的及其仍舊是人工智能最具挑戰(zhàn)性的問題之一,要實現(xiàn)這一目標(biāo)非常困難。語音識別由不少明確的任務(wù)組成:給出某種制定的人類語言,然后嘗試將其語音轉(zhuǎn)換成文字。然而,機(jī)器所識別的語音中可能包括一部分噪音,所以就要求其能夠從噪聲中提取出與對話相關(guān)的部分并將其轉(zhuǎn)換成有意義的文字。 語音識別系統(tǒng)的基本構(gòu)造塊 語音識別基本分為三個主要部分:
基于深度學(xué)習(xí)的改進(jìn) 深入學(xué)習(xí)對語音識別領(lǐng)域產(chǎn)生了巨大的影響。其影響非常深遠(yuǎn),即使在今天,幾乎每一個語音識別領(lǐng)域的解決方案都可能包含有一個或多個基于神經(jīng)模型的嵌入算法。 通常而言,人們對語音識別系統(tǒng)的評價都基于一個名為配電盤(SWBD)的行業(yè)標(biāo)準(zhǔn)。SWBD是一個語音語料庫,整合了電話中的即興對話,包含音頻和人聲的副本。 語音識別系統(tǒng)的評估標(biāo)準(zhǔn)主要基于其誤字率(WER),誤字率是指語音識別系統(tǒng)識別錯誤的單詞有多少。圖3展示了從2008年到2017的誤字率改進(jìn)情況。 圖3:誤字率改進(jìn)情況 從2008年到2011年,誤字率一直都處于一個穩(wěn)定的狀態(tài),位于23%至24%之間;而深度學(xué)習(xí)從2011年開始出現(xiàn)時起,誤字率從23.6%降低至5.5%。這一重大發(fā)展對語音識別開發(fā)而言是一種變革,其誤字率的改進(jìn)相對提高了近77%。誤字率的改善也產(chǎn)生了廣泛應(yīng)用,例如蘋果Siri、亞馬遜 Alexa、微軟 Cortana 和 Google Now,這些應(yīng)用也可以通過語音識別激活各種家居,如亞馬遜Echo 和 Google Home。 秘密武器 那么,系統(tǒng)產(chǎn)生如此大幅度改善的原因是什么呢?是不是有什么技術(shù)可以使得誤字率從23.6%減少到了5.5%呢?遺憾的是,并沒有其他單獨的技術(shù)、方法。 然而,深入學(xué)習(xí)和語音識別息息相關(guān),構(gòu)造出了一個可以涉及各種不同技術(shù)和方法的先進(jìn)系統(tǒng)。 例如,在信號位準(zhǔn)中,有著不同的基于神經(jīng)模型從信號中提取和增強(qiáng)語音本身的技術(shù) (圖4) 。同時,還有能夠用更加復(fù)雜高效的基于神經(jīng)模型的方法取代經(jīng)典特征提取方法的技術(shù)。 圖4:信號位準(zhǔn)的分析 聲音和語言位準(zhǔn)中也包含有各種各樣不同的深度學(xué)習(xí)技術(shù),無論是聲音等級分類還是語言等級分類,都采用了不同類型基于神經(jīng)模型的架構(gòu)(見圖5)。 圖5:聲音和語言位準(zhǔn)分析 總而言之,建立一個先進(jìn)的系統(tǒng)并不是一項容易的工作,而實現(xiàn)將所有涉及的這些不同技術(shù)集成為一個系統(tǒng)的過程也不輕松。 前沿研究 近來在語音識別領(lǐng)域有這么多的突破,那么我們自然要問,語音識別接下來的突破口在哪?未來聚焦的研究點或?qū)囊韵氯齻€主要領(lǐng)域展開:算法、數(shù)據(jù)和可擴(kuò)展性。 算法 隨著亞馬遜Echo 與 Google Home 的成功,許多公司正在發(fā)布能夠識別理解語音的智能揚(yáng)聲器和家庭設(shè)備。然而,這些設(shè)備的推出又帶來了一個新問題:用戶說話時往往距離麥克風(fēng)不是很近,例如用戶用手機(jī)對話時的狀態(tài)。而處理遠(yuǎn)距離語音識別又是一個具有挑戰(zhàn)性的問題,很多研究小組也正在積極研究這個問題。如今,創(chuàng)新的深度學(xué)習(xí)和信號處理技術(shù)已經(jīng)可以提高語音識別的質(zhì)量了。 數(shù)據(jù) 語音識別系統(tǒng)的關(guān)鍵問題之一是缺乏現(xiàn)實生活的數(shù)據(jù)。例如,很難獲得高質(zhì)量的遠(yuǎn)程通話數(shù)據(jù)。但是,有很多來自其他來源的數(shù)據(jù)可用。一個問題是:我們可以創(chuàng)建合適的合成器來生成培訓(xùn)用的數(shù)據(jù)嗎?今天,生成合成數(shù)據(jù)并培訓(xùn)系統(tǒng)正在受到重視。 為了訓(xùn)練語音識別系統(tǒng),我們需要同時具備音頻和轉(zhuǎn)錄的數(shù)據(jù)集。人工轉(zhuǎn)錄是繁瑣的工作,有時會導(dǎo)致大量音頻的問題。因此,就有了對半監(jiān)督培訓(xùn)的積極研究,并為識別者建立了適當(dāng)程度的信心。 由于深度學(xué)習(xí)與語音識別相結(jié)合,因此對CPU和內(nèi)存的占用量不容小覷。隨著用戶大量采用語音識別系統(tǒng),構(gòu)建經(jīng)濟(jì)高效的云解決方案是一個具有挑戰(zhàn)性的重要問題。對如何降低計算成本并開發(fā)更有效的解決方案的研究一直在進(jìn)行。今天,大多數(shù)語音識別系統(tǒng)都是基于云的,并且具有必須解決的兩個具體問題:延遲和持續(xù)連接。延遲是需要立即響應(yīng)的設(shè)備(如機(jī)器人)的關(guān)鍵問題。在長時間監(jiān)聽的系統(tǒng)中,由于帶寬成本,持續(xù)連接是一個問題。因此,還需要對邊緣語音識別的研究,它必須保持基于云的系統(tǒng)的質(zhì)量。 解決語音識別問題 近年來,語音識別的表現(xiàn)和應(yīng)用出現(xiàn)了巨大的飛躍。我們離完全解決這個問題還有多遠(yuǎn)?答案也許五年、也許十年,但仍然有一些挑戰(zhàn)性的問題需要時間來解決。 第一個問題是對噪音的敏感性問題。一個語音識別系統(tǒng)在非常接近麥克風(fēng)而且不嘈雜的環(huán)境中運(yùn)行得很好——然而,如果說話的聲音比較遠(yuǎn)或者環(huán)境很嘈雜能迅速降低系統(tǒng)的效能。 第二個必須解決的問題是語言擴(kuò)展:世界上大約有7000種語言,絕大多數(shù)語音識別系統(tǒng)能夠支持的語言數(shù)量大約是八十種。擴(kuò)展系統(tǒng)帶來了巨大的挑戰(zhàn)。 此外,我們?nèi)鄙僭S多語言的數(shù)據(jù),而且匱乏數(shù)據(jù)資源則難以創(chuàng)建語音識別系統(tǒng)。 結(jié)論 深度學(xué)習(xí)在語音識別和對話式AI領(lǐng)域刻下了深深的印記。而鑒于該技術(shù)最近獲得的突破,我們真的正處于一場革命的邊緣。 而最大的問題在于,我們是否準(zhǔn)備贏得語音識別領(lǐng)域的技術(shù)挑戰(zhàn),并像其他商品化技術(shù)一樣開始運(yùn)用它呢?或者說,是否還有另一個新的解決方案正等待著我們?nèi)グl(fā)現(xiàn)?畢竟,語音識別的最新進(jìn)展只是未來科技藍(lán)圖的一小塊:語言理解本身就是一個復(fù)雜而且或許更加強(qiáng)大的一個領(lǐng)域。 |
|