現(xiàn)代生活已經(jīng)產(chǎn)生微妙變化。在節(jié)日期間,我們會與家中的智能音箱對話:“愛麗絲,請播放些圣誕歌曲”,“Google,請打開美妙的燈光”,“Siri,請問烤火雞還需要多長時(shí)間出爐”,就如同與家里成員一樣對話,而這種無形的指令幾乎是瞬時(shí)得到執(zhí)行。 包括亞馬遜、谷歌、蘋果的這類裝置已經(jīng)出現(xiàn)在英國五分之一的家庭中。2019年,全球已經(jīng)銷售了1.47億套,2020年銷量預(yù)計(jì)會增加10%。令人驚訝的是,智能音箱已經(jīng)達(dá)到了很高的語音識別能力和精確性。這些都?xì)w因于高靈敏度的語音傳感器和用來解釋語音的復(fù)雜機(jī)器學(xué)習(xí)算法。 從正常講話轉(zhuǎn)換為文本需要兩個(gè)過程:(1)一個(gè)語音傳感器將接收的聲波轉(zhuǎn)換為電信號;(2)使用軟件識別出語音中的詞語。對于第二階段,電信號首先由模擬信號轉(zhuǎn)換為數(shù)字信號,然后用快速傅里葉變換找出不同頻率信號隨時(shí)間的振幅變化。用算法語言將單音(phones)與標(biāo)準(zhǔn)的音素(phoneme)進(jìn)行比較,由此構(gòu)成完整講話。在語音識別過程中,機(jī)器學(xué)習(xí)非常重要,可以用來提高精確度。計(jì)算程序會記住我們對所說話的修正,因此在解讀我們個(gè)人的聲音時(shí)變得更加精確。 靈敏度聲學(xué)探測器源于19世紀(jì)末。最初的聲音傳感器是碳粉接觸式麥克風(fēng),由美國的 E. Berliner 和 T. Edison,英國的 D. Hughes獨(dú)立發(fā)明。這種麥克風(fēng)將碳粉顆粒壓縮在兩片金屬板之間,然后在兩側(cè)加上電壓。傳入的聲波使得其中一個(gè)金屬膜片產(chǎn)生振動。在壓縮過程中,碳顆粒變形而增加了相互接觸面積,使接觸電阻下降引起電流增加。隨著膜片運(yùn)動使得聲音可以通過電流變化記錄下來。 然而,直到1952年才首次實(shí)現(xiàn)語音識別技術(shù)。美國的貝爾電話實(shí)驗(yàn)室設(shè)立了 “自動數(shù)字識別機(jī)”(Audrey)項(xiàng)目,可以在普通電話中識別數(shù)字0—9,用于語音撥號,然而需要對用戶聲音進(jìn)行訓(xùn)練,以及許多其他電子儀器。 從Audrey設(shè)立以來,語音識別的計(jì)算方面已經(jīng)有了長足的發(fā)展,語音傳感器也接受了嚴(yán)格考驗(yàn)。出現(xiàn)了鋁帶式麥克風(fēng)、動圈式麥克風(fēng)、碳粒麥克風(fēng)等,但先后淡出市場,而電容式傳感器卻一直是主流。1916年美國西部電子工程實(shí)驗(yàn)室的 E. C. Wente 發(fā)明了電容傳感器,利用一個(gè)電容器平板之間的電壓與間距有關(guān)的物理效應(yīng)。在一個(gè)固定的背板和一個(gè)運(yùn)動的薄膜兩面加上電壓,隨著外部聲波振動的薄膜引起電容兩端電壓的變化,由此可以計(jì)算出不同頻率聲波引起的振幅變化。 貝爾電話實(shí)驗(yàn)室的 G. Sessler 等人于1962年發(fā)明了駐極體電容麥克風(fēng)(ECM)。駐極體材料(如聚四氟乙烯)具有本征的表面電荷,可以在電容器兩端保持固定的電壓,從而降低了輸入功率。直徑為 3—10 mm的 ECM 占據(jù)了麥克風(fēng)市場大約50年時(shí)間。然而,減小傳感器尺寸會導(dǎo)致信噪比和穩(wěn)定性下降,特別是在溫度變化的環(huán)境中。 與時(shí)俱進(jìn)的語音傳感器。自從19世紀(jì)E. Berliner (左),T. Edison和D. Hughes首次發(fā)明了碳粒麥克風(fēng)以來,語音傳感器經(jīng)歷了很大進(jìn)展;(中)駐極體電容麥克風(fēng);(右)MEMS電容式麥克風(fēng) 當(dāng)用于語音識別時(shí),多數(shù)ECM傳感器已經(jīng)被微機(jī)電系統(tǒng)(MEMS)電容傳感器所取代。智能音箱中的這種傳感器直徑約 20—1000 mm。MEMS傳感器與ECM的區(qū)別在于內(nèi)部的模擬—數(shù)字轉(zhuǎn)換電路。與ECM相比,MEMS器件對電子噪聲不敏感,尺寸也更小,采用半導(dǎo)體工藝線加工,因而更易于批量制作。MEMS 傳感器的缺點(diǎn)是壽命不長,不適于惡劣的工作環(huán)境。沉積在膜片的顆粒、雨水和附著在膜片表面的空氣層都會降低其靈敏度。 盡管電容式傳感器已經(jīng)在工業(yè)界占據(jù)了數(shù)十年主導(dǎo)地位,但并非是未來發(fā)展的首選。美國Vesper公司設(shè)計(jì)了壓電語音傳感器,成為新的解決方案。這家2014年建立的公司最初的設(shè)計(jì)是源于公司CEO Bobby Littrelld 博士的研究。 壓電語音傳感器采用壓電材料制成的膜片,如鋯鈦酸鉛壓電材料,將機(jī)械能直接轉(zhuǎn)換為電響應(yīng)。當(dāng)壓電薄膜接收到聲波,其內(nèi)部離子間距離會增長,從而產(chǎn)生電偶極子,使得結(jié)構(gòu)中的離子形成能量最低的分布。這種偶極子只能存在于非中心對稱結(jié)構(gòu)晶體單胞中。偶極子在晶體中的累積效果會產(chǎn)生電壓,電壓隨著晶體內(nèi)應(yīng)變的變化而變化。 與電容式語音傳感器相比,壓電式傳感器具有的優(yōu)勢是不會沾上污染物、空氣或者水分,因此壽命更長。另外,這種器件是自供電的,節(jié)省了用于電池的空間。 然而,像這樣的薄膜設(shè)備——以及電容式設(shè)計(jì)——往往很難制備,需要在高真空甚至超高真空環(huán)境。需要選擇合適的襯底,按照單胞的某一晶體取向生長薄膜,以便在機(jī)械應(yīng)變條件下生長的偶極子均朝向同一方向。需要高溫來提高原子的遷移性,使得原子在襯底的最低能量位置上形成理想點(diǎn)陣。然而,單晶的薄膜必須生長在有序的結(jié)構(gòu)上,而柔性襯底是非晶結(jié)構(gòu),難于生長單晶薄膜。 在語音識別領(lǐng)域中,韓國KAIST的團(tuán)隊(duì)發(fā)展了一種新的模仿人類聽力的壓電傳感器。他們的壓電傳感器具有與人類耳蝸的基底膜類似的形狀,因此,可以收集常規(guī)電容式傳感器兩倍的信息。這一優(yōu)勢源于,不僅可以收集含有所有頻率的單一信號,從中提取頻率與振幅信息,而且能在薄膜不同的位置獲取多個(gè)信號。豐富的信息使得語音識別更加準(zhǔn)確。這種設(shè)計(jì)的精確度和靈敏度占優(yōu)勢,可以獲取遠(yuǎn)處的音頻信號,并且能夠分辨單個(gè)聲音。 他們研究中的棘手問題是分析來自這些通道的信號,給出不同頻率信號的相對振幅,這是由于振幅受到了通道共振行為的調(diào)制。該團(tuán)隊(duì)認(rèn)為已經(jīng)找到了適于這種探測器的通道數(shù),但是必須在收集更多信息以提高精確度與適當(dāng)大小的處理器之間取得平衡。 語音識別技術(shù)并不限于將傳感器放置在房屋各個(gè)角落,或者你的口袋里。用于探測喉部振動而不是探測聲波的傳感器,對于聲音幾乎無法傳播的場合是非常重要的,如在嘈雜的工業(yè)環(huán)境,或者人們佩戴笨重的防毒面具時(shí)。2019年韓國浦項(xiàng)科技大學(xué)做出了突破性工作,研制出柔性并且可以貼在皮膚上的電容傳感器。這種傳感器通過探測喉部環(huán)狀軟骨上的皮膚振動來感知人的聲音。由于喉部皮膚的加速度與聲壓存在線性關(guān)系,因此,可以通過測量電容值的變化感知喉部加速度,進(jìn)而轉(zhuǎn)換為聲壓。團(tuán)隊(duì)制備了厚度小于 5 μm 的環(huán)氧樹脂薄膜,用以模擬自然界中柔性的聚合物材料。 語音識別探測器的未來是面向應(yīng)用的智能裝置,如靈敏度高,能夠識別作為密碼或者指紋的個(gè)體聲音信息。 本文選自《物理》2021年第1期 (北京大學(xué) 朱 星 編譯自 Pip Knight. Physics World,2020,(12):25) 原標(biāo)題:智能音箱與語音傳感器 來源: 中國物理學(xué)會期刊網(wǎng) |
|