幾種語(yǔ)音端點(diǎn)檢測(cè)方法簡(jiǎn)介 2011年第11期福建電腦 67 幾種語(yǔ)音端點(diǎn)檢測(cè)方法簡(jiǎn)介 邢亞從 (蘇州市職業(yè)大學(xué)江蘇蘇州215000) 【摘要】:語(yǔ)音的端點(diǎn)檢測(cè)在語(yǔ)音的編碼、語(yǔ)音識(shí)別、語(yǔ)音增強(qiáng)、說(shuō)話(huà)人識(shí)別中起著非常重要的作用,直接影響著后續(xù)工作的正確率。本文在雙門(mén)限檢測(cè)法的基礎(chǔ)上,介紹了基于自相關(guān)極大值和基于小波變換的端點(diǎn)檢測(cè)方法,闡述其優(yōu)缺點(diǎn)。 【關(guān)鍵詞】:語(yǔ)音端點(diǎn)檢測(cè)、過(guò)零率、小波變換、自相關(guān)極大值端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別中非常重要的一步。所謂語(yǔ)音端點(diǎn)檢測(cè),就是從一段給定的語(yǔ)音信號(hào)中找出語(yǔ)音的起始點(diǎn)和結(jié)束點(diǎn)。在語(yǔ)音識(shí)別系統(tǒng)中,正確、有效的進(jìn)行端點(diǎn)檢測(cè)不僅可以減少計(jì)算量和縮短處理時(shí)間,而且能排除無(wú)聲段的噪聲干擾、提高語(yǔ)音識(shí)別的正確率。研究表明[1],即使是在安靜的環(huán)境下,語(yǔ)音識(shí)別系統(tǒng)一半以上的錯(cuò)誤可能主要來(lái)源于端點(diǎn)檢測(cè)。除此之外,在語(yǔ)音合成、編碼等系統(tǒng)中,高效的端點(diǎn)檢測(cè)也直接影響甚至決定著系統(tǒng)的主要性能。因此,端點(diǎn)檢測(cè)的效率、質(zhì)量在語(yǔ)音處理系統(tǒng)中顯得至關(guān)重要,廣泛開(kāi)展端點(diǎn)檢測(cè)實(shí)現(xiàn)手段方面的研究,有一定的現(xiàn)實(shí)意義[2]。1、雙門(mén)限檢測(cè)法 語(yǔ)音端點(diǎn)檢測(cè)方法可采用測(cè)試信號(hào)的短時(shí)能量或短時(shí)對(duì)數(shù)能量、聯(lián)合過(guò)零率等特征參數(shù),并采用雙門(mén)限判定法來(lái)檢測(cè)語(yǔ)音端點(diǎn),即利用過(guò)零率檢測(cè)清音,用短時(shí)能量檢測(cè)濁音,兩者配合。首先為短時(shí)能量和過(guò)零率分別確定兩個(gè)門(mén)限,一個(gè)是較低的門(mén)限數(shù)值較小,對(duì)信號(hào)的變化比較敏感,很容易超過(guò);另一個(gè)是比較高的門(mén)限,數(shù)值較大。低門(mén)限被超過(guò)未必是語(yǔ)音的開(kāi)始,有可能是很短的噪聲引起的,高門(mén)限被超過(guò)并且接下來(lái)的自定義時(shí)間段內(nèi)的語(yǔ)音超過(guò)低門(mén)限,意味著信號(hào)開(kāi)始[5]。 算法過(guò)程如下: (1)在開(kāi)始階段要做預(yù)加重和分幀的處理,講語(yǔ)音信號(hào)分成一幀一幀的,分幀處理有利于對(duì)語(yǔ)音信號(hào)進(jìn)行準(zhǔn)確的分析,并且能夠提高識(shí)別率,這時(shí)再分別求出每幀的短時(shí)能量和短時(shí)過(guò)零率。 (2)接著要設(shè)置初始化參數(shù),比如最大靜音長(zhǎng)度,這是一個(gè)經(jīng)驗(yàn)值,用來(lái)判斷語(yǔ)音段是否結(jié)束,論文中是根據(jù)大量的語(yǔ)音樣本的長(zhǎng)短設(shè)置的一個(gè)經(jīng)驗(yàn)值。另外,短時(shí)能量和短時(shí)過(guò)零率的門(mén)限也要設(shè)置初始值等。 (3)判斷當(dāng)語(yǔ)音在靜音段或者是過(guò)渡段時(shí),如果語(yǔ)音信號(hào)的短時(shí)能量值大于短時(shí)能量的高門(mén)限,或者語(yǔ)音信號(hào)的短時(shí)過(guò)零率大于短時(shí)過(guò)零率的高門(mén)限,那么就確認(rèn)進(jìn)入了語(yǔ)音段,如果短時(shí)能量的值大于短時(shí)能量的低門(mén)限或者過(guò)零率的值大于過(guò)零率的低門(mén)限,那么語(yǔ)音處于過(guò)渡段,否則,語(yǔ)音仍就處于靜音段。 (4)當(dāng)語(yǔ)音信號(hào)在語(yǔ)音段時(shí),判斷如果短時(shí)能量的 值大于短時(shí)能量的低門(mén)限或者短時(shí)過(guò)零率的值大于短時(shí)過(guò)零率的低門(mén)限,那么語(yǔ)音信號(hào)仍然處于語(yǔ)音段。 (5)如果靜音長(zhǎng)度小于設(shè)置的最大靜音長(zhǎng)度,那么就表明語(yǔ)音還尚未結(jié)束,還在語(yǔ)音段,如果語(yǔ)音的長(zhǎng)度小于最小噪聲長(zhǎng)度,那么認(rèn)為語(yǔ)音太短,此時(shí)是噪聲,同時(shí)判斷語(yǔ)音處于靜音段;否則語(yǔ)音就進(jìn)入結(jié)束段。2、基于自相關(guān)極大值的語(yǔ)音端點(diǎn)檢測(cè)方法 在端點(diǎn)檢測(cè)中,如果所處理的語(yǔ)音信號(hào)是非平穩(wěn)的隨機(jī)過(guò)程s(n),可以采用短時(shí)自相關(guān)函數(shù),它的定義為 它的歸一化自相關(guān)函數(shù)定義為 這里之所以要將自相關(guān)函數(shù)歸一化是為了在語(yǔ)音端點(diǎn)檢測(cè)過(guò)程中不用考慮信號(hào)絕對(duì)能量的大小所帶來(lái)的影響。我們知道語(yǔ)音是由濁音和清音兩部分組成的。濁音語(yǔ)音是0~10ms內(nèi)可以被看作為一個(gè)準(zhǔn)周期信號(hào),而清音信號(hào)接近于隨機(jī)噪聲。由于語(yǔ)音的絕大部分能量都集中在濁音語(yǔ)音部分,因此語(yǔ)音可以在10~20ms內(nèi)被看作為一個(gè)準(zhǔn)周期信號(hào),那么它的歸一化自相關(guān)函數(shù)也呈準(zhǔn)周期性,而高斯白噪聲信號(hào)的歸一化自相關(guān)函數(shù)的分布較為平均和分散,不具有準(zhǔn)周期性。 為了突出帶噪語(yǔ)音信號(hào)的歸一化自相關(guān)函數(shù)的準(zhǔn)周期性和高斯白噪聲信號(hào)的歸一化自相關(guān)函數(shù)分散性,可以利用一個(gè)低通濾波器除去波形上的高頻毛刺。這樣我們就可以清晰地看到帶噪語(yǔ)音信號(hào)自相關(guān)函數(shù)所具有的準(zhǔn)周期性。圖1(a)為帶噪語(yǔ)音信號(hào)的歸一化自相關(guān)函數(shù)經(jīng)過(guò)低通濾波后的典型波形。圖1(b)為高斯白噪聲信號(hào)的歸一化自相關(guān)函數(shù)經(jīng)過(guò)低通濾波后的典型波形。我們看到帶噪語(yǔ)音信號(hào)的自相關(guān)函數(shù)的能量將集中在基音周期的各個(gè)整數(shù)倍點(diǎn)上,在這些點(diǎn)附近將出現(xiàn)極大值,并且此函數(shù)在零點(diǎn)處必將出現(xiàn)最大值。而高斯白噪聲信號(hào)的自相關(guān)函數(shù)卻不具有準(zhǔn)周期性,它的歸一化自相關(guān)函數(shù)的能量在零點(diǎn)之外較為平均和分散。從圖1中我們可以清晰地看到帶嗓語(yǔ)音信 |
|
來(lái)自: 霞客書(shū)齋 > 《短波通信技術(shù)》