日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

研究音頻的本質(zhì),詳解各個(gè)音頻格式的區(qū)別

 夢在燃燒 2011-02-16
研究音頻的本質(zhì),詳解各個(gè)音頻格式的區(qū)別
本帖最后由 alexchenlong 于 2010-12-18 00:04 編輯

鑒于論壇上經(jīng)常見到有人問音頻格式相關(guān)的問題,而本人所學(xué)的專業(yè)是與信息處理相關(guān),恰好在信號(hào)處理這方面有點(diǎn)底,就特意寫了這么個(gè)研究帖子。

抱著蛋疼折騰的態(tài)度,讓我們來看看音頻的本質(zhì)吧。

本帖子總共分為5個(gè)部分,分別是wav格式的介紹,有損格式的介紹,無損壓縮格式的介紹,各音頻格式的頻譜分析,以及基于分析在音頻文件選擇上做的推薦

1.wav音頻格式的三大參數(shù),及各參數(shù)對于音頻文件的含義

wav文件有4個(gè)參數(shù),分別是采樣頻率,聲道數(shù),量化位數(shù),以及碼率共4個(gè)

而這4個(gè)參數(shù)里最好理解的就是聲道數(shù),所以不對此參數(shù)進(jìn)行介紹

那么我將要介紹的參數(shù)就是采樣頻率F,量化位數(shù)B,和碼率R

采樣頻率

在三個(gè)參數(shù)里面最重要的是采樣頻率,后面兩個(gè)參數(shù)都是基于在傳輸存儲(chǔ)過程中根據(jù)要求而得到的,唯獨(dú)采樣頻率,它是把模擬世界的信號(hào)帶到數(shù)字世界的橋梁。

在講采樣頻率前,我們可以先回憶一下我們初中時(shí)學(xué)拋物線時(shí)的情景。

在初中時(shí),老師教我們畫拋物線時(shí),是用什么方法畫的??

如果大家回想起來的話,就應(yīng)該記得,是5點(diǎn)法。

是的,用5個(gè)點(diǎn)就可以近似的把拋物線給畫出來。

音頻信號(hào)是啥米,其實(shí)是余弦波,只是這個(gè)余弦波的頻率和幅值都是隨時(shí)間的變量而已。

我們要對這個(gè)音頻信號(hào)進(jìn)行記錄,不可能把每一時(shí)刻的值都記錄,但是,我們可以參考畫拋物線的方法,用盡量少的點(diǎn)去精確的描繪這個(gè)音頻信號(hào)。

而采樣頻率,它干的就是這個(gè)活,也就是一秒內(nèi)我們要記錄這個(gè)音頻信號(hào)多少個(gè)點(diǎn),就能近似精確的表達(dá)這個(gè)音頻信號(hào)。

在信號(hào)處理,有這么一個(gè)定理,叫奈奎斯特定理。

這個(gè)定理怎么得來,你們不用知道,這個(gè)是信號(hào)處理專業(yè)的人才需要知道,例如我。

我們只需了解的是,這個(gè)定理它告訴我們,如果我們要精確的記錄一個(gè)信號(hào),我們的采樣頻率必須大于等于音頻信號(hào)的最大頻率的兩倍,記住,是最大頻率。

也就是


F>=2*fmax。

而在wav格式里,F(xiàn)=44.1kHz。

我們知道,人耳的聽音頻率范圍是20-20kHz,也就是說,如果我們要精確記錄這個(gè)音頻信號(hào),采樣頻率最低起碼是40kHz

至于為啥是44.1kHz而不是其他的頻率,對不起,我也不知道。

不過,起碼我們能確定的是44.1kHz這個(gè)采樣頻率,可以精確記錄小于22.05kHz的音頻信號(hào),這個(gè)是足夠了。

量化位數(shù)

雖然有了采樣頻率,我們可以精確記錄音頻信號(hào),然而,這些記錄過的音頻信號(hào)是模擬量,對于計(jì)算機(jī)而言,是無法處理的。

講到這里,我們會(huì)出現(xiàn)一個(gè)新的概念,模擬量和數(shù)字量。

模擬量和數(shù)字量是有區(qū)別的,我簡單的介紹一下。

例如0-1這個(gè)范圍。

一個(gè)線段內(nèi)我們可以任意的取一個(gè)點(diǎn),這個(gè)點(diǎn)的值可以確定,這個(gè)點(diǎn)的取值范圍可以確定,唯獨(dú)這個(gè)點(diǎn)的可取值的個(gè)數(shù)無法確定,這就是模擬量。

一個(gè)可能取值個(gè)數(shù)無法確定的量,計(jì)算機(jī)是無法處理的。

而數(shù)字量則是其余一樣,第三點(diǎn)不一樣,可取值的個(gè)數(shù)是可以確定的,這樣,計(jì)算機(jī)可以處理了。


0-1這個(gè)范圍,根據(jù)精度要求,我們可以確定需要取值的個(gè)數(shù)。

而量化位數(shù),這是干這活,確定音頻信號(hào)的一個(gè)記錄點(diǎn),它的取值的可能個(gè)數(shù)。

我們知道,wav的量化位數(shù)B16,這個(gè)是一個(gè)2進(jìn)制的位數(shù)。

他告訴我們,一個(gè)記錄點(diǎn)可以取值的個(gè)數(shù)是216次方,也就是65536


0-1-平分65536次,我想,這個(gè)精度也是夠了。

碼率

現(xiàn)在,采樣頻率和量化精度都講了,輪到碼率,先喝口水先。

碼率是怎么得來的?非常簡單,就是采樣頻率X量化位數(shù)X聲道數(shù),也就是R=F*B*2。

R=44.1kHz*16b*2=1411.2kbps~=1411kbps

碼率1411就是這么得來的,雖然碼率是通過計(jì)算得到,但是,他卻有一個(gè)確切的含義,就是一秒內(nèi)它能存儲(chǔ)的信息量,記住是信息量。

講到這里,大家可能會(huì)聯(lián)想到,MP3的320kbps,aac的512kbps,無損壓縮格式的700+kbps。

然后有人疑惑,是不是,碼率越大就越好??

對于有損格式而言,那么,碼率越大是越好

然而,這里有一個(gè)前提,被轉(zhuǎn)換的歌必須是從正版cd刻錄下來的無損格式,并且轉(zhuǎn)換是同一種有損格式,例如都是MP3。

不然,你用一個(gè)128kbs的MP3的歌轉(zhuǎn)成320kbps碼率的MP3,音質(zhì)是不會(huì)有改善的。

對于無損壓縮格式而言,碼率的大小比較將沒有意義。碼率的大小只是告訴你,他的壓縮算法是否足夠好而已。

不過,我得提醒一句,這個(gè)碼率的意義也就這樣,他不能告訴你,這些保存的信息是好是壞,他只能告訴你,他存了這么多信息而已。

是的,他其實(shí)是一個(gè)倉庫,他不管倉庫里放的啥,他只管放滿沒。

好了,到此,wav格式的三大參數(shù)都講完了,也許會(huì)有很多人疑惑,為啥我先講wav這個(gè)這么古董的格式,而不是MP3aac啦這些有損格式,或者flac、ape這些無損壓縮格式。理由很簡單,因?yàn)?/font>wav是最接近模擬量的數(shù)字量,是最原始的數(shù)據(jù),后面的格式都是基于wav根據(jù)自己的特色進(jìn)行處理而已。而且,上面講到的三個(gè)參數(shù),后面的格式依然用到。自然,先把wav這個(gè)老大先介紹咯

2.有損格式的壓縮原理

在這部分里以及后面的無損格式壓縮原理,我不專門對某個(gè)格式講行介紹,而是介紹,這些格式是基于什么理念得到。

當(dāng)我們了解wav格式三大參數(shù)的含義后,可能有人會(huì)疑惑,既然wav是最接近模擬量的數(shù)字格式,為啥還整來后面的有損格式和無損格式呢,直接wav多好啊。

是的,直接wav很好,然而,他的碼率太大了。1411kbps,啥米概念,就是說一個(gè)10秒的音頻,居然要用到3.36MB去存儲(chǔ)?。?!、

在過去存儲(chǔ)技術(shù)不發(fā)達(dá)的年代,這個(gè)量太大了,讓人無法接收。

因此,必須壓縮,必須把沒用或者不重要的信息給去掉減少存儲(chǔ)量。

因此,有損格式誕生了。

那么,有損格式又是基于什么原理得到的,接下來就是我將要講的內(nèi)容。

對于一個(gè)音頻信號(hào)而言,他是一個(gè)時(shí)間相關(guān)的信號(hào),也就是說,前后兩個(gè)記錄點(diǎn),他們有時(shí)間上的順序。

然而,對于計(jì)算機(jī)而言,處理與時(shí)間相關(guān)的信息,這個(gè)不是強(qiáng)項(xiàng)。因此,必須對這個(gè)兩個(gè)記錄點(diǎn)的信息進(jìn)行變換,變換成對時(shí)間順序無關(guān),彼此是獨(dú)立的一個(gè)信息。

在這里,感謝早期那些數(shù)字信號(hào)處理的科學(xué)家,他們提供了這么個(gè)方法,就是快速傅里葉變換,簡稱FFT。

我們不需知道FFT是怎么來的,我們只需知道,一個(gè)信號(hào)經(jīng)過FFT變換后,這個(gè)信號(hào)變成與頻率相關(guān)的信息,而頻率相關(guān)的信息,是可以被計(jì)算機(jī)處理。

我們可以回想一下,音頻信號(hào)是一個(gè)個(gè)余弦波,處理一個(gè)余弦波無非是處理頻率、幅值,初相角。

初相角我們不管,幅值和頻率這個(gè)在經(jīng)過FFT變換之后,就可以處理了。

經(jīng)過FFT變換之后,如果用圖來表示,就是頻譜圖。

我就來一張頻譜圖吧


這個(gè)頻譜圖的橫坐標(biāo)就是頻率,縱坐標(biāo)是對應(yīng)頻率的增益,或者理解成強(qiáng)度也行。

對于人耳而言,我們接受的音頻信號(hào)大部分都集中在中低頻部分,高頻部分我們相對不是那么敏感。

既然這樣,我們就可以把不敏感的高頻部分,直接去掉,這樣,就減少了信息量,這是方法之一。

還有另一個(gè),對于音頻信號(hào)而言,相鄰的幾個(gè)記錄點(diǎn),他們的取值范圍是非常接近的。

既然非常接近,我們可以用一個(gè)平均值,以及取這個(gè)平均值的點(diǎn)的個(gè)數(shù)來記錄。

舉個(gè)例子,有5個(gè)記錄點(diǎn),0.45 0.446 0.461 0.45 0.447,我們可以用0.455)來記錄。

這樣,記錄的信息量同樣少了,其實(shí)還有其他壓縮方法,但是,大概的意思是和上面兩種方法差不多,就不介紹了。

通過各種手法,我們把不需要的信息去掉,把不重要的信息用近似值代替,從而達(dá)到有損壓縮。、

同樣用碼率這個(gè)參數(shù)做對比。

同樣一個(gè)10秒音頻,經(jīng)過有損壓縮后,其碼率值為320kbp,則大小才787KB?。?!為wav格式的五分之一?。?!

用盡量少的數(shù)據(jù),存儲(chǔ)盡量多有用的信息,有損格式做到了!?。∵@也是為啥有損格式流行起來的原因。

3.無損壓縮格式的壓縮原理

隨著存儲(chǔ)技術(shù)的發(fā)展,我們可以存儲(chǔ)的信息量變得越來越大,存儲(chǔ)wav格式變得毫無鴨梨了。

既然毫無鴨梨,為啥要推出無損壓縮格式?

理由很簡單,既然我40MB可以存儲(chǔ)2首無損壓縮格式,為啥我還存儲(chǔ)1wav格式,這不是跟自己過不去嘛。

所以,無損壓縮格式發(fā)展起來了。

無損壓縮格式和有損格式有個(gè)共同點(diǎn),就是壓縮。不同點(diǎn)是,無損。

那么,要怎么才能做到無損壓縮呢,我們可以參考有損壓縮的第二個(gè)方法。

舉個(gè)例子,同樣是5個(gè)記錄點(diǎn),0.4 0.4 0.5 0.5 0.3,如果要無損壓縮,我們只需這樣記錄0.42),0.5(2),0.3(1)。

這樣,我們只需用三個(gè)記錄點(diǎn),就能記錄原來需要5個(gè)記錄點(diǎn),同樣壓縮了。

而且,做到無損壓縮。這是其中一種思路,但是,他告訴我們,無損壓縮對于信息處理而言,是可以做到的。

要完整記錄一個(gè)音頻,不需用到wav格式,無損壓縮就行了。

同樣用碼率這個(gè)參數(shù)做比較,一個(gè)10秒音頻,經(jīng)過無損壓縮后,碼率值為727kbps,大小為1.73MB。大概為wav的一半。

大容量播放器支持無損壓縮格式,小容量播放器則玩轉(zhuǎn)有損格式,各有各的位置,技術(shù)發(fā)展確實(shí)是一件好事啊


經(jīng)常見到有人問wav、flac和ape是不是有區(qū)別,那么我就在這里做個(gè)總結(jié)。

經(jīng)過上面的算法原理介紹,我們可以了解到,如果單純從文件本身,wav和其他所有無損壓縮格式在保存的信息上是無區(qū)別的。


在論壇上,經(jīng)常會(huì)看到有人問無損格式相關(guān)的兩個(gè)問題:無損壓縮格式之間有沒有區(qū)別和無損壓縮格式與wav有沒有區(qū)別。

第一個(gè)問題,我現(xiàn)在就可以回答,有。

但,區(qū)別不是在信息記錄的完整程,而是其壓縮算法以及算法所采用的格式的區(qū)別。

這也是為啥,同一首歌,ape格式比flac小,因?yàn)樗惴ú煌?br>

至于音質(zhì)表現(xiàn)將會(huì)和第二個(gè)問題一起,在第五部分講到



4.音頻文件頻譜分析

這一部分是對不同的音頻格式以及同一音頻格式不同的碼率進(jìn)行分析。

專門為那些選擇哪種音頻格式而煩惱的人提供參考的。

待分析的音頻格式有MP3,aac三種格式,無損格式作為參考格式。

由于本人用fb轉(zhuǎn)換,MP3格式只有vbr模式和最高的cbr320。所以,可能與大家熟悉的碼率有所不同。

不過,我用括號(hào)標(biāo)明了其對應(yīng)的碼率值,是個(gè)大概值,不一定準(zhǔn),不過可以參考。

MP3的碼率有VBRV5~130kbpsV2~190kbpsV0~245kbps)和CBR320kbps

為了對應(yīng)MP3VBR模式,aac同樣采用VBR模式

aac的碼率有,q04125kbpsq05175kbpsq06225kbpsq08325kbpsq10400bps

之所以這么選擇,是因?yàn)榇蠹伊?xí)慣的碼率值有128kbps 196kbps 256kbps 320kbps。


在選擇MP3的轉(zhuǎn)換模式時(shí)其參考碼率盡量靠近習(xí)慣碼率值。

因?yàn)?/font>aac在編碼上比MP3優(yōu)秀得多,所以aac的轉(zhuǎn)換模式是轉(zhuǎn)換后的文件體積大小盡量接近MP3大小。

至于來個(gè)q10模式,則是與無損壓縮格式做對比的。

先來張各音頻格式與對應(yīng)碼率的文件體積對比圖

[attach]76054[/attach]

事先說明,該音頻文件截取的是eason的十年(40s-60s)這段范圍,用的是網(wǎng)上下載的無損,截取軟件用goldwave。

先來個(gè)體積分析。

顯然,這里體積最小的是V5MP3130kbps),對應(yīng)是的q04aac125kbps)。

第二檔次是V2MP3~192kbps)對應(yīng)q05aac175kbps)。

第三檔次是V0MP3245kbps)對應(yīng)q08aac225kbps)。

第四檔次是cbrMP3320kbps)與對應(yīng)的q08aac325kbps)。

最后是q10aac400kbps)與對應(yīng)的flac。

假設(shè)原盤是正版的,則其對應(yīng)的音質(zhì)檔次是低級、初級、中級、高級、以及最高。


先上最高級別的聲譜圖




無損聲譜圖




q10aac聲譜圖

先說明一下,橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,點(diǎn)的白色度程度是對應(yīng)時(shí)間與頻率的聲音強(qiáng)度。所以叫聲譜圖。

通過對比,我們發(fā)現(xiàn),q10aac在聲音的頻率再現(xiàn)范圍與無損無差別,干到22kHz無壓力。

但是聲音的頻率再現(xiàn)強(qiáng)度則有缺陷,在一些時(shí)間段的頻率聲音強(qiáng)度缺失

上圖





q10aac缺陷


紅色圈住部分則是缺失的部分。

可以看出,q10aac在細(xì)節(jié)部分依然無法完美記錄(畢竟是有損),但是,從整體而言,其保留的信息已經(jīng)非常接近無損。個(gè)人認(rèn)為,作為高保真的格式,高碼率aac是合格的。

然后是高級檔次的聲譜對比圖



q08aac




320MP3


通過對比,我們可以發(fā)現(xiàn),320MP3的聲譜就是一刀切,把高于20kHz的頻率都去掉,而q08aac則是干到22khz無鴨梨,在細(xì)節(jié)上,兩者都差不多,我就不上圖了,所以,這回合aac贏了。

中級檔次聲譜對比圖



q06aac




v0mp3


到了中級檔次,MP3格式在頻譜再現(xiàn)范圍達(dá)到19kHz,而aac則是18kHz。在聲音細(xì)節(jié)方面,兩者基本差不多,這回合,是MP3格式勝了。

初級檔次聲譜圖



q05aac




v2mp3


在初級檔次,MP3格式的頻率平均在16kHz,不少能上到18kHz,而aac格式,同樣如此。但是,在細(xì)節(jié)呈現(xiàn)方面,aac超過16kHz的聲音比MP3多得多。

而低于16kHz部分,兩者差不多。所以說,這回合aac贏了。

低級檔次



q04aac




v5mp3


在低級檔次,MP3是一刀切的到16kHz,而aac則是平均16kHz下不少能干到17kHz

低于16kHz部分,aac記錄的反而沒有MP3完整。個(gè)人認(rèn)為,這回合打和。

通過這次對比,我們可以發(fā)現(xiàn)MP3aac在有損壓縮的理念區(qū)別,MP3是在他能記錄的頻率范圍內(nèi),盡量保留。

aac則是犧牲低頻部分細(xì)節(jié)去換取高頻部分的保留,在低碼率下,誰好誰不好看個(gè)人選擇。

到了高碼率下,aac則明顯優(yōu)于MP3,無論在低頻部分還是高頻部分,aac都能盡量保留,而MP3則對高頻部分依然無能為力。

5.音頻格式選擇的個(gè)人推薦

在第三部分,我曾經(jīng)提了兩個(gè)問題,無損壓縮格式之間的音質(zhì)區(qū)別以及wav與無損壓縮格式的區(qū)別,在這里我將解答

在第四部分,我們通過聲譜圖對比了解到有損音頻格式的優(yōu)缺點(diǎn),為下面的有損格式選擇做下鋪墊

不過,在對第三部分的解答和做格式推薦前,我想先介紹一下音頻在播放時(shí)的流程圖

wav格式:wav數(shù)據(jù)流——》DAC——》濾波電路——》放大電路——》輸出


有損格式:有損數(shù)據(jù)流——》解碼——》DAC——》濾波電路——》放大電路——》輸出


無損壓縮格式:無損壓縮數(shù)據(jù)流——》解壓縮——》DAC——》濾波電路——》放大電路——》輸出


說明:DAC的作用是把數(shù)字信號(hào)變成模擬信號(hào),濾波電路是把無用的頻率成分去掉,放大電路這是對模擬信號(hào)進(jìn)行放大,以便于輸出


通過播放流程圖,我們可以看到,wav格式的播放是最簡單的,而有損格式和無損壓縮格式都多了一個(gè)步驟。

在信號(hào)處理里面,有這么一句話“誤差無處不在”

這一句話的含義是,每多一步的處理,誤差產(chǎn)生的可能性會(huì)越大以及誤差的積累可能會(huì)越多。

對于有損格式而言,在格式上本來對于無損格式唯一的優(yōu)點(diǎn)就是壓縮率足夠大,而這個(gè)壓縮率是以犧牲音質(zhì)為前提,音質(zhì)不如無損,正常。

那些提問“ape和flac是否有區(qū)別,wav是不是比無損壓縮格式更好”的人,我現(xiàn)在一一做出解答

在回答前,我們先對比無損壓縮格式和wav的播放流程,可以看到,無損壓縮格式比wav多了一個(gè)“解壓縮”這個(gè)步驟。

對于不同的無損壓縮格式而言,解壓縮的算法也是不同的。

那些說wav比無損壓縮格式好的人,他們的看法有合理之處。

為啥我會(huì)這么說,不是說無損壓縮嘛,既然無損,就應(yīng)該無區(qū)別。

是的,在文件的信息完整度上而言,沒錯(cuò),wav和其他無損壓縮格式都沒有任何區(qū)別?。?!

有區(qū)別不是在文件本身,而是播放過程?。?!

因?yàn)闊o損壓縮格式在播放的過程中走的步驟比wav格式多了一個(gè)?。?!

那就是解壓縮?。。?!

假設(shè)我們可以保證后面的DAC、濾波電路、放大電路兩者是一樣的,然而,多了解壓縮的這個(gè)步驟,則可能對音質(zhì)產(chǎn)生影響。

為啥我要這么說,解壓縮可能會(huì)對音質(zhì)產(chǎn)生影響。

產(chǎn)生影響的原理我不清楚,不過,可以參照之前說的,誤差無處不在。

意味著,解壓縮這個(gè)步驟,其產(chǎn)生的誤差有可能對整體的音質(zhì)造成影響。

至于這個(gè)影響是否能忽略,就看生產(chǎn)商的功力了。

同樣,那些無損壓縮格式在最終的音質(zhì)區(qū)別看的也不是格式本身,而是這個(gè)“解壓縮”做的是否足夠好,好到忽視誤差的影響。

有了上面播放的流程的介紹,還有第四部分的聲譜分析,我們就可以根據(jù)使用的環(huán)境,進(jìn)行格式推薦。


不在乎音頻文件體積大小的,追求音質(zhì)的,首選當(dāng)然是無損格式。

如果你的前端能支持無損壓縮格式,而你的播放系統(tǒng)能聽出wav和無損壓縮格式的差距(就是說解壓縮的誤差你能聽出來),上wav

不然,上無損壓縮格式。

在乎音頻文件體積大小的,又追求音質(zhì)的,上高碼率aac。

不過,這里有個(gè)前提,你的播放系統(tǒng)得能聽出高碼率aac320MP3的區(qū)別,不然,還是乖乖的上MP3,別折騰

不在意音質(zhì)的,上MP3就行了。

這里都有一個(gè)大前提,這些音頻文件都是由真無損轉(zhuǎn)的,而不是假無損轉(zhuǎn)的。不然,換個(gè)大倉庫,里面存的東西依然垃圾。

后記:總算把這篇音頻格式研究文搞定,好蛋疼,不過,得感謝學(xué)院里的老師,在信息處理相關(guān)的課程教得很細(xì)致,讓我的學(xué)習(xí)沒白學(xué)。


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多