視頻壓縮編碼的新發(fā)展-H.264（轉(zhuǎn)貼）-Linux -華夏名網(wǎng)資訊中心虛擬主機(jī),域名注冊,雙線虛擬主機(jī),服務(wù)器租賃,為7萬用戶提供服務(wù)

ShaneWu 2009-09-11

展開全文

視頻壓縮編碼的新發(fā)展-H.264（轉(zhuǎn)貼）

來源：Blog.ChinaUnix.net作者：Blog.ChinaUnix.net 發(fā)布時(shí)間:2008-04-07 13:32:07

JVT（Joint Video Team，視頻聯(lián)合工作組）于2001年12月在泰國Pattaya成立。他由ITU-T和ISO兩個(gè)國際標(biāo)準(zhǔn)化組織的有關(guān)視頻編碼的專家聯(lián)合組成。 JVT的工作目標(biāo)是制定一個(gè)新的視頻編碼標(biāo)準(zhǔn)，以實(shí)現(xiàn)視頻的高壓縮比、高圖像質(zhì)量、良好的網(wǎng)絡(luò)適應(yīng)性等目標(biāo)。目前JVT的工作已被ITU-T接納，新的視頻壓縮編碼標(biāo)準(zhǔn)稱為H.264標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)也被ISO接納，稱為AVC（Advanced Video Coding）標(biāo)準(zhǔn)，是MPEG-4的第10部分。

http://www./ffmpeg/articles/22850.aspx
H.264標(biāo)準(zhǔn)可分為三檔：
基本檔次（其簡單版本，應(yīng)用面廣）；
主要檔次（采用了多項(xiàng)提高圖像質(zhì)量和增加壓縮比的技術(shù)措施，可用于SDTV、HDTV和DVD等）；
擴(kuò)展檔次（可用于各種網(wǎng)絡(luò)的視頻流傳輸）。
H.264 不僅比H.263和MPEG-4節(jié)約了50％的碼率，而且對網(wǎng)絡(luò)傳輸具有更好的支持功能。他引入了面向IP包的編碼機(jī)制，有利于網(wǎng)絡(luò)中的分組傳輸，支持網(wǎng) 絡(luò)中視頻的流媒體傳輸。H.264具有較強(qiáng)的抗誤碼特性，可適應(yīng)丟包率高、干擾嚴(yán)重的無線信道中的視頻傳輸。H.264支持不同網(wǎng)絡(luò)資源下的分級編碼傳輸，從而獲得平穩(wěn)的圖像質(zhì)量。H.264能適應(yīng)于不同網(wǎng)絡(luò)中的視頻傳輸，網(wǎng)絡(luò)親和性好。
一、H.264視頻壓縮系統(tǒng)
H.264標(biāo)準(zhǔn)壓縮系統(tǒng)由視頻編碼層（VCL）和網(wǎng)絡(luò)提取層（Network Abstraction Layer，NAL）兩部分組成。VCL中包括VCL編碼器和VCL解碼器，主要功能是視頻數(shù)據(jù)壓縮編碼和解碼，他包括運(yùn)動(dòng)補(bǔ)償、變換編碼、熵編碼等壓縮單元。NAL則用于為VCL提供一個(gè)和網(wǎng)絡(luò)無關(guān)的統(tǒng)一接口，他負(fù)責(zé)對視頻數(shù)據(jù)進(jìn)行封裝打包后使其在網(wǎng)絡(luò)中傳送，他采用統(tǒng)一的數(shù)據(jù)格式，包括單個(gè)字節(jié)的包頭信息、多個(gè)字節(jié)的視頻數(shù)據(jù)和組幀、邏輯信道信令、定時(shí)信息、序列結(jié)束信號等。包頭中包含存儲(chǔ)標(biāo)志和類型標(biāo)志。存儲(chǔ)標(biāo)志用于指示當(dāng)前數(shù)據(jù)不屬于被參考的幀。類型標(biāo)志用于指示圖像數(shù)據(jù)的類型。
VCL能傳輸按當(dāng)前的網(wǎng)絡(luò)情況調(diào)整的編碼參數(shù)。

二、H.264的特點(diǎn)
H.264和H.261、H.263相同，也是采用DCT變換編碼加DPCM的差分編碼，即混合編碼結(jié)構(gòu)。同時(shí)，H.264在混合編碼的框架下引入了新的編碼方式，提高了編碼效率，更貼近實(shí)際應(yīng)用。
H.264沒有繁瑣的選項(xiàng)，而是力求簡潔的“回歸基本”，他具有比H.263++更好的壓縮性能，又具有適應(yīng)多種信道的能力。
H.264的應(yīng)用目標(biāo)廣泛，可滿足各種不同速率、不同場合的視頻應(yīng)用，具有較好的抗誤碼和抗丟包的處理能力。
H.264的基本系統(tǒng)無需使用版權(quán)，具有開放的性質(zhì)，能非常好地適應(yīng)IP和無線網(wǎng)絡(luò)的使用，這對目前因特網(wǎng)傳輸多媒體信息、移動(dòng)網(wǎng)中傳輸寬帶信息等都具有重要意義。
盡管H.264編碼基本結(jié)構(gòu)和H.261、H.263是類似的，但他在非常多環(huán)節(jié)做了改進(jìn)，現(xiàn)列舉如下。
1．多種更好的運(yùn)動(dòng)估計(jì)
高精度估計(jì)
在H.263中采用了半像素估計(jì)，在H.264中則進(jìn)一步采用1/4像素甚至1/8像素的運(yùn)動(dòng)估計(jì)。即真正的運(yùn)動(dòng)矢量的位移可能是以1/4甚至1/8像素為基本單位的。顯然，運(yùn)動(dòng)矢量位移的精度越高，則幀間剩余誤差越小，傳輸碼率越低，即壓縮比越高。
在H.264中采用了6階FIR濾波器的內(nèi)插獲得1/2像素位置的值。當(dāng)1/2像素值獲得后， 1/4像素值可通過線性內(nèi)插獲得，
對于4:1:1的視頻格式，亮度信號的1/4 像素精度對應(yīng)于色度部分的1/8像素的運(yùn)動(dòng)矢量，因此需要對色度信號進(jìn)行1/8像素的內(nèi)插運(yùn)算。
理論上，如果將運(yùn)動(dòng)補(bǔ)償?shù)木仍黾右槐叮ɡ鐝恼袼鼐忍岣叩?/2像素精度），可有0.5bit/Sample的編碼增益，但實(shí)際驗(yàn)證發(fā)目前運(yùn)動(dòng)矢量精度超過1/8像素后，系統(tǒng)基本上就沒有明顯增益了，因此，在H.264中，只采用了1/4像素精度的運(yùn)動(dòng)矢量模式，而不是采用1/8像素的精度。
多宏塊劃分模式估計(jì)
在H.264的預(yù)測模式中，一個(gè)宏塊（MB）可劃分成7種不同模式的尺寸，這種多模式的靈活、細(xì)微的宏塊劃分，更切合圖像中的實(shí)際運(yùn)動(dòng)物體的形狀，于是，在每個(gè)宏塊中可包含有1、2、4、8或16個(gè)運(yùn)動(dòng)矢量。
多參數(shù)幀估計(jì)
在H.264中，可采用多個(gè)參數(shù)幀的運(yùn)動(dòng)估計(jì)，即在編碼器的緩存中存有多個(gè)剛剛編碼好的參數(shù)幀，編碼器從其中選擇一個(gè)給出更好的編碼效果的作為參數(shù)幀，并指出是哪個(gè)幀被用于預(yù)測，這樣就可獲得比只用上一個(gè)剛編碼好的幀作為預(yù)測幀的更好的編碼效果。
2．小尺寸4?4的整數(shù)變換
視頻壓縮編碼中以往的常用單位為8?8塊。在H.264中卻采用小尺寸的4?4塊，由于變換塊的尺寸變小了，運(yùn)動(dòng)物體的劃分就更為精確。這種情況下，圖像變換過程中的計(jì)算量小了，而且在運(yùn)動(dòng)物體邊緣的銜接誤差也大為減少。
當(dāng)圖像中有較大面積的平滑區(qū)域時(shí)，為了不產(chǎn)生因小尺寸變換帶來的塊間灰度差異，H.264可對幀內(nèi)宏塊亮度數(shù)據(jù)的16個(gè)4?4塊的DCT系數(shù)進(jìn)行第二次4?4塊的變換，對色度數(shù)據(jù)的4個(gè)4?4塊的DC系數(shù)（每個(gè)小塊一個(gè)，共4個(gè)DC系數(shù)）進(jìn)行2?2塊的變換。
H.263不僅使圖像變換塊尺寸變小，而且這個(gè)變換是整數(shù)操作，而不是實(shí)數(shù)運(yùn)算，即編碼器和解碼器的變換和反變換的精度相同，沒有“反變換誤差”。
3．更精確的幀內(nèi)預(yù)測
在H.264中，每個(gè)4?4塊中的每個(gè)像素都可用17個(gè)最接近先前已編碼的像素的不同加權(quán)和來進(jìn)行幀內(nèi)預(yù)測。
4．統(tǒng)一的VLC
H.264中關(guān)于熵編碼有兩種方法。
統(tǒng)一的VLC（即UVLC：Universal VLC）。UVLC使用一個(gè)相同的碼表進(jìn)行編碼，而解碼器非常容易識(shí)別碼字的前綴，UVLC在發(fā)生比特錯(cuò)誤時(shí)能快速獲得重同步。
內(nèi)容自適應(yīng)二進(jìn)制算術(shù)編碼（CABAC：Context Adaptive Binary Arithmetic Coding）。其編碼性能比UVLC稍好，但復(fù)雜度較高。

三、性能優(yōu)勢
H.264和MPEG-4、H.263++編碼性能對比采用了以下6個(gè)測試速率：32kbit/s、 10F/s和QCIF；64kbit/s、15F/s和QCIF；128kbit/s、15F/s和CIF；256kbit/s、15F/s和QCIF； 512kbit/s、30F/s和CIF；1024kbit/s、30F/s和CIF。測試結(jié)果標(biāo)明，H.264具有比MPEG和H.263++更優(yōu)秀的 PSNR性能。
H.264的 PSNR比MPEG-4平均要高2dB，比H.263++平均要高3dB。

四、新的快速運(yùn)動(dòng)估值算法
新的快速運(yùn)動(dòng)估值算法UMHexagonS（中國專利）是一種運(yùn)算量相對于H.264中原有的快速全搜索算法可節(jié)約90％以上的新算法，全名叫“非對稱十字型多層次六邊形格點(diǎn)搜索算法”（Unsymmetrical-Cross Muti-Hexagon Search）”，這是一種整像素運(yùn)動(dòng)估值算法。由于他在高碼率大運(yùn)動(dòng)圖像序列編碼時(shí)，在保持較好率失真性能的條件下，運(yùn)算量十分低，已被H.264標(biāo)準(zhǔn) 正式采納。

ITU和 ISO合作發(fā)展的 H.264（MPEG-4 Part 10）有可能被廣播、通信和存儲(chǔ)媒體（CD DVD）接受成為統(tǒng)一的標(biāo)準(zhǔn)，最有可能成為寬帶交互新媒體的標(biāo)準(zhǔn)。我國的信源編碼標(biāo)準(zhǔn)尚未制定，密切關(guān)注H.264的發(fā)展，制定我國的信源編碼標(biāo)準(zhǔn)的工作正在加緊進(jìn)行。
H264標(biāo)準(zhǔn)使運(yùn)動(dòng)圖像壓縮技術(shù)上升到了一個(gè)更高的階段，在較低帶寬上提供高質(zhì)量的圖像傳輸是H.264的應(yīng)用亮點(diǎn)。H.264的推廣應(yīng)用對視頻終端、網(wǎng)守、網(wǎng)關(guān)、MCU等系統(tǒng)的需求較高，將有力地推動(dòng)視頻會(huì)議軟、硬件設(shè)備在各個(gè)方面的不斷完善。

MPEG4視頻壓縮編碼技術(shù)詳解
MPEG全稱是Moving Pictures Experts Group，他是“動(dòng)態(tài)圖象專家組”的英文縮寫，該專家組成立于1988年，致力于運(yùn)動(dòng)圖像及其伴音的壓縮編碼標(biāo)準(zhǔn)化工作，原先他們打算研發(fā)MPEG1、 MPEG2、MPEG3和MPEG4四個(gè)版本，以適用于不同帶寬和數(shù)字影像質(zhì)量的需求。
目前，MPEG1技術(shù)被廣泛的應(yīng)用于VCD，而MPEG2 標(biāo)準(zhǔn)則用于廣播電視和DVD等。MPEG3最初是為HDTV研發(fā)的編碼和壓縮標(biāo)準(zhǔn)，但由于MPEG2的出色性能表現(xiàn)， MPEG3只能是死于襁褓了。而我們今天要談?wù)摰闹鹘??MPEG4于1999年初正式成為國際標(biāo)準(zhǔn)。他是個(gè)適用于低傳輸速率應(yīng)用的方案。和MPEG1 和MPEG2相比，MPEG4更加注重多媒體系統(tǒng)的交互性和靈活性。下面就讓我們一起進(jìn)入多彩的MPEG4世界。
MPEG4的技術(shù)特點(diǎn)

MPEG1、MPEG2技術(shù)當(dāng)初制定時(shí)，他們定位的標(biāo)準(zhǔn)均為高層媒體表示和結(jié)構(gòu)，但隨著計(jì)算機(jī)軟件及網(wǎng)絡(luò)技術(shù)的快速發(fā)展， MPEG1.MPEG2技術(shù)的弊端就顯示出來了：交互性及靈活性較低，壓縮的多媒體文件體積過于龐大，難以實(shí)現(xiàn)網(wǎng)絡(luò)的實(shí)時(shí)傳播。而MPEG4技術(shù)的標(biāo)準(zhǔn)是對運(yùn)動(dòng)圖像中的內(nèi)容進(jìn)行編碼，其具體的編碼對象就是圖像中的音頻和視頻，術(shù)語稱為“AV對象”，而連續(xù)的AV對象組合在一起又能形成AV場景。因此， MPEG4標(biāo)準(zhǔn)就是圍繞著AV對象的編碼、存儲(chǔ)、傳輸和組合而制定的，高效率地編碼、組織、存儲(chǔ)、傳輸AV對象是MPEG4標(biāo)準(zhǔn)的基本內(nèi)容。
在視頻編碼方面，MPEG4支持對自然和合成的視覺對象的編碼。（合成的視覺對象包括2D、3D動(dòng)畫和人面部表情動(dòng)畫等）。在音頻編碼上，MPEG4能在一組編碼工具支持下，對語音、音樂等自然聲音對象和具有回響、空間方位感的合成聲音對象進(jìn)行音頻編碼。
由于MPEG4只處理圖像幀和幀之間有差異的元素，而舍棄相同的元素，因此大大減少了合成多媒體文件的體積。應(yīng)用MPEG4技術(shù)的影音文件最顯著特點(diǎn)就是壓縮率高且成像清晰，一般來說，一小時(shí)的影像能被壓縮為350M左右的數(shù)據(jù)，而一部高清晰度的DVD電影, 能壓縮成兩張甚至一張650M CD光碟來存儲(chǔ)。對廣大的“平民”計(jì)算機(jī)用戶來說，這就意味著, 你不必購置 DVD-ROM就能欣賞近似DVD質(zhì)量的高品質(zhì)影像。而且采用MPEG4編碼技術(shù)的影片，對機(jī)器硬件設(shè)置的需求非常之低，300MHZ 以上CPU，64M的內(nèi)存和一個(gè) 8M顯存的顯卡就能流暢的播放。在播放軟件方面，他需求也非常寬松，你只需要安裝一個(gè) 500K左右的 MPEG4 編碼驅(qū)動(dòng)后，用 WINDOWS 自帶的媒體播放器就能流暢的播放了（下面我們會(huì)具體講到）。

視頻編碼研究和MPEG標(biāo)準(zhǔn)演進(jìn)

人類獲取的信息中70%來自于視覺，視頻信息在多媒體信息中占有重要地位；同時(shí)視頻數(shù)據(jù)冗余度最大，經(jīng)壓縮處理后的視頻質(zhì)量高低是決定多媒體服務(wù)質(zhì)量的關(guān)鍵因素。因此數(shù)字視頻技術(shù)是多媒體應(yīng)用的核心技術(shù)，對視頻編碼的研究已成為信息技術(shù)領(lǐng)域的熱門話題。

視頻編碼的研究課題主要有數(shù)據(jù)壓縮比、壓縮/解壓速度及快速實(shí)現(xiàn)算法三方面內(nèi)容。以壓縮/解壓后數(shù)據(jù)和壓縮前原始數(shù)據(jù)是否完全一致作為衡量標(biāo)準(zhǔn)，可將數(shù)據(jù)壓縮劃分為無失真壓縮（即可逆壓縮）和有失真壓縮（即不可逆壓縮）兩類。

傳統(tǒng)壓縮編碼建立在仙農(nóng)信息論基礎(chǔ)之上的，以經(jīng)典集合論為工具，用概率統(tǒng)計(jì)模型來描述信源，其壓縮思想基于數(shù)據(jù)統(tǒng)計(jì)，因此只能去除數(shù)據(jù)冗余，屬于低層壓縮編碼的范疇。

伴隨著視頻編碼相關(guān)學(xué)科及新興學(xué)科的迅速發(fā)展，新一代數(shù)據(jù)壓縮技術(shù)不斷誕生并日益成熟，其編碼思想由基于像素和像素塊轉(zhuǎn)變?yōu)榛趦?nèi) 容（content-based）。他突破了仙農(nóng)信息論框架的束縛，充分考慮了人眼視覺特性及信源特性，通過去除內(nèi)容冗余來實(shí)現(xiàn)數(shù)據(jù)壓縮，可分為基于對象（object-based）和基于語義（semantics-based）兩種，前者屬于中層壓縮編碼，后者屬于高層壓縮編碼。

和此同時(shí)，視頻編碼相關(guān)標(biāo)準(zhǔn)的制定也日臻完善。視頻編碼標(biāo)準(zhǔn)主要由ITU-T和ISO/IEC研發(fā)。ITU-T發(fā)布的視頻標(biāo)準(zhǔn)有 H.261、 H.262、 H.263、 H.263+、H.263++，ISO/IEC公開的MPEG系列標(biāo)準(zhǔn)有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7，并且計(jì)劃公開MPEG-21。

MPEG即Moving Picture Expert Group（運(yùn)動(dòng)圖像專家組），他是專門從事制定多媒體視音頻壓縮編碼標(biāo)準(zhǔn)的國際組織。MPEG系列標(biāo)準(zhǔn)已成為國際上影響最大的多媒體技術(shù)標(biāo)準(zhǔn)，其中 MPEG-1和MPEG-2是采用以仙農(nóng)信息論為基礎(chǔ)的預(yù)測編碼、變換編碼、熵編碼及運(yùn)動(dòng)補(bǔ)償?shù)鹊谝淮鷶?shù)據(jù)壓縮編碼技術(shù)；MPEG-4（ISO/IEC 14496）則是基于第二代壓縮編碼技術(shù)制定的國際標(biāo)準(zhǔn)，他以視聽媒體對象為基本單元，采用基于內(nèi)容的壓縮編碼，以實(shí)現(xiàn)數(shù)字視音頻、圖像合成應(yīng)用及交互式多媒體的集成。MPEG系列標(biāo)準(zhǔn)對VCD、DVD等視聽消費(fèi)電子及數(shù)字電視和高清晰度電視（DTV&&HDTV）、多媒體通信等信息產(chǎn)業(yè) 的發(fā)展產(chǎn)生了巨大而深遠(yuǎn)的影響。

MPEG-4視頻編碼核心思想及關(guān)鍵技術(shù)

核心思想

在MPEG-4制定之前，MPEG-1、MPEG-2、H.261、H.263都是采用第一代壓縮編碼技術(shù)，著眼于圖像信號的統(tǒng)計(jì) 特性來設(shè)計(jì)編碼器，屬于波形編碼的范疇。第一代壓縮編碼方案把視頻序列按時(shí)間先后分為一系列幀，每一幀圖像又分成宏塊以進(jìn)行運(yùn)動(dòng)補(bǔ)償和編碼，這種編碼方案存在以下缺陷：

將圖像固定地分成相同大小的塊，在高壓縮比的情況下會(huì)出現(xiàn)嚴(yán)重的塊效應(yīng)，即馬賽克效應(yīng)；
不能對圖像內(nèi)容進(jìn)行訪問、編輯和回放等*作；
未充分利用人類視覺系統(tǒng)（HVS，Human Visual System）的特性。

MPEG-4則代表了基于模型/對象的第二代壓縮編碼技術(shù)，他充分利用了人眼視覺特性，抓住了圖像信息傳輸?shù)谋举|(zhì)，從輪廓、紋理思路出發(fā)，支持基于視覺內(nèi)容的交互功能，這適應(yīng)了多媒體信息的應(yīng)用由播放型轉(zhuǎn)向基于內(nèi)容的訪問、檢索及*作的發(fā)展趨勢。

AV對象（AVO，Audio Visual Object）是MPEG-4為支持基于內(nèi)容編碼而提出的重要概念。對象是指在一個(gè)場景中能夠訪問和*縱的實(shí)體，對象的劃分可根據(jù)其獨(dú)特的紋理、運(yùn)動(dòng)、形狀、模型和高層語義為依據(jù)。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中圖像幀的概念，而是個(gè)個(gè)視聽場景（AV場景），這些不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或視聽內(nèi)容的表示單元，其基本單位是原始AV對象，他能是自然的或合成的聲音、圖像。原始AV對象具有高效編碼、高效存儲(chǔ)和傳輸及可交互*作的特性，他又可進(jìn)一步組成復(fù)合AV對象。因此MPEG-4標(biāo)準(zhǔn)的基本內(nèi)容就是對AV對象進(jìn)行高效編碼、組織、存儲(chǔ)和傳輸。AV對象的提出，使多媒體通信具有高度交互及高效編碼的能力，AV對象編碼就是MPEG-4的核心編碼技術(shù)。

MPEG-4不僅可提供高壓縮率，同時(shí)也可實(shí)現(xiàn)更好的多媒體內(nèi)容互動(dòng)性及全方位的存取性，他采用開放的編碼系統(tǒng)，可隨時(shí)加入新的編碼算法模塊，同時(shí)也可根據(jù)不同應(yīng)用需求現(xiàn)場設(shè)置解碼器，以支持多種多媒體應(yīng)用。

MPEG-4 采用了新一代視頻編碼技術(shù)，他在視頻編碼發(fā)展史上第一次把編碼對象從圖像幀拓展到具有實(shí)際意義的任意形狀視頻對象，從而實(shí)現(xiàn)了從基于像素的傳統(tǒng)編碼向基于對象和內(nèi)容的現(xiàn)代編碼的轉(zhuǎn)變，因而引領(lǐng)著新一代智能圖像編碼的發(fā)展潮流。

關(guān)鍵技術(shù)

MPEG-4除采用第一代視頻編碼的核心技術(shù)，如變換編碼、運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償、量化、熵編碼外，還提出了一些新的有創(chuàng)見性的關(guān)鍵技術(shù)，并在第一代視頻編碼技術(shù)基礎(chǔ)上進(jìn)行了卓有成效的完善和改進(jìn)。下面重點(diǎn)介紹其中的一些關(guān)鍵技術(shù)。

A. 視頻對象提取技術(shù)

MPEG-4實(shí)現(xiàn)基于內(nèi)容交互的首要任務(wù)就是把視頻/圖像分割成不同對象或把運(yùn)動(dòng)對象從背景中分離出來，然后針對不同對象采用相應(yīng)編碼方法，以實(shí)現(xiàn)高效壓縮。因此視頻對象提取即視頻對象分割，是MPEG-4視頻編碼的關(guān)鍵技術(shù)，也是新一代視頻編碼的研究熱點(diǎn)和難點(diǎn)。

視頻對象分割涉及對視頻內(nèi)容的分析和理解，這和人工智能、圖像理解、模式識(shí)別和神經(jīng)網(wǎng)絡(luò)等學(xué)科有密切聯(lián)系。目前人工智能的發(fā)展還不夠完善，計(jì)算機(jī)還不具有觀察、識(shí)別、理解圖像的能力；同時(shí)關(guān)于計(jì)算機(jī)視覺的研究也表明要實(shí)現(xiàn)正確的圖像分割需要在更高層次上對視頻內(nèi)容進(jìn)行理解。因此，盡管MPEG-4 框架已制定，但至今仍沒有通用的有效方法去根本解決視頻對象分割問題，視頻對象分割被認(rèn)為是個(gè)具有挑戰(zhàn)性的難題，基于語義的分割則更加困難。

目前進(jìn)行視頻對象分割的一般步驟是：先對原始視頻/圖像數(shù)據(jù)進(jìn)行簡化以利于分割，這可通過低通濾波、中值濾波、形態(tài)濾波來完成；然后對視頻/圖像數(shù)據(jù)進(jìn)行特征提取，能是顏色、紋理、運(yùn)動(dòng)、幀差、位移幀差乃至語義等特征；再基于某種均勻性標(biāo)準(zhǔn)來確定分割決策，根據(jù)所提取特征將視頻數(shù) 據(jù)歸類；最后是進(jìn)行相關(guān)后處理，以實(shí)現(xiàn)濾除噪聲及準(zhǔn)確提取邊界。

在視頻分割中基于數(shù)學(xué)形態(tài)理論的分水嶺（watershed）算法被廣泛使用，他又稱水線算法，其基本過程是連續(xù)腐蝕二值圖像，由圖像簡化、標(biāo)記提取、決策、后處理四個(gè)階段構(gòu)成。分水嶺算法具有運(yùn)算簡單、性能優(yōu)良，能夠較好提取運(yùn)動(dòng)對象輪廓、準(zhǔn)確得到運(yùn)動(dòng)物體邊緣的好處。但分割時(shí)需要梯度信息，對噪聲較敏感，且未利用幀間信息，通常會(huì)產(chǎn)生圖像過度分割。

B. VOP視頻編碼技術(shù)

視頻對象平面（VOP，Video Object Plane）是視頻對象（VO）在某一時(shí)刻的采樣，VOP是MPEG-4視頻編碼的核心概念。MPEG-4在編碼過程中針對不同VO采用不同的編碼策略，即對前景VO的壓縮編碼盡可能保留細(xì)節(jié)和平滑；對背景VO則采用高壓縮率的編碼策略，甚至不予傳輸而在解碼端由其他背景拼接而成。這種基于對象的視頻編碼不僅克服了第一代視頻編碼中高壓縮率編碼所產(chǎn)生的方塊效應(yīng)，而且使用戶可和場景交互，從而既提高了壓縮比，又實(shí)現(xiàn)了基于內(nèi)容的交互，為視頻編碼提供了廣闊的發(fā)展空間。

MPEG-4支持任意形狀圖像和視頻的編解碼。對于任意形狀視頻對象。對于極低比特率實(shí)時(shí)應(yīng)用，如可視電話、會(huì)議電視，MPEG-4則采用VLBV（Very Low Bit-rate Video，極低比特率視頻）核進(jìn)行編碼。

傳統(tǒng)的矩形圖在MPEG-4中被看作是VO的一種特例，這正體現(xiàn)了傳統(tǒng)編碼和基于內(nèi)容編碼在MPEG-4中的統(tǒng)一。VO概念的引入，更加符合人腦對視覺信息的處理方式，并使視頻信號的處理方式從數(shù)字化進(jìn)展到智能化，從而提高了視頻信號的交互性和靈活性，使得更廣泛的視頻應(yīng)用及更多的內(nèi)容交互成為可能。因此VOP視頻編碼技術(shù)被譽(yù)為視頻信號處理技術(shù)從數(shù)字化進(jìn)入智能化的初步探索。

C. 視頻編碼可分級性技術(shù)

隨著因特網(wǎng)業(yè)務(wù)的巨大增長，在速率起伏非常大的IP（Internet Protocol）網(wǎng)絡(luò)及具有不同傳輸特性的異構(gòu)網(wǎng)絡(luò)上進(jìn)行視頻傳輸?shù)男枨蠛蛻?yīng)用越來越多。在這種背景下，視頻分級編碼的重要性日益突出，其應(yīng)用非常廣泛，且具有非常高的理論研究及實(shí)際應(yīng)用價(jià)值，因此受到人們的極大關(guān)注。

視頻編碼的可分級性（scalability）是指碼率的可調(diào)整性，即視頻數(shù)據(jù)只壓縮一次，卻能以多個(gè)幀率、空間分辨率或視頻質(zhì)量進(jìn)行解碼，從而可支持多種類型用戶的各種不同應(yīng)用需求。

MPEG-4通過視頻對象層（VOL，Video Object Layer）數(shù)據(jù)結(jié)構(gòu)來實(shí)現(xiàn)分級編碼。MPEG-4提供了兩種基本分級工具，即時(shí)域分級（Temporal Scalability）和空域分級（Spatial Scalability），此外還支持時(shí)域和空域的混合分級。每一種分級編碼都至少有兩層VOL，低層稱為基本層，高層稱為增強(qiáng)層?；緦犹峁┝艘曨l序列的基本信息，增強(qiáng)層提供了視頻序列更高的分辨率和細(xì)節(jié)。

在隨后增補(bǔ)的視頻流應(yīng)用框架中，MPEG-4提出了FGS（Fine Granularity Scalable，精細(xì)可伸縮性）視頻編碼算法及PFGS（Progressive Fine Granularity Scalable，漸進(jìn)精細(xì)可伸縮性）視頻編碼算法。

FGS編碼實(shí)現(xiàn)簡單，可在編碼速率、顯示分辨率、內(nèi)容、解碼復(fù)雜度等方面提供靈活的自適應(yīng)和可擴(kuò)展性，且具有非常強(qiáng)的帶寬自適應(yīng)能力和抗誤碼性能。但還存在編碼效率低于非可擴(kuò)展編碼及接收端視頻質(zhì)量非最優(yōu)兩個(gè)不足。

PFGS則是為改善FGS編碼效率而提出的視頻編碼算法，其基本思想是在增強(qiáng)層圖像編碼時(shí)使用前一幀重建的某個(gè)增強(qiáng)層圖像為參考進(jìn)行運(yùn)動(dòng)補(bǔ)償，以使運(yùn)動(dòng)補(bǔ)償更加有效，從而提高編碼效率。

D. 運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償技術(shù)

MPEG-4采用I-VOP、P-VOP、B-VOP三種幀格式來表征不同的運(yùn)動(dòng)補(bǔ)償類型。他采用了H.263中的半像素搜索（half pixel searching）技術(shù)和重疊運(yùn)動(dòng)補(bǔ)償（overlapped motion compensation)技術(shù)，同時(shí)又引入重復(fù)填充（repetitive padding）技術(shù)和修改的塊（多邊形）匹配（modified block （polygon）matching）技術(shù)以支持任意形狀的VOP區(qū)域。

此外，為提高運(yùn)動(dòng)估計(jì)算法精度，MPEG-4采用了MVFAST（Motion Vector Field Adaptive Search Technique）和改進(jìn)的PMVFAST（Predictive MVFAST）方法用于運(yùn)動(dòng)估計(jì)。對于全局運(yùn)動(dòng)估計(jì)，則采用了基于特征的快速頑健的FFRGMET（Feature-based Fast and Robust Global Motion Estimation Technique）方法。

在MPEG-4視頻編碼中，運(yùn)動(dòng)估計(jì)相當(dāng)耗時(shí)，對編碼的實(shí)時(shí)性影響非常大。因此這里特別強(qiáng)調(diào)快速算法。運(yùn)動(dòng)估計(jì)方法主要有像素遞歸法和塊匹配法兩大類，前者復(fù)雜度非常高，實(shí)際中應(yīng)用較少，后者則在H.263和MPEG中廣泛采用。在塊匹配法中，重點(diǎn)研究塊匹配準(zhǔn)則及搜索方法。目前有三種常用的匹配準(zhǔn)則：

（1）絕對誤差和（SAD, Sum of Absolute Difference）準(zhǔn)則；
（2）均方誤差（MSE, Mean Square Error）準(zhǔn)則；
（3）歸一化互相關(guān)函數(shù)（NCCF, Normalized Cross Correlation Function）準(zhǔn)則。

在上述三種準(zhǔn)則中，SAD準(zhǔn)則具有不需乘法運(yùn)算、實(shí)現(xiàn)簡單方便的好處而使用最多，但應(yīng)清晰匹配準(zhǔn)則的選用對匹配結(jié)果影響不大。

在選取匹配準(zhǔn)則后就應(yīng)進(jìn)行尋找最優(yōu)匹配點(diǎn)的搜索工作。最簡單、最可靠的方法是全搜索法（FS, Full Search），但計(jì)算量太大，不便于實(shí)時(shí)實(shí)現(xiàn)。因此快速搜索法應(yīng)運(yùn)而生，主要有交叉搜索法、二維對數(shù)法和鉆石搜索法，其中鉆石搜索法被MPEG-4校驗(yàn) 模型（VM, Verification Model）所采納，下面周詳介紹。

鉆石搜索（DS, Diamond Search）法以搜索模板形狀而得名，具有簡單、魯棒、高效的特點(diǎn)，是現(xiàn)有性能最優(yōu)的快速搜索算法之一。其基本思想是利用搜索模板的形狀和大小對運(yùn)動(dòng)估計(jì)算法速度及精度產(chǎn)生重要影響的特性。在搜索最優(yōu)匹配點(diǎn)時(shí)，選擇小的搜索模板可能會(huì)陷入局部最優(yōu)，選擇大的搜索模板則可能無法找到最佳處。因此DS算法針對視頻圖像中運(yùn)動(dòng)矢量的基本規(guī)律，選用了兩種形狀大小的搜索模板。

大鉆石搜索模板（LDSP, Large Diamond Search Pattern），包含9個(gè)候選位置；
小鉆石搜索模板（SDSP, Small Diamond Search Pattern），包含5個(gè)候選位置。

DS算法搜索過程如下：開始階段先重復(fù)使用大鉆石搜索模板，直到最佳匹配塊落在大鉆石中心。由于LDSP步長大，因而搜索范圍廣，可實(shí)現(xiàn)粗定位，使搜索不會(huì)陷于局部最小，當(dāng)粗定位結(jié)束后，可認(rèn)為最佳處就在LDSP 周圍8 個(gè)點(diǎn)所圍菱形區(qū)域中。然后再使用小鉆石搜索模板來實(shí)現(xiàn)最佳匹配塊的準(zhǔn)確定位，以不產(chǎn)生較大起伏，從而提高運(yùn)動(dòng)估計(jì)精度。

此外Sprite視頻編碼技術(shù)也在MPEG-4中應(yīng)用廣泛，作為其核心技術(shù)之一。Sprite又稱鑲嵌圖或背景全景圖，是指一個(gè)視頻對象在視頻序列中所有出現(xiàn)部分經(jīng)拼接而成的一幅圖像。利用Sprite能直接重構(gòu)該視頻對象或?qū)ζ溥M(jìn)行預(yù)測補(bǔ)償編碼。

Sprite視頻編碼可視為一種更為先進(jìn)的運(yùn)動(dòng)估計(jì)和補(bǔ)償技術(shù)，他能夠克服基于固定分塊的傳統(tǒng)運(yùn)動(dòng)估計(jì)和補(bǔ)償技術(shù)的不足，MPEG-4正是采用了將傳統(tǒng)分塊編碼技術(shù)和Sprite編碼技術(shù)相結(jié)合的策略。

MPEG4的應(yīng)用領(lǐng)域

憑借著出色的性能，MPEG4技術(shù)目前在多媒體傳輸、多媒體存儲(chǔ)等領(lǐng)域得到了廣泛的應(yīng)用，下面我們就來看看目前在那些領(lǐng)域MPEG4技術(shù)得到了大顯伸手的機(jī)會(huì)。
1、出色的視頻世界
出色的視頻世界是MPEG4技術(shù)應(yīng)用最多也是最為廣大朋友所熟悉的的形式。目前他主要以兩種形式出現(xiàn)，一種是DIVX－MPEG4影碟（國內(nèi)市面上已出現(xiàn)，且D版居多），另一種是網(wǎng)上MPEG4電影。
（1）、我們先來說說DIVX－MPEG4影碟，DIVX視頻編碼技術(shù)實(shí)際上就是MPEG4壓縮技術(shù)，他由微軟MPEG4V3修改而來，使用的是MPEG4壓縮算法，并同時(shí)分離視頻和音頻。他的核心部分便是由DivX對DVD音視頻進(jìn)行壓縮，生成Mpeg4視頻格式文件(也就是AVI格式)。
小提示：筆者也是經(jīng)常被朋友所問到：“我看到的MPEG4電影片段明明是avi（擴(kuò)展名）格式文件，并且視窗系統(tǒng)的媒體播放器也和之關(guān)聯(lián)，但就是無法播放”。其實(shí)， MPEG4并沒有確定必須用什么擴(kuò)展名，他只是一種編碼方法而已。使用avi作為擴(kuò)展名，是一種習(xí)慣性的沿用。
在計(jì)算機(jī)上播放MPEG4影音文件的方法目前有兩種：第一種是用諸如DivxPlayer等專門的播放軟件來播放；第二種播放方法是安裝MPEG4(Divx)插件后，用視窗系統(tǒng)自帶的媒體播放機(jī)來播放。
（2）、隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，互連網(wǎng)上的視頻流應(yīng)用也成為了近幾年的熱門話題。目前，在互連網(wǎng)上比較流行的幾種影像格式包括Quicktime、 RealPlay及微軟的MediaPlayer等。MPEG4技術(shù)出現(xiàn)之后，互連網(wǎng)上又出現(xiàn)了MPEG4格式的電影，不過在觀看前，系統(tǒng)會(huì)提示你下載最新的MPEG4解碼軟件。
小提示：大家平時(shí)在網(wǎng)上可能經(jīng)常會(huì)看見ASF格式的電影，其實(shí)他也是微軟公司研發(fā)出的一種能直接在網(wǎng)上觀看視頻節(jié)目的壓縮格式。使用的也是MPEG4的壓縮算法，但因?yàn)樗且跃W(wǎng)上即時(shí)觀看電影的視頻流格式存在的，所以他的圖像質(zhì)量相對要差一些。
2、低比特率下的多媒體通信，
目前，MPEG4技術(shù)已廣泛的應(yīng)用在如視頻電話、視頻電子郵件、移動(dòng)通信、電子新聞等多媒體通信領(lǐng)域。由于這些應(yīng)用對傳輸速率需求較低，一般在 4.8～64kbit/s之間，分辨率為176×144左右。因此MPEG4技術(shù)完萬能充分的利用網(wǎng)絡(luò)帶寬，通過幀重建技術(shù)壓縮和傳輸數(shù)據(jù)，以最少的數(shù) 據(jù)量獲得最佳的圖像質(zhì)量。
3、實(shí)時(shí)多媒體監(jiān)視。
多媒體監(jiān)視領(lǐng)域原來一直是MPEG1技術(shù)擔(dān)當(dāng)重任，但近些年來，他們也是“城頭變換大王旗”了。由于MPEG4壓縮技術(shù)原本是一種適用在低帶寬下進(jìn)行信息交換的音視頻處理技術(shù)，他的特點(diǎn)是能動(dòng)態(tài)的偵測圖像各個(gè)區(qū)域變化，基于對象的調(diào)整壓縮方法能獲得比MPEG1更大的壓縮比，使壓縮碼流更低。因此，盡管MPEG4技術(shù)一開始并不是專為視頻監(jiān)視壓縮領(lǐng)域而研發(fā)的，但他高清晰度的視頻壓縮，在實(shí)時(shí)多媒體監(jiān)視上，無能是存儲(chǔ)量，傳輸?shù)乃俾剩逦榷急萂PEG1具有更大的優(yōu)勢。
4、基于內(nèi)容存儲(chǔ)和檢索的多媒體系統(tǒng)。
由于 MPEG4在壓縮方法上遠(yuǎn)遠(yuǎn)優(yōu)于MPEG1技術(shù)，更是MJPEG技術(shù)所不能比擬的。經(jīng)過專家的測試表明，在相同清晰度對應(yīng)MPEG1（500Kbits/sec）碼流情況下， MPEG4比MPEG1節(jié)省了2/3的硬盤空間，在一般活動(dòng)場景下也節(jié)省近一般的容量。因此無論是從內(nèi)容存儲(chǔ)量，還是從多媒體文件的檢索速度來說， MPEG4技術(shù)都是多媒體系統(tǒng)應(yīng)用的不二之選。
5、硬件產(chǎn)品上面的應(yīng)用
目前，MPEG4技術(shù)在硬件產(chǎn)品上也已開始逐步得到應(yīng)用。特別是在視頻監(jiān)視、播放上，這項(xiàng)高清晰度，高壓縮的技術(shù)得到了眾多硬件廠商的鐘愛，而市場上支持MPEG4技術(shù)的產(chǎn)品也是種類繁多。下面筆者就列舉一些代表性的產(chǎn) 品，旨在讓讀者了解MPEG4技術(shù)在今天應(yīng)用范圍之廣。
（1）、攝像機(jī)：日本夏普公司推出過應(yīng)用在互連網(wǎng)上的數(shù)字?jǐn)z像機(jī)VN－EZ1。這臺(tái)網(wǎng)絡(luò)攝像機(jī)利用MPEG4格式，可把影像文件壓縮為ASF（高級流格式），用戶只要利用微軟公司的MediaPlayer播放程式，就能直接在計(jì)算機(jī)上進(jìn)行播放。
（2）、播放機(jī)：飛利浦公司于今年八月份推出了一款支持DivX的DVD播放機(jī)DVD737。他能支持DivX 3.11、4.xx、5.xx等MPEG4標(biāo)準(zhǔn)，而對于新標(biāo)準(zhǔn)的支持則能通過升級固件來實(shí)現(xiàn)。
（3）、數(shù)碼相機(jī)：日本京瓷公司在11月中旬發(fā)售其最新款數(shù)碼相機(jī)Finecam L30，這款是采用300萬像素、3倍光學(xué)變焦設(shè)計(jì)的數(shù)碼相機(jī)產(chǎn)品， L30采用了MPEG4格式動(dòng)態(tài)視頻錄制，能讓動(dòng)態(tài)視頻錄制畫面效果比傳統(tǒng)數(shù)碼相機(jī)更出色。
（4）、手機(jī)：在手機(jī)領(lǐng)域，MPEG4技術(shù)更是得到了廣泛的應(yīng)用，各大手機(jī)廠商也都推出了可拍攝MPEG4動(dòng)態(tài)視頻的手機(jī)型號，如西門子ST55、索尼愛立信P900/P908、LG 彩屏G8000等。
(5)、MPEG4數(shù)字硬盤：在今年深圳舉行的安防展覽會(huì)上，研發(fā)數(shù)字錄像監(jiān)視產(chǎn)品的廠家紛紛推出了他們的最新產(chǎn)品，而支持MPEG4的DVR壓縮技術(shù)也成為改展會(huì)上的亮點(diǎn)。
如北京華青紫博科技推出的“E眼神MPEG4數(shù)字視頻王”便是一款基于網(wǎng)絡(luò)環(huán)境的高清晰數(shù)字化監(jiān)視報(bào)警系統(tǒng)。內(nèi)置多畫面處理器，集現(xiàn)場監(jiān)視、監(jiān)聽、多路同時(shí)數(shù)字錄像和回放等多種功能為一體。
其實(shí)，市場上更有許多基于MPEG4技術(shù)的硬件產(chǎn)品，筆者這里就不一一列舉了，不過筆者相信，隨著視頻壓縮技術(shù)的不斷發(fā)展，MPEG4技術(shù)的產(chǎn)品會(huì)越來越多的出目前我們生活，工作中。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： ShaneWu > 《MPEG2》

舉報(bào)/認(rèn)領(lǐng)