日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

視頻壓縮編碼的新發(fā)展-H.264(轉(zhuǎn)貼)-Linux -華夏名網(wǎng)資訊中心 虛擬主機(jī),域名注冊,雙線虛擬主機(jī),服務(wù)器租賃,為7萬用戶提供服務(wù)

 ShaneWu 2009-09-11
  • 視頻壓縮編碼的新發(fā)展-H.264(轉(zhuǎn)貼)
  • 來源:Blog.ChinaUnix.net作者:Blog.ChinaUnix.net 發(fā)布時(shí)間:2008-04-07 13:32:07

  • JVT(Joint Video Team,視頻聯(lián)合工作組)于2001年12月在泰國Pattaya成立。他由ITU-T和ISO兩個(gè)國際標(biāo)準(zhǔn)化組織的有關(guān)視頻編碼的專家聯(lián)合組成。 JVT的工作目標(biāo)是制定一個(gè)新的視頻編碼標(biāo)準(zhǔn),以實(shí)現(xiàn)視頻的高壓縮比、高圖像質(zhì)量、良好的網(wǎng)絡(luò)適應(yīng)性等目標(biāo)。目前JVT的工作已被ITU-T接納,新的視 頻壓縮編碼標(biāo)準(zhǔn)稱為H.264標(biāo)準(zhǔn),該標(biāo)準(zhǔn)也被ISO接納,稱為AVC(Advanced Video Coding)標(biāo)準(zhǔn),是MPEG-4的第10部分。

     

    http://www./ffmpeg/articles/22850.aspx
    H.264標(biāo)準(zhǔn)可分為三檔:
    基本檔次(其簡單版本,應(yīng)用面廣);
    主要檔次(采用了多項(xiàng)提高圖像質(zhì)量和增加壓縮比的技術(shù)措施,可用于SDTV、HDTV和DVD等);
    擴(kuò)展檔次(可用于各種網(wǎng)絡(luò)的視頻流傳輸)。
    H.264 不僅比H.263和MPEG-4節(jié)約了50%的碼率,而且對網(wǎng)絡(luò)傳輸具有更好的支持功能。他引入了面向IP包的編碼機(jī)制,有利于網(wǎng)絡(luò)中的分組傳輸,支持網(wǎng) 絡(luò)中視頻的流媒體傳輸。H.264具有較強(qiáng)的抗誤碼特性,可適應(yīng)丟包率高、干擾嚴(yán)重的無線信道中的視頻傳輸。H.264支持不同網(wǎng)絡(luò)資源下的分級編碼傳 輸,從而獲得平穩(wěn)的圖像質(zhì)量。H.264能適應(yīng)于不同網(wǎng)絡(luò)中的視頻傳輸,網(wǎng)絡(luò)親和性好。
    一、H.264視頻壓縮系統(tǒng)
    H.264標(biāo)準(zhǔn)壓 縮系統(tǒng)由視頻編碼層(VCL)和網(wǎng)絡(luò)提取層(Network Abstraction Layer,NAL)兩部分組成。VCL中包括VCL編碼器和VCL解碼器,主要功能是視頻數(shù)據(jù)壓縮編碼和解碼,他包括運(yùn)動(dòng)補(bǔ)償、變換編碼、熵編碼等壓縮 單元。NAL則用于為VCL提供一個(gè)和網(wǎng)絡(luò)無關(guān)的統(tǒng)一接口,他負(fù)責(zé)對視頻數(shù)據(jù)進(jìn)行封裝打包后使其在網(wǎng)絡(luò)中傳送,他采用統(tǒng)一的數(shù)據(jù)格式,包括單個(gè)字節(jié)的包頭 信息、多個(gè)字節(jié)的視頻數(shù)據(jù)和組幀、邏輯信道信令、定時(shí)信息、序列結(jié)束信號等。包頭中包含存儲(chǔ)標(biāo)志和類型標(biāo)志。存儲(chǔ)標(biāo)志用于指示當(dāng)前數(shù)據(jù)不屬于被參考的幀。 類型標(biāo)志用于指示圖像數(shù)據(jù)的類型。
    VCL能傳輸按當(dāng)前的網(wǎng)絡(luò)情況調(diào)整的編碼參數(shù)。

    二、H.264的特點(diǎn)
    H.264和H.261、H.263相同,也是采用DCT變換編碼加DPCM的差分編碼,即混合編碼結(jié)構(gòu)。同時(shí),H.264在混合編碼的框架下引入了新的編碼方式,提高了編碼效率,更貼近實(shí)際應(yīng)用。
    H.264沒有繁瑣的選項(xiàng),而是力求簡潔的“回歸基本”,他具有比H.263++更好的壓縮性能,又具有適應(yīng)多種信道的能力。
    H.264的應(yīng)用目標(biāo)廣泛,可滿足各種不同速率、不同場合的視頻應(yīng)用,具有較好的抗誤碼和抗丟包的處理能力。
    H.264的基本系統(tǒng)無需使用版權(quán),具有開放的性質(zhì),能非常好地適應(yīng)IP和無線網(wǎng)絡(luò)的使用,這對目前因特網(wǎng)傳輸多媒體信息、移動(dòng)網(wǎng)中傳輸寬帶信息等都具有重要意義。
    盡管H.264編碼基本結(jié)構(gòu)和H.261、H.263是類似的,但他在非常多環(huán)節(jié)做了改進(jìn),現(xiàn)列舉如下。
    1.多種更好的運(yùn)動(dòng)估計(jì)
    高精度估計(jì)
    在H.263中采用了半像素估計(jì),在H.264中則進(jìn)一步采用1/4像素甚至1/8像素的運(yùn)動(dòng)估計(jì)。即真正的運(yùn)動(dòng)矢量的位移可能是以1/4甚至1/8像素為基本單位的。顯然,運(yùn)動(dòng)矢量位移的精度越高,則幀間剩余誤差越小,傳輸碼率越低,即壓縮比越高。
    在H.264中采用了6階FIR濾波器的內(nèi)插獲得1/2像素位置的值。當(dāng)1/2像素值獲得后, 1/4像素值可通過線性內(nèi)插獲得,
    對于4:1:1的視頻格式,亮度信號的1/4 像素精度對應(yīng)于色度部分的1/8像素的運(yùn)動(dòng)矢量,因此需要對色度信號進(jìn)行1/8像素的內(nèi)插運(yùn)算。
    理 論上,如果將運(yùn)動(dòng)補(bǔ)償?shù)木仍黾右槐叮ɡ鐝恼袼鼐忍岣叩?/2像素精度),可有0.5bit/Sample的編碼增益,但實(shí)際驗(yàn)證發(fā)目前運(yùn)動(dòng)矢量精 度超過1/8像素后,系統(tǒng)基本上就沒有明顯增益了,因此,在H.264中,只采用了1/4像素精度的運(yùn)動(dòng)矢量模式,而不是采用1/8像素的精度。
    多宏塊劃分模式估計(jì)
    在H.264的預(yù)測模式中,一個(gè)宏塊(MB)可劃分成7種不同模式的尺寸,這種多模式的靈活、細(xì)微的宏塊劃分,更切合圖像中的實(shí)際運(yùn)動(dòng)物體的形狀,于是,在每個(gè)宏塊中可包含有1、2、4、8或16個(gè)運(yùn)動(dòng)矢量。
    多參數(shù)幀估計(jì)
    在H.264中,可采用多個(gè)參數(shù)幀的運(yùn)動(dòng)估計(jì),即在編碼器的緩存中存有多個(gè)剛剛編碼好的參數(shù)幀,編碼器從其中選擇一個(gè)給出更好的編碼效果的作為參數(shù)幀,并指出是哪個(gè)幀被用于預(yù)測,這樣就可獲得比只用上一個(gè)剛編碼好的幀作為預(yù)測幀的更好的編碼效果。
    2.小尺寸4?4的整數(shù)變換
    視頻壓縮編碼中以往的常用單位為8?8塊。在H.264中卻采用小尺寸的4?4塊,由于變換塊的尺寸變小了,運(yùn)動(dòng)物體的劃分就更為精確。這種情況下,圖像變換過程中的計(jì)算量小了,而且在運(yùn)動(dòng)物體邊緣的銜接誤差也大為減少。
    當(dāng)圖像中有較大面積的平滑區(qū)域時(shí),為了不產(chǎn)生因小尺寸變換帶來的塊間灰度差異,H.264可對幀內(nèi)宏塊亮度數(shù)據(jù)的16個(gè)4?4塊的DCT系數(shù)進(jìn)行第二次4?4塊的變換,對色度數(shù)據(jù)的4個(gè)4?4塊的DC系數(shù)(每個(gè)小塊一個(gè),共4個(gè)DC系數(shù))進(jìn)行2?2塊的變換。
    H.263不僅使圖像變換塊尺寸變小,而且這個(gè)變換是整數(shù)操作,而不是實(shí)數(shù)運(yùn)算,即編碼器和解碼器的變換和反變換的精度相同,沒有“反變換誤差”。
    3.更精確的幀內(nèi)預(yù)測
    在H.264中,每個(gè)4?4塊中的每個(gè)像素都可用17個(gè)最接近先前已編碼的像素的不同加權(quán)和來進(jìn)行幀內(nèi)預(yù)測。
    4.統(tǒng)一的VLC
    H.264中關(guān)于熵編碼有兩種方法。
    統(tǒng)一的VLC(即UVLC:Universal VLC)。UVLC使用一個(gè)相同的碼表進(jìn)行編碼,而解碼器非常容易識(shí)別碼字的前綴,UVLC在發(fā)生比特錯(cuò)誤時(shí)能快速獲得重同步。
    內(nèi)容自適應(yīng)二進(jìn)制算術(shù)編碼(CABAC:Context Adaptive Binary Arithmetic Coding)。其編碼性能比UVLC稍好,但復(fù)雜度較高。

    三、性能優(yōu)勢
    H.264和MPEG-4、H.263++編碼性能對比采用了以下6個(gè)測試速率:32kbit/s、 10F/s和QCIF;64kbit/s、15F/s和QCIF;128kbit/s、15F/s和CIF;256kbit/s、15F/s和QCIF; 512kbit/s、30F/s和CIF;1024kbit/s、30F/s和CIF。測試結(jié)果標(biāo)明,H.264具有比MPEG和H.263++更優(yōu)秀的 PSNR性能。
    H.264的 PSNR比MPEG-4平均要高2dB,比H.263++平均要高3dB。

    四、新的快速運(yùn)動(dòng)估值算法
    新的快速運(yùn)動(dòng)估值算法UMHexagonS(中國專利)是一種運(yùn)算量相對于H.264中原有的快 速全搜索算法可節(jié)約90%以上的新算法,全名叫“非對稱十字型多層次六邊形格點(diǎn)搜索算法”(Unsymmetrical-Cross Muti-Hexagon Search)”,這是一種整像素運(yùn)動(dòng)估值算法。由于他在高碼率大運(yùn)動(dòng)圖像序列編碼時(shí),在保持較好率失真性能的條件下,運(yùn)算量十分低,已被H.264標(biāo)準(zhǔn) 正式采納。

    ITU和 ISO合作發(fā)展的 H.264(MPEG-4 Part 10)有可能被廣播、通信和存儲(chǔ)媒體(CD DVD)接受成為統(tǒng)一的標(biāo)準(zhǔn),最有可能成為寬帶交互新媒體的標(biāo)準(zhǔn)。我國的信源編碼標(biāo)準(zhǔn)尚未制定,密切關(guān)注H.264的發(fā)展,制定我國的信源編碼標(biāo)準(zhǔn)的工作 正在加緊進(jìn)行。
    H264標(biāo)準(zhǔn)使運(yùn)動(dòng)圖像壓縮技術(shù)上升到了一個(gè)更高的階段,在較低帶寬上提供高質(zhì)量的圖像傳輸是H.264的應(yīng)用亮點(diǎn)。H.264的推廣應(yīng)用對視頻終端、網(wǎng)守、網(wǎng)關(guān)、MCU等系統(tǒng)的需求較高,將有力地推動(dòng)視頻會(huì)議軟、硬件設(shè)備在各個(gè)方面的不斷完善。

    MPEG4視頻壓縮編碼技術(shù)詳解
    MPEG全稱是Moving Pictures Experts Group,他是“動(dòng)態(tài)圖象專家組”的英文縮寫,該專家組成立于1988年,致力于運(yùn)動(dòng)圖像及其伴音的壓縮編碼標(biāo)準(zhǔn)化工作,原先他們打算研發(fā)MPEG1、 MPEG2、MPEG3和MPEG4四個(gè)版本,以適用于不同帶寬和數(shù)字影像質(zhì)量的需求。
    目前,MPEG1技術(shù)被廣泛的應(yīng)用于VCD,而MPEG2 標(biāo)準(zhǔn)則用于廣播電視和DVD等。MPEG3最初是為HDTV研發(fā)的編碼和壓縮標(biāo)準(zhǔn),但由于MPEG2的出色性能表現(xiàn), MPEG3只能是死于襁褓了。而我們今天要談?wù)摰闹鹘??MPEG4于1999年初正式成為國際標(biāo)準(zhǔn)。他是個(gè)適用于低傳輸速率應(yīng)用的方案。和MPEG1 和MPEG2相比,MPEG4更加注重多媒體系統(tǒng)的交互性和靈活性。下面就讓我們一起進(jìn)入多彩的MPEG4世界。
    MPEG4的技術(shù)特點(diǎn)

    MPEG1、MPEG2技術(shù)當(dāng)初制定時(shí),他們定位的標(biāo)準(zhǔn)均為高層媒體表示和結(jié)構(gòu),但隨著計(jì)算機(jī)軟件及網(wǎng)絡(luò)技術(shù)的快速發(fā)展, MPEG1.MPEG2技術(shù)的弊端就顯示出來了:交互性及靈活性較低,壓縮的多媒體文件體積過于龐大,難以實(shí)現(xiàn)網(wǎng)絡(luò)的實(shí)時(shí)傳播。而MPEG4技術(shù)的標(biāo)準(zhǔn)是 對運(yùn)動(dòng)圖像中的內(nèi)容進(jìn)行編碼,其具體的編碼對象就是圖像中的音頻和視頻,術(shù)語稱為“AV對象”,而連續(xù)的AV對象組合在一起又能形成AV場景。因此, MPEG4標(biāo)準(zhǔn)就是圍繞著AV對象的編碼、存儲(chǔ)、傳輸和組合而制定的,高效率地編碼、組織、存儲(chǔ)、傳輸AV對象是MPEG4標(biāo)準(zhǔn)的基本內(nèi)容。
    在視頻編碼方面,MPEG4支持對自然和合成的視覺對象的編碼。(合成的視覺對象包括2D、3D動(dòng)畫和人面部表情動(dòng)畫等)。在音頻編碼上,MPEG4能在一組編碼工具支持下,對語音、音樂等自然聲音對象和具有回響、空間方位感的合成聲音對象進(jìn)行音頻編碼。
    由 于MPEG4只處理圖像幀和幀之間有差異的元素,而舍棄相同的元素,因此大大減少了合成多媒體文件的體積。應(yīng)用MPEG4技術(shù)的影音文件最顯著特點(diǎn)就是壓 縮率高且成像清晰,一般來說,一小時(shí)的影像能被壓縮為350M左右的數(shù)據(jù),而一部高清晰度的DVD電影, 能壓縮成兩張甚至一張650M CD光碟來存儲(chǔ)。對廣大的“平民”計(jì)算機(jī)用戶來說, 這就意味著, 你不必購置 DVD-ROM就能欣賞近似DVD質(zhì)量的高品質(zhì)影像。而且采用MPEG4編碼技術(shù)的影片,對機(jī)器硬件設(shè)置的需求非常之低,300MHZ 以上CPU,64M的內(nèi)存和一個(gè) 8M顯存的顯卡就能流暢的播放。在播放軟件方面,他需求也非常寬松,你只需要安裝一個(gè) 500K左右的 MPEG4 編碼驅(qū)動(dòng)后,用 WINDOWS 自帶的媒體播放器就能流暢的播放了(下面我們會(huì)具體講到)。

    視頻編碼研究和MPEG標(biāo)準(zhǔn)演進(jìn)

    人類獲取的信息中70%來自于視覺,視頻信息在多媒體信息中占有重要地位;同時(shí)視頻數(shù)據(jù)冗余度最大,經(jīng)壓縮處理后的視頻質(zhì)量高低是決定多媒體服務(wù)質(zhì)量的關(guān)鍵因素。因此數(shù)字視頻技術(shù)是多媒體應(yīng)用的核心技術(shù),對視頻編碼的研究已成為信息技術(shù)領(lǐng)域的熱門話題。

    視頻編碼的研究課題主要有數(shù)據(jù)壓縮比、壓縮/解壓速度及快速實(shí)現(xiàn)算法三方面內(nèi)容。以壓縮/解壓后數(shù)據(jù)和壓縮前原始數(shù)據(jù)是否完全一致作為衡量標(biāo)準(zhǔn),可將數(shù)據(jù)壓縮劃分為無失真壓縮(即可逆壓縮)和有失真壓縮(即不可逆壓縮)兩類。

    傳統(tǒng)壓縮編碼建立在仙農(nóng)信息論基礎(chǔ)之上的,以經(jīng)典集合論為工具,用概率統(tǒng)計(jì)模型來描述信源,其壓縮思想基于數(shù)據(jù)統(tǒng)計(jì),因此只能去除數(shù)據(jù)冗余,屬于低層壓縮編碼的范疇。

    伴隨著視頻編碼相關(guān)學(xué)科及新興學(xué)科的迅速發(fā)展,新一代數(shù)據(jù)壓縮技術(shù)不斷誕生并日益成熟,其編碼思想由基于像素和像素塊轉(zhuǎn)變?yōu)榛趦?nèi) 容 (content-based)。他突破了仙農(nóng)信息論框架的束縛,充分考慮了人眼視覺特性及信源特性,通過去除內(nèi)容冗余來實(shí)現(xiàn)數(shù)據(jù)壓縮,可分為基于對象 (object-based)和基于語義(semantics-based)兩種,前者屬于中層壓縮編碼,后者屬于高層壓縮編碼。

    和此同時(shí),視頻編碼相關(guān)標(biāo)準(zhǔn)的制定也日臻完善。視頻編碼標(biāo)準(zhǔn)主要由ITU-T和ISO/IEC研發(fā)。ITU-T發(fā)布的視頻標(biāo)準(zhǔn)有 H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公開的MPEG系列標(biāo)準(zhǔn)有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,并且計(jì)劃公開MPEG-21。

    MPEG即Moving Picture Expert Group(運(yùn)動(dòng)圖像專家組),他是專門從事制定多媒體視音頻壓縮編碼標(biāo)準(zhǔn)的國際組織。MPEG系列標(biāo)準(zhǔn)已成為國際上影響最大的多媒體技術(shù)標(biāo)準(zhǔn),其中 MPEG-1和MPEG-2是采用以仙農(nóng)信息論為基礎(chǔ)的預(yù)測編碼、變換編碼、熵編碼及運(yùn)動(dòng)補(bǔ)償?shù)鹊谝淮鷶?shù)據(jù)壓縮編碼技術(shù);MPEG-4(ISO/IEC 14496)則是基于第二代壓縮編碼技術(shù)制定的國際標(biāo)準(zhǔn),他以視聽媒體對象為基本單元,采用基于內(nèi)容的壓縮編碼,以實(shí)現(xiàn)數(shù)字視音頻、圖像合成應(yīng)用及交互式 多媒體的集成。MPEG系列標(biāo)準(zhǔn)對VCD、DVD等視聽消費(fèi)電子及數(shù)字電視和高清晰度電視(DTV&&HDTV)、多媒體通信等信息產(chǎn)業(yè) 的發(fā)展產(chǎn)生了巨大而深遠(yuǎn)的影響。

    MPEG-4視頻編碼核心思想及關(guān)鍵技術(shù)


    核心思想

    在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代壓縮編碼技術(shù),著眼于圖像信號的統(tǒng)計(jì) 特性來設(shè)計(jì)編碼器,屬于波形編碼的范疇。第一代壓縮編碼方案把視頻序列按時(shí)間先后分為一系列幀,每一幀圖像又分成宏塊以進(jìn)行運(yùn)動(dòng)補(bǔ)償和編碼,這種編碼方案 存在以下缺陷:

    將圖像固定地分成相同大小的塊,在高壓縮比的情況下會(huì)出現(xiàn)嚴(yán)重的塊效應(yīng),即馬賽克效應(yīng);
    不能對圖像內(nèi)容進(jìn)行訪問、編輯和回放等*作;
    未充分利用人類視覺系統(tǒng)(HVS,Human Visual System)的特性。

    MPEG-4則代表了基于模型/對象的第二代壓縮編碼技術(shù),他充分利用了人眼視覺特性,抓住了圖像信息傳輸?shù)谋举|(zhì),從輪廓、紋理思路出發(fā),支持基于視覺內(nèi)容的交互功能,這適應(yīng)了多媒體信息的應(yīng)用由播放型轉(zhuǎn)向基于內(nèi)容的訪問、檢索及*作的發(fā)展趨勢。

    AV對象(AVO,Audio Visual Object)是MPEG-4為支持基于內(nèi)容編碼而提出的重要概念。對象是指在一個(gè)場景中能夠訪問和*縱的實(shí)體,對象的劃分可根據(jù)其獨(dú)特的紋理、運(yùn)動(dòng)、形 狀、模型和高層語義為依據(jù)。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中圖像幀的概念,而是個(gè)個(gè)視聽場景(AV場景),這些 不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或視聽內(nèi)容的表示單元,其基本單位是原始AV對象,他能是自然的或合成的聲音、圖像。原 始AV對象具有高效編碼、高效存儲(chǔ)和傳輸及可交互*作的特性,他又可進(jìn)一步組成復(fù)合AV對象。因此MPEG-4標(biāo)準(zhǔn)的基本內(nèi)容就是對AV對象進(jìn)行高效編 碼、組織、存儲(chǔ)和傳輸。AV對象的提出,使多媒體通信具有高度交互及高效編碼的能力,AV對象編碼就是MPEG-4的核心編碼技術(shù)。

    MPEG-4不僅可提供高壓縮率,同時(shí)也可實(shí)現(xiàn)更好的多媒體內(nèi)容互動(dòng)性及全方位的存取性,他采用開放的編碼系統(tǒng),可隨時(shí)加入新的編碼算法模塊,同時(shí)也可根據(jù)不同應(yīng)用需求現(xiàn)場設(shè)置解碼器,以支持多種多媒體應(yīng)用。

    MPEG-4 采用了新一代視頻編碼技術(shù),他在視頻編碼發(fā)展史上第一次把編碼對象從圖像幀拓展到具有實(shí)際意義的任意形狀視頻對象,從而實(shí)現(xiàn)了從基于像素的傳統(tǒng)編碼向基于對象和內(nèi)容的現(xiàn)代編碼的轉(zhuǎn)變,因而引領(lǐng)著新一代智能圖像編碼的發(fā)展潮流。

    關(guān)鍵技術(shù)

    MPEG-4除采用第一代視頻編碼的核心技術(shù),如變換編碼、運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償、量化、熵編碼外,還提出了一些新的有創(chuàng)見性的關(guān)鍵技術(shù),并在第一代視頻編碼技術(shù)基礎(chǔ)上進(jìn)行了卓有成效的完善和改進(jìn)。下面重點(diǎn)介紹其中的一些關(guān)鍵技術(shù)。

    A. 視頻對象提取技術(shù)

    MPEG-4實(shí)現(xiàn)基于內(nèi)容交互的首要任務(wù)就是把視頻/圖像分割成不同對象或把運(yùn)動(dòng)對象從背景中分離出來,然后針對不同對象采用相應(yīng)編碼方法,以實(shí)現(xiàn)高效壓縮。因此視頻對象提取即視頻對象分割,是MPEG-4視頻編碼的關(guān)鍵技術(shù),也是新一代視頻編碼的研究熱點(diǎn)和難點(diǎn)。

    視頻對象分割涉及對視頻內(nèi)容的分析和理解,這和人工智能、圖像理解、模式識(shí)別和神經(jīng)網(wǎng)絡(luò)等學(xué)科有密切聯(lián)系。目前人工智能的發(fā)展還不 夠完善,計(jì)算機(jī)還不具有觀察、識(shí)別、理解圖像的能力;同時(shí)關(guān)于計(jì)算機(jī)視覺的研究也表明要實(shí)現(xiàn)正確的圖像分割需要在更高層次上對視頻內(nèi)容進(jìn)行理解。因此,盡 管MPEG-4 框架已制定,但至今仍沒有通用的有效方法去根本解決視頻對象分割問題,視頻對象分割被認(rèn)為是個(gè)具有挑戰(zhàn)性的難題,基于語義的分割則更加困難。

    目前進(jìn)行視頻對象分割的一般步驟是:先對原始視頻/圖像數(shù)據(jù)進(jìn)行簡化以利于分割,這可通過低通濾波、中值濾波、形態(tài)濾波來完成;然 后對視頻/圖像數(shù)據(jù)進(jìn)行特征提取,能是顏色、紋理、運(yùn)動(dòng)、幀差、位移幀差乃至語義等特征;再基于某種均勻性標(biāo)準(zhǔn)來確定分割決策,根據(jù)所提取特征將視頻數(shù) 據(jù)歸類;最后是進(jìn)行相關(guān)后處理,以實(shí)現(xiàn)濾除噪聲及準(zhǔn)確提取邊界。

    在視頻分割中基于數(shù)學(xué)形態(tài)理論的分水嶺(watershed)算法被廣泛使用,他又稱水線算法,其基本過程是連續(xù)腐蝕二值圖像,由 圖像簡化、標(biāo)記提取、決策、后處理四個(gè)階段構(gòu)成。分水嶺算法具有運(yùn)算簡單、性能優(yōu)良,能夠較好提取運(yùn)動(dòng)對象輪廓、準(zhǔn)確得到運(yùn)動(dòng)物體邊緣的好處。但分割時(shí)需 要梯度信息,對噪聲較敏感,且未利用幀間信息,通常會(huì)產(chǎn)生圖像過度分割。

    B. VOP視頻編碼技術(shù)

    視頻對象平面(VOP,Video Object Plane)是視頻對象(VO)在某一時(shí)刻的采樣,VOP是MPEG-4視頻編碼的核心概念。MPEG-4在編碼過程中針對不同VO采用不同的編碼策略, 即對前景VO的壓縮編碼盡可能保留細(xì)節(jié)和平滑;對背景VO則采用高壓縮率的編碼策略,甚至不予傳輸而在解碼端由其他背景拼接而成。這種基于對象的視頻編碼 不僅克服了第一代視頻編碼中高壓縮率編碼所產(chǎn)生的方塊效應(yīng),而且使用戶可和場景交互,從而既提高了壓縮比,又實(shí)現(xiàn)了基于內(nèi)容的交互,為視頻編碼提供了廣闊 的發(fā)展空間。

    MPEG-4支持任意形狀圖像和視頻的編解碼。對于任意形狀視頻對象。對于極低比特率實(shí)時(shí)應(yīng)用,如可視電話、會(huì)議電視,MPEG-4則采用VLBV(Very Low Bit-rate Video,極低比特率視頻)核進(jìn)行編碼。

    傳統(tǒng)的矩形圖在MPEG-4中被看作是VO的一種特例,這正體現(xiàn)了傳統(tǒng)編碼和基于內(nèi)容編碼在MPEG-4中的統(tǒng)一。VO概念的引 入,更加符合人腦對視覺信息的處理方式,并使視頻信號的處理方式從數(shù)字化進(jìn)展到智能化,從而提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應(yīng)用及更多 的內(nèi)容交互成為可能。因此VOP視頻編碼技術(shù)被譽(yù)為視頻信號處理技術(shù)從數(shù)字化進(jìn)入智能化的初步探索。

    C. 視頻編碼可分級性技術(shù)

    隨著因特網(wǎng)業(yè)務(wù)的巨大增長,在速率起伏非常大的IP(Internet Protocol)網(wǎng)絡(luò)及具有不同傳輸特性的異構(gòu)網(wǎng)絡(luò)上進(jìn)行視頻傳輸?shù)男枨蠛蛻?yīng)用越來越多。在這種背景下,視頻分級編碼的重要性日益突出,其應(yīng)用非常廣 泛,且具有非常高的理論研究及實(shí)際應(yīng)用價(jià)值,因此受到人們的極大關(guān)注。

    視頻編碼的可分級性(scalability)是指碼率的可調(diào)整性,即視頻數(shù)據(jù)只壓縮一次,卻能以多個(gè)幀率、空間分辨率或視頻質(zhì)量進(jìn)行解碼,從而可支持多種類型用戶的各種不同應(yīng)用需求。

    MPEG-4通過視頻對象層(VOL,Video Object Layer)數(shù)據(jù)結(jié)構(gòu)來實(shí)現(xiàn)分級編碼。MPEG-4提供了兩種基本分級工具,即時(shí)域分級(Temporal Scalability)和空域分級(Spatial Scalability),此外還支持時(shí)域和空域的混合分級。每一種分級編碼都至少有兩層VOL,低層稱為基本層,高層稱為增強(qiáng)層?;緦犹峁┝艘曨l序列 的基本信息,增強(qiáng)層提供了視頻序列更高的分辨率和細(xì)節(jié)。

    在隨后增補(bǔ)的視頻流應(yīng)用框架中,MPEG-4提出了FGS(Fine Granularity Scalable,精細(xì)可伸縮性)視頻編碼算法及PFGS(Progressive Fine Granularity Scalable,漸進(jìn)精細(xì)可伸縮性)視頻編碼算法。

    FGS編碼實(shí)現(xiàn)簡單,可在編碼速率、顯示分辨率、內(nèi)容、解碼復(fù)雜度等方面提供靈活的自適應(yīng)和可擴(kuò)展性,且具有非常強(qiáng)的帶寬自適應(yīng)能力和抗誤碼性能。但還存在編碼效率低于非可擴(kuò)展編碼及接收端視頻質(zhì)量非最優(yōu)兩個(gè)不足。

    PFGS則是為改善FGS編碼效率而提出的視頻編碼算法,其基本思想是在增強(qiáng)層圖像編碼時(shí)使用前一幀重建的某個(gè)增強(qiáng)層圖像為參考進(jìn)行運(yùn)動(dòng)補(bǔ)償,以使運(yùn)動(dòng)補(bǔ)償更加有效,從而提高編碼效率。

    D. 運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償技術(shù)

    MPEG-4采用I-VOP、P-VOP、B-VOP三種幀格式來表征不同的運(yùn)動(dòng)補(bǔ)償類型。他采用了H.263中的半像素搜索 (half pixel searching)技術(shù)和重疊運(yùn)動(dòng)補(bǔ)償(overlapped motion compensation)技術(shù),同時(shí)又引入重復(fù)填充(repetitive padding)技術(shù)和修改的塊(多邊形)匹配(modified block (polygon)matching)技術(shù)以支持任意形狀的VOP區(qū)域。

    此外,為提高運(yùn)動(dòng)估計(jì)算法精度,MPEG-4采用了MVFAST(Motion Vector Field Adaptive Search Technique)和改進(jìn)的PMVFAST(Predictive MVFAST)方法用于運(yùn)動(dòng)估計(jì)。對于全局運(yùn)動(dòng)估計(jì),則采用了基于特征的快速頑健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。

    在MPEG-4視頻編碼中,運(yùn)動(dòng)估計(jì)相當(dāng)耗時(shí),對編碼的實(shí)時(shí)性影響非常大。因此這里特別強(qiáng)調(diào)快速算法。運(yùn)動(dòng)估計(jì)方法主要有像素遞歸法 和塊匹配法兩大類,前者復(fù)雜度非常高,實(shí)際中應(yīng)用較少,后者則在H.263和MPEG中廣泛采用。在塊匹配法中,重點(diǎn)研究塊匹配準(zhǔn)則及搜索方法。目前有三種 常用的匹配準(zhǔn)則:

    (1)絕對誤差和(SAD, Sum of Absolute Difference)準(zhǔn)則;
    (2)均方誤差(MSE, Mean Square Error)準(zhǔn)則;
    (3)歸一化互相關(guān)函數(shù)(NCCF, Normalized Cross Correlation Function)準(zhǔn)則。

    在上述三種準(zhǔn)則中,SAD準(zhǔn)則具有不需乘法運(yùn)算、實(shí)現(xiàn)簡單方便的好處而使用最多,但應(yīng)清晰匹配準(zhǔn)則的選用對匹配結(jié)果影響不大。

    在選取匹配準(zhǔn)則后就應(yīng)進(jìn)行尋找最優(yōu)匹配點(diǎn)的搜索工作。最簡單、最可靠的方法是全搜索法(FS, Full Search),但計(jì)算量太大,不便于實(shí)時(shí)實(shí)現(xiàn)。因此快速搜索法應(yīng)運(yùn)而生,主要有交叉搜索法、二維對數(shù)法和鉆石搜索法,其中鉆石搜索法被MPEG-4校驗(yàn) 模型(VM, Verification Model)所采納,下面周詳介紹。

    鉆石搜索(DS, Diamond Search)法以搜索模板形狀而得名,具有簡單、魯棒、高效的特點(diǎn),是現(xiàn)有性能最優(yōu)的快速搜索算法之一。其基本思想是利用搜索模板的形狀和大小對運(yùn)動(dòng)估 計(jì)算法速度及精度產(chǎn)生重要影響的特性。在搜索最優(yōu)匹配點(diǎn)時(shí),選擇小的搜索模板可能會(huì)陷入局部最優(yōu),選擇大的搜索模板則可能無法找到最佳處。因此DS算法針 對視頻圖像中運(yùn)動(dòng)矢量的基本規(guī)律,選用了兩種形狀大小的搜索模板。

    大鉆石搜索模板(LDSP, Large Diamond Search Pattern),包含9個(gè)候選位置;
    小鉆石搜索模板(SDSP, Small Diamond Search Pattern),包含5個(gè)候選位置。

    DS算法搜索過程如下:開始階段先重復(fù)使用大鉆石搜索模板,直到最佳匹配塊落在大鉆石中心。由于LDSP步長大,因而搜索范圍廣, 可實(shí)現(xiàn)粗定位,使搜索不會(huì)陷于局部最小,當(dāng)粗定位結(jié)束后,可認(rèn)為最佳處就在LDSP 周圍8 個(gè)點(diǎn)所圍菱形區(qū)域中。然后再使用小鉆石搜索模板來實(shí)現(xiàn)最佳匹配塊的準(zhǔn)確定位,以不產(chǎn)生較大起伏,從而提高運(yùn)動(dòng)估計(jì)精度。

    此外Sprite視頻編碼技術(shù)也在MPEG-4中應(yīng)用廣泛,作為其核心技術(shù)之一。Sprite又稱鑲嵌圖或背景全景圖,是指一個(gè)視頻對象在視頻序列中所有出現(xiàn)部分經(jīng)拼接而成的一幅圖像。利用Sprite能直接重構(gòu)該視頻對象或?qū)ζ溥M(jìn)行預(yù)測補(bǔ)償編碼。

    Sprite視頻編碼可視為一種更為先進(jìn)的運(yùn)動(dòng)估計(jì)和補(bǔ)償技術(shù),他能夠克服基于固定分塊的傳統(tǒng)運(yùn)動(dòng)估計(jì)和補(bǔ)償技術(shù)的不足,MPEG-4正是采用了將傳統(tǒng)分塊編碼技術(shù)和Sprite編碼技術(shù)相結(jié)合的策略。


    MPEG4的應(yīng)用領(lǐng)域

    憑借著出色的性能,MPEG4技術(shù)目前在多媒體傳輸、多媒體存儲(chǔ)等領(lǐng)域得到了廣泛的應(yīng)用,下面我們就來看看目前在那些領(lǐng)域MPEG4技術(shù)得到了大顯伸手的機(jī)會(huì)。
    1、出色的視頻世界
    出色的視頻世界是MPEG4技術(shù)應(yīng)用最多也是最為廣大朋友所熟悉的的形式。目前他主要以兩種形式出現(xiàn),一種是DIVX-MPEG4影碟(國內(nèi)市面上已出現(xiàn),且D版居多),另一種是網(wǎng)上MPEG4電影。
    (1)、 我們先來說說DIVX-MPEG4影碟,DIVX視頻編碼技術(shù)實(shí)際上就是MPEG4壓縮技術(shù),他由微軟MPEG4V3修改而來,使用的是MPEG4壓縮算 法,并同時(shí)分離視頻和音頻。他的核心部分便是由DivX對DVD音視頻進(jìn)行壓縮,生成Mpeg4視頻格式文件(也就是AVI格式)。
    小提示:筆者 也是經(jīng)常被朋友所問到:“我看到的MPEG4電影片段明明是avi(擴(kuò)展名)格式文件,并且視窗系統(tǒng)的媒體播放器也和之關(guān)聯(lián),但就是無法播放”。其 實(shí), MPEG4并沒有確定必須用什么擴(kuò)展名,他只是一種編碼方法而已。使用avi作為擴(kuò)展名,是一種習(xí)慣性的沿用。
    在計(jì)算機(jī)上播放MPEG4影音文件的方法目前有兩種:第一種是用諸如DivxPlayer等專門的播放軟件來播放;第二種播放方法是安裝MPEG4(Divx)插件后,用視窗系統(tǒng)自帶的媒體播放機(jī)來播放。
    (2)、 隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互連網(wǎng)上的視頻流應(yīng)用也成為了近幾年的熱門話題。目前,在互連網(wǎng)上比較流行的幾種影像格式包括Quicktime、 RealPlay及微軟的MediaPlayer等。MPEG4技術(shù)出現(xiàn)之后,互連網(wǎng)上又出現(xiàn)了MPEG4格式的電影,不過在觀看前,系統(tǒng)會(huì)提示你下載 最新的MPEG4解碼軟件。
    小提示:大家平時(shí)在網(wǎng)上可能經(jīng)常會(huì)看見ASF格式的電影,其實(shí)他也是微軟公司研發(fā)出的一種能直接在網(wǎng)上觀看視頻節(jié)目的壓縮格式。使用的也是MPEG4的壓縮算法,但因?yàn)樗且跃W(wǎng)上即時(shí)觀看電影的視頻流格式存在的,所以他的圖像質(zhì)量相對要差一些。
    2、低比特率下的多媒體通信,
    目 前,MPEG4技術(shù)已廣泛的應(yīng)用在如視頻電話、視頻電子郵件、移動(dòng)通信、電子新聞等多媒體通信領(lǐng)域。由于這些應(yīng)用對傳輸速率需求較低,一般在 4.8~64kbit/s之間,分辨率為176×144左右。因此MPEG4技術(shù)完萬能充分的利用網(wǎng)絡(luò)帶寬,通過幀重建技術(shù)壓縮和傳輸數(shù)據(jù),以最少的數(shù) 據(jù)量獲得最佳的圖像質(zhì)量。
    3、實(shí)時(shí)多媒體監(jiān)視。
    多媒體監(jiān)視領(lǐng)域原來一直是MPEG1技術(shù)擔(dān)當(dāng)重任,但近些年來,他們也是“城頭變換大王 旗”了。由于MPEG4壓縮技術(shù)原本是一種適用在低帶寬下進(jìn)行信息交換的音視頻處理技術(shù),他的特點(diǎn)是能動(dòng)態(tài)的偵測圖像各個(gè)區(qū)域變化,基于對象的調(diào)整壓縮 方法能獲得比MPEG1更大的壓縮比,使壓縮碼流更低。因此,盡管MPEG4技術(shù)一開始并不是專為視頻監(jiān)視壓縮領(lǐng)域而研發(fā)的,但他高清晰度的視頻壓縮, 在實(shí)時(shí)多媒體監(jiān)視上,無能是存儲(chǔ)量,傳輸?shù)乃俾剩逦榷急萂PEG1具有更大的優(yōu)勢。
    4、基于內(nèi)容存儲(chǔ)和檢索的多媒體系統(tǒng)。
    由于 MPEG4在壓縮方法上遠(yuǎn)遠(yuǎn)優(yōu)于MPEG1技術(shù),更是MJPEG技術(shù)所不能比擬的。 經(jīng)過專家的測試表明,在相同清晰度對應(yīng)MPEG1(500Kbits/sec)碼流情況下, MPEG4比MPEG1節(jié)省了2/3的硬盤空間,在一般活動(dòng)場景下也節(jié)省近一般的容量。因此無論是從內(nèi)容存儲(chǔ)量,還是從多媒體文件的檢索速度來說, MPEG4技術(shù)都是多媒體系統(tǒng)應(yīng)用的不二之選。
    5、硬件產(chǎn)品上面的應(yīng)用
    目前,MPEG4技術(shù)在硬件產(chǎn)品上也已開始逐步得到應(yīng)用。特別是在 視頻監(jiān)視、播放上,這項(xiàng)高清晰度,高壓縮的技術(shù)得到了眾多硬件廠商的鐘愛,而市場上支持MPEG4技術(shù)的產(chǎn)品也是種類繁多。下面筆者就列舉一些代表性的產(chǎn) 品,旨在讓讀者了解MPEG4技術(shù)在今天應(yīng)用范圍之廣。
    (1)、攝像機(jī):日本夏普公司推出過應(yīng)用在互連網(wǎng)上的數(shù)字?jǐn)z像機(jī)VN-EZ1。這臺(tái)網(wǎng)絡(luò)攝像機(jī)利用MPEG4格式,可把影像文件壓縮為ASF(高級流格式),用戶只要利用微軟公司的MediaPlayer播放程式,就能直接在計(jì)算機(jī)上進(jìn)行播放。
    (2)、播放機(jī):飛利浦公司于今年八月份推出了一款支持DivX的DVD播放機(jī)DVD737。他能支持DivX 3.11、4.xx、5.xx等MPEG4標(biāo)準(zhǔn),而對于新標(biāo)準(zhǔn)的支持則能通過升級固件來實(shí)現(xiàn)。
    (3)、數(shù)碼相機(jī):日本京瓷公司在11月中旬發(fā)售其最新款數(shù)碼相機(jī)Finecam L30,這款是采用300萬像素、3倍光學(xué)變焦設(shè)計(jì)的數(shù)碼相機(jī)產(chǎn)品, L30采用了MPEG4格式動(dòng)態(tài)視頻錄制,能讓動(dòng)態(tài)視頻錄制畫面效果比傳統(tǒng)數(shù)碼相機(jī)更出色。
    (4)、手機(jī):在手機(jī)領(lǐng)域,MPEG4技術(shù)更是得到了廣泛的應(yīng)用,各大手機(jī)廠商也都推出了可拍攝MPEG4動(dòng)態(tài)視頻的手機(jī)型號,如西門子ST55、索尼愛立信P900/P908、LG 彩屏G8000等。
    (5)、MPEG4數(shù)字硬盤:在今年深圳舉行的安防展覽會(huì)上,研發(fā)數(shù)字錄像監(jiān)視產(chǎn)品的廠家紛紛推出了他們的最新產(chǎn)品,而支持MPEG4的DVR壓縮技術(shù)也成為改展會(huì)上的亮點(diǎn)。
    如北京華青紫博科技推出的“E眼神MPEG4數(shù)字視頻王”便是一款基于網(wǎng)絡(luò)環(huán)境的高清晰數(shù)字化監(jiān)視報(bào)警系統(tǒng)。內(nèi)置多畫面處理器,集現(xiàn)場監(jiān)視、監(jiān)聽、多路同時(shí)數(shù)字錄像和回放等多種功能為一體。
    其實(shí),市場上更有許多基于MPEG4技術(shù)的硬件產(chǎn)品,筆者這里就不一一列舉了,不過筆者相信,隨著視頻壓縮技術(shù)的不斷發(fā)展,MPEG4技術(shù)的產(chǎn)品會(huì)越來越多的出目前我們生活,工作中。

    • 本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評論

      發(fā)表

      請遵守用戶 評論公約

      類似文章 更多