http://www./ffmpeg/articles/22850.aspx 二、H.264的特點(diǎn) 三、性能優(yōu)勢 四、新的快速運(yùn)動(dòng)估值算法 ITU和 ISO合作發(fā)展的 H.264(MPEG-4 Part 10)有可能被廣播、通信和存儲(chǔ)媒體(CD
DVD)接受成為統(tǒng)一的標(biāo)準(zhǔn),最有可能成為寬帶交互新媒體的標(biāo)準(zhǔn)。我國的信源編碼標(biāo)準(zhǔn)尚未制定,密切關(guān)注H.264的發(fā)展,制定我國的信源編碼標(biāo)準(zhǔn)的工作
正在加緊進(jìn)行。 MPEG4視頻壓縮編碼技術(shù)詳解 MPEG1、MPEG2技術(shù)當(dāng)初制定時(shí),他們定位的標(biāo)準(zhǔn)均為高層媒體表示和結(jié)構(gòu),但隨著計(jì)算機(jī)軟件及網(wǎng)絡(luò)技術(shù)的快速發(fā)展,
MPEG1.MPEG2技術(shù)的弊端就顯示出來了:交互性及靈活性較低,壓縮的多媒體文件體積過于龐大,難以實(shí)現(xiàn)網(wǎng)絡(luò)的實(shí)時(shí)傳播。而MPEG4技術(shù)的標(biāo)準(zhǔn)是
對運(yùn)動(dòng)圖像中的內(nèi)容進(jìn)行編碼,其具體的編碼對象就是圖像中的音頻和視頻,術(shù)語稱為“AV對象”,而連續(xù)的AV對象組合在一起又能形成AV場景。因此,
MPEG4標(biāo)準(zhǔn)就是圍繞著AV對象的編碼、存儲(chǔ)、傳輸和組合而制定的,高效率地編碼、組織、存儲(chǔ)、傳輸AV對象是MPEG4標(biāo)準(zhǔn)的基本內(nèi)容。 視頻編碼研究和MPEG標(biāo)準(zhǔn)演進(jìn) 人類獲取的信息中70%來自于視覺,視頻信息在多媒體信息中占有重要地位;同時(shí)視頻數(shù)據(jù)冗余度最大,經(jīng)壓縮處理后的視頻質(zhì)量高低是決定多媒體服務(wù)質(zhì)量的關(guān)鍵因素。因此數(shù)字視頻技術(shù)是多媒體應(yīng)用的核心技術(shù),對視頻編碼的研究已成為信息技術(shù)領(lǐng)域的熱門話題。 視頻編碼的研究課題主要有數(shù)據(jù)壓縮比、壓縮/解壓速度及快速實(shí)現(xiàn)算法三方面內(nèi)容。以壓縮/解壓后數(shù)據(jù)和壓縮前原始數(shù)據(jù)是否完全一致作為衡量標(biāo)準(zhǔn),可將數(shù)據(jù)壓縮劃分為無失真壓縮(即可逆壓縮)和有失真壓縮(即不可逆壓縮)兩類。 傳統(tǒng)壓縮編碼建立在仙農(nóng)信息論基礎(chǔ)之上的,以經(jīng)典集合論為工具,用概率統(tǒng)計(jì)模型來描述信源,其壓縮思想基于數(shù)據(jù)統(tǒng)計(jì),因此只能去除數(shù)據(jù)冗余,屬于低層壓縮編碼的范疇。 伴隨著視頻編碼相關(guān)學(xué)科及新興學(xué)科的迅速發(fā)展,新一代數(shù)據(jù)壓縮技術(shù)不斷誕生并日益成熟,其編碼思想由基于像素和像素塊轉(zhuǎn)變?yōu)榛趦?nèi) 容 (content-based)。他突破了仙農(nóng)信息論框架的束縛,充分考慮了人眼視覺特性及信源特性,通過去除內(nèi)容冗余來實(shí)現(xiàn)數(shù)據(jù)壓縮,可分為基于對象 (object-based)和基于語義(semantics-based)兩種,前者屬于中層壓縮編碼,后者屬于高層壓縮編碼。 和此同時(shí),視頻編碼相關(guān)標(biāo)準(zhǔn)的制定也日臻完善。視頻編碼標(biāo)準(zhǔn)主要由ITU-T和ISO/IEC研發(fā)。ITU-T發(fā)布的視頻標(biāo)準(zhǔn)有 H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公開的MPEG系列標(biāo)準(zhǔn)有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,并且計(jì)劃公開MPEG-21。 MPEG即Moving Picture Expert Group(運(yùn)動(dòng)圖像專家組),他是專門從事制定多媒體視音頻壓縮編碼標(biāo)準(zhǔn)的國際組織。MPEG系列標(biāo)準(zhǔn)已成為國際上影響最大的多媒體技術(shù)標(biāo)準(zhǔn),其中 MPEG-1和MPEG-2是采用以仙農(nóng)信息論為基礎(chǔ)的預(yù)測編碼、變換編碼、熵編碼及運(yùn)動(dòng)補(bǔ)償?shù)鹊谝淮鷶?shù)據(jù)壓縮編碼技術(shù);MPEG-4(ISO/IEC 14496)則是基于第二代壓縮編碼技術(shù)制定的國際標(biāo)準(zhǔn),他以視聽媒體對象為基本單元,采用基于內(nèi)容的壓縮編碼,以實(shí)現(xiàn)數(shù)字視音頻、圖像合成應(yīng)用及交互式 多媒體的集成。MPEG系列標(biāo)準(zhǔn)對VCD、DVD等視聽消費(fèi)電子及數(shù)字電視和高清晰度電視(DTV&&HDTV)、多媒體通信等信息產(chǎn)業(yè) 的發(fā)展產(chǎn)生了巨大而深遠(yuǎn)的影響。 MPEG-4視頻編碼核心思想及關(guān)鍵技術(shù)
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代壓縮編碼技術(shù),著眼于圖像信號的統(tǒng)計(jì) 特性來設(shè)計(jì)編碼器,屬于波形編碼的范疇。第一代壓縮編碼方案把視頻序列按時(shí)間先后分為一系列幀,每一幀圖像又分成宏塊以進(jìn)行運(yùn)動(dòng)補(bǔ)償和編碼,這種編碼方案 存在以下缺陷: 將圖像固定地分成相同大小的塊,在高壓縮比的情況下會(huì)出現(xiàn)嚴(yán)重的塊效應(yīng),即馬賽克效應(yīng); MPEG-4則代表了基于模型/對象的第二代壓縮編碼技術(shù),他充分利用了人眼視覺特性,抓住了圖像信息傳輸?shù)谋举|(zhì),從輪廓、紋理思路出發(fā),支持基于視覺內(nèi)容的交互功能,這適應(yīng)了多媒體信息的應(yīng)用由播放型轉(zhuǎn)向基于內(nèi)容的訪問、檢索及*作的發(fā)展趨勢。 AV對象(AVO,Audio Visual Object)是MPEG-4為支持基于內(nèi)容編碼而提出的重要概念。對象是指在一個(gè)場景中能夠訪問和*縱的實(shí)體,對象的劃分可根據(jù)其獨(dú)特的紋理、運(yùn)動(dòng)、形 狀、模型和高層語義為依據(jù)。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中圖像幀的概念,而是個(gè)個(gè)視聽場景(AV場景),這些 不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或視聽內(nèi)容的表示單元,其基本單位是原始AV對象,他能是自然的或合成的聲音、圖像。原 始AV對象具有高效編碼、高效存儲(chǔ)和傳輸及可交互*作的特性,他又可進(jìn)一步組成復(fù)合AV對象。因此MPEG-4標(biāo)準(zhǔn)的基本內(nèi)容就是對AV對象進(jìn)行高效編 碼、組織、存儲(chǔ)和傳輸。AV對象的提出,使多媒體通信具有高度交互及高效編碼的能力,AV對象編碼就是MPEG-4的核心編碼技術(shù)。 MPEG-4不僅可提供高壓縮率,同時(shí)也可實(shí)現(xiàn)更好的多媒體內(nèi)容互動(dòng)性及全方位的存取性,他采用開放的編碼系統(tǒng),可隨時(shí)加入新的編碼算法模塊,同時(shí)也可根據(jù)不同應(yīng)用需求現(xiàn)場設(shè)置解碼器,以支持多種多媒體應(yīng)用。 MPEG-4 采用了新一代視頻編碼技術(shù),他在視頻編碼發(fā)展史上第一次把編碼對象從圖像幀拓展到具有實(shí)際意義的任意形狀視頻對象,從而實(shí)現(xiàn)了從基于像素的傳統(tǒng)編碼向基于對象和內(nèi)容的現(xiàn)代編碼的轉(zhuǎn)變,因而引領(lǐng)著新一代智能圖像編碼的發(fā)展潮流。 關(guān)鍵技術(shù) MPEG-4除采用第一代視頻編碼的核心技術(shù),如變換編碼、運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償、量化、熵編碼外,還提出了一些新的有創(chuàng)見性的關(guān)鍵技術(shù),并在第一代視頻編碼技術(shù)基礎(chǔ)上進(jìn)行了卓有成效的完善和改進(jìn)。下面重點(diǎn)介紹其中的一些關(guān)鍵技術(shù)。 A. 視頻對象提取技術(shù) MPEG-4實(shí)現(xiàn)基于內(nèi)容交互的首要任務(wù)就是把視頻/圖像分割成不同對象或把運(yùn)動(dòng)對象從背景中分離出來,然后針對不同對象采用相應(yīng)編碼方法,以實(shí)現(xiàn)高效壓縮。因此視頻對象提取即視頻對象分割,是MPEG-4視頻編碼的關(guān)鍵技術(shù),也是新一代視頻編碼的研究熱點(diǎn)和難點(diǎn)。 視頻對象分割涉及對視頻內(nèi)容的分析和理解,這和人工智能、圖像理解、模式識(shí)別和神經(jīng)網(wǎng)絡(luò)等學(xué)科有密切聯(lián)系。目前人工智能的發(fā)展還不 夠完善,計(jì)算機(jī)還不具有觀察、識(shí)別、理解圖像的能力;同時(shí)關(guān)于計(jì)算機(jī)視覺的研究也表明要實(shí)現(xiàn)正確的圖像分割需要在更高層次上對視頻內(nèi)容進(jìn)行理解。因此,盡 管MPEG-4 框架已制定,但至今仍沒有通用的有效方法去根本解決視頻對象分割問題,視頻對象分割被認(rèn)為是個(gè)具有挑戰(zhàn)性的難題,基于語義的分割則更加困難。 目前進(jìn)行視頻對象分割的一般步驟是:先對原始視頻/圖像數(shù)據(jù)進(jìn)行簡化以利于分割,這可通過低通濾波、中值濾波、形態(tài)濾波來完成;然 后對視頻/圖像數(shù)據(jù)進(jìn)行特征提取,能是顏色、紋理、運(yùn)動(dòng)、幀差、位移幀差乃至語義等特征;再基于某種均勻性標(biāo)準(zhǔn)來確定分割決策,根據(jù)所提取特征將視頻數(shù) 據(jù)歸類;最后是進(jìn)行相關(guān)后處理,以實(shí)現(xiàn)濾除噪聲及準(zhǔn)確提取邊界。 在視頻分割中基于數(shù)學(xué)形態(tài)理論的分水嶺(watershed)算法被廣泛使用,他又稱水線算法,其基本過程是連續(xù)腐蝕二值圖像,由 圖像簡化、標(biāo)記提取、決策、后處理四個(gè)階段構(gòu)成。分水嶺算法具有運(yùn)算簡單、性能優(yōu)良,能夠較好提取運(yùn)動(dòng)對象輪廓、準(zhǔn)確得到運(yùn)動(dòng)物體邊緣的好處。但分割時(shí)需 要梯度信息,對噪聲較敏感,且未利用幀間信息,通常會(huì)產(chǎn)生圖像過度分割。 B. VOP視頻編碼技術(shù) 視頻對象平面(VOP,Video Object Plane)是視頻對象(VO)在某一時(shí)刻的采樣,VOP是MPEG-4視頻編碼的核心概念。MPEG-4在編碼過程中針對不同VO采用不同的編碼策略, 即對前景VO的壓縮編碼盡可能保留細(xì)節(jié)和平滑;對背景VO則采用高壓縮率的編碼策略,甚至不予傳輸而在解碼端由其他背景拼接而成。這種基于對象的視頻編碼 不僅克服了第一代視頻編碼中高壓縮率編碼所產(chǎn)生的方塊效應(yīng),而且使用戶可和場景交互,從而既提高了壓縮比,又實(shí)現(xiàn)了基于內(nèi)容的交互,為視頻編碼提供了廣闊 的發(fā)展空間。 MPEG-4支持任意形狀圖像和視頻的編解碼。對于任意形狀視頻對象。對于極低比特率實(shí)時(shí)應(yīng)用,如可視電話、會(huì)議電視,MPEG-4則采用VLBV(Very Low Bit-rate Video,極低比特率視頻)核進(jìn)行編碼。 傳統(tǒng)的矩形圖在MPEG-4中被看作是VO的一種特例,這正體現(xiàn)了傳統(tǒng)編碼和基于內(nèi)容編碼在MPEG-4中的統(tǒng)一。VO概念的引 入,更加符合人腦對視覺信息的處理方式,并使視頻信號的處理方式從數(shù)字化進(jìn)展到智能化,從而提高了視頻信號的交互性和靈活性,使得更廣泛的視頻應(yīng)用及更多 的內(nèi)容交互成為可能。因此VOP視頻編碼技術(shù)被譽(yù)為視頻信號處理技術(shù)從數(shù)字化進(jìn)入智能化的初步探索。 C. 視頻編碼可分級性技術(shù) 隨著因特網(wǎng)業(yè)務(wù)的巨大增長,在速率起伏非常大的IP(Internet Protocol)網(wǎng)絡(luò)及具有不同傳輸特性的異構(gòu)網(wǎng)絡(luò)上進(jìn)行視頻傳輸?shù)男枨蠛蛻?yīng)用越來越多。在這種背景下,視頻分級編碼的重要性日益突出,其應(yīng)用非常廣 泛,且具有非常高的理論研究及實(shí)際應(yīng)用價(jià)值,因此受到人們的極大關(guān)注。 視頻編碼的可分級性(scalability)是指碼率的可調(diào)整性,即視頻數(shù)據(jù)只壓縮一次,卻能以多個(gè)幀率、空間分辨率或視頻質(zhì)量進(jìn)行解碼,從而可支持多種類型用戶的各種不同應(yīng)用需求。 MPEG-4通過視頻對象層(VOL,Video Object Layer)數(shù)據(jù)結(jié)構(gòu)來實(shí)現(xiàn)分級編碼。MPEG-4提供了兩種基本分級工具,即時(shí)域分級(Temporal Scalability)和空域分級(Spatial Scalability),此外還支持時(shí)域和空域的混合分級。每一種分級編碼都至少有兩層VOL,低層稱為基本層,高層稱為增強(qiáng)層?;緦犹峁┝艘曨l序列 的基本信息,增強(qiáng)層提供了視頻序列更高的分辨率和細(xì)節(jié)。 在隨后增補(bǔ)的視頻流應(yīng)用框架中,MPEG-4提出了FGS(Fine Granularity Scalable,精細(xì)可伸縮性)視頻編碼算法及PFGS(Progressive Fine Granularity Scalable,漸進(jìn)精細(xì)可伸縮性)視頻編碼算法。 FGS編碼實(shí)現(xiàn)簡單,可在編碼速率、顯示分辨率、內(nèi)容、解碼復(fù)雜度等方面提供靈活的自適應(yīng)和可擴(kuò)展性,且具有非常強(qiáng)的帶寬自適應(yīng)能力和抗誤碼性能。但還存在編碼效率低于非可擴(kuò)展編碼及接收端視頻質(zhì)量非最優(yōu)兩個(gè)不足。 PFGS則是為改善FGS編碼效率而提出的視頻編碼算法,其基本思想是在增強(qiáng)層圖像編碼時(shí)使用前一幀重建的某個(gè)增強(qiáng)層圖像為參考進(jìn)行運(yùn)動(dòng)補(bǔ)償,以使運(yùn)動(dòng)補(bǔ)償更加有效,從而提高編碼效率。 D. 運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償技術(shù) MPEG-4采用I-VOP、P-VOP、B-VOP三種幀格式來表征不同的運(yùn)動(dòng)補(bǔ)償類型。他采用了H.263中的半像素搜索 (half pixel searching)技術(shù)和重疊運(yùn)動(dòng)補(bǔ)償(overlapped motion compensation)技術(shù),同時(shí)又引入重復(fù)填充(repetitive padding)技術(shù)和修改的塊(多邊形)匹配(modified block (polygon)matching)技術(shù)以支持任意形狀的VOP區(qū)域。 此外,為提高運(yùn)動(dòng)估計(jì)算法精度,MPEG-4采用了MVFAST(Motion Vector Field Adaptive Search Technique)和改進(jìn)的PMVFAST(Predictive MVFAST)方法用于運(yùn)動(dòng)估計(jì)。對于全局運(yùn)動(dòng)估計(jì),則采用了基于特征的快速頑健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。 在MPEG-4視頻編碼中,運(yùn)動(dòng)估計(jì)相當(dāng)耗時(shí),對編碼的實(shí)時(shí)性影響非常大。因此這里特別強(qiáng)調(diào)快速算法。運(yùn)動(dòng)估計(jì)方法主要有像素遞歸法 和塊匹配法兩大類,前者復(fù)雜度非常高,實(shí)際中應(yīng)用較少,后者則在H.263和MPEG中廣泛采用。在塊匹配法中,重點(diǎn)研究塊匹配準(zhǔn)則及搜索方法。目前有三種 常用的匹配準(zhǔn)則: (1)絕對誤差和(SAD, Sum of Absolute Difference)準(zhǔn)則; 在上述三種準(zhǔn)則中,SAD準(zhǔn)則具有不需乘法運(yùn)算、實(shí)現(xiàn)簡單方便的好處而使用最多,但應(yīng)清晰匹配準(zhǔn)則的選用對匹配結(jié)果影響不大。 在選取匹配準(zhǔn)則后就應(yīng)進(jìn)行尋找最優(yōu)匹配點(diǎn)的搜索工作。最簡單、最可靠的方法是全搜索法(FS, Full Search),但計(jì)算量太大,不便于實(shí)時(shí)實(shí)現(xiàn)。因此快速搜索法應(yīng)運(yùn)而生,主要有交叉搜索法、二維對數(shù)法和鉆石搜索法,其中鉆石搜索法被MPEG-4校驗(yàn) 模型(VM, Verification Model)所采納,下面周詳介紹。 鉆石搜索(DS, Diamond Search)法以搜索模板形狀而得名,具有簡單、魯棒、高效的特點(diǎn),是現(xiàn)有性能最優(yōu)的快速搜索算法之一。其基本思想是利用搜索模板的形狀和大小對運(yùn)動(dòng)估 計(jì)算法速度及精度產(chǎn)生重要影響的特性。在搜索最優(yōu)匹配點(diǎn)時(shí),選擇小的搜索模板可能會(huì)陷入局部最優(yōu),選擇大的搜索模板則可能無法找到最佳處。因此DS算法針 對視頻圖像中運(yùn)動(dòng)矢量的基本規(guī)律,選用了兩種形狀大小的搜索模板。 大鉆石搜索模板(LDSP, Large Diamond Search Pattern),包含9個(gè)候選位置; DS算法搜索過程如下:開始階段先重復(fù)使用大鉆石搜索模板,直到最佳匹配塊落在大鉆石中心。由于LDSP步長大,因而搜索范圍廣, 可實(shí)現(xiàn)粗定位,使搜索不會(huì)陷于局部最小,當(dāng)粗定位結(jié)束后,可認(rèn)為最佳處就在LDSP 周圍8 個(gè)點(diǎn)所圍菱形區(qū)域中。然后再使用小鉆石搜索模板來實(shí)現(xiàn)最佳匹配塊的準(zhǔn)確定位,以不產(chǎn)生較大起伏,從而提高運(yùn)動(dòng)估計(jì)精度。 此外Sprite視頻編碼技術(shù)也在MPEG-4中應(yīng)用廣泛,作為其核心技術(shù)之一。Sprite又稱鑲嵌圖或背景全景圖,是指一個(gè)視頻對象在視頻序列中所有出現(xiàn)部分經(jīng)拼接而成的一幅圖像。利用Sprite能直接重構(gòu)該視頻對象或?qū)ζ溥M(jìn)行預(yù)測補(bǔ)償編碼。 Sprite視頻編碼可視為一種更為先進(jìn)的運(yùn)動(dòng)估計(jì)和補(bǔ)償技術(shù),他能夠克服基于固定分塊的傳統(tǒng)運(yùn)動(dòng)估計(jì)和補(bǔ)償技術(shù)的不足,MPEG-4正是采用了將傳統(tǒng)分塊編碼技術(shù)和Sprite編碼技術(shù)相結(jié)合的策略。
憑借著出色的性能,MPEG4技術(shù)目前在多媒體傳輸、多媒體存儲(chǔ)等領(lǐng)域得到了廣泛的應(yīng)用,下面我們就來看看目前在那些領(lǐng)域MPEG4技術(shù)得到了大顯伸手的機(jī)會(huì)。 |
|