視頻和圖像編碼技術(shù)進(jìn)展探討

無(wú)線、廣域、寬帶網(wǎng)上

鐘玉琢　2002/05/27

　　鐘玉琢

　　現(xiàn)任清華大學(xué)計(jì)算機(jī)系教授

　　計(jì)算機(jī)應(yīng)用學(xué)科博士生導(dǎo)師

　　兼任中國(guó)計(jì)算機(jī)學(xué)會(huì)多媒體專委會(huì)主任

　　北京大學(xué)計(jì)算機(jī)系兼職教授

　　清華大學(xué)人機(jī)交互與媒體集成研究所副所長(zhǎng)

　　鐘玉琢教授長(zhǎng)期從事機(jī)器人視覺(jué)技術(shù)，智能計(jì)算機(jī)聲、文、圖一體化智能接口以及多媒體計(jì)算機(jī)技術(shù)等方面的教學(xué)和科研工作，多年來(lái)取得多項(xiàng)研究成果，曾榮獲原機(jī)電部科技進(jìn)步一等獎(jiǎng)和二等獎(jiǎng)、原教委科技進(jìn)步二等獎(jiǎng)、原國(guó)家科委863高技術(shù)研究發(fā)展計(jì)劃“七五”和“八五”期間優(yōu)秀個(gè)人獎(jiǎng)和先進(jìn)工作者獎(jiǎng)、清華大學(xué)先進(jìn)工作者獎(jiǎng)以及教育工作者優(yōu)秀獎(jiǎng)�，F(xiàn)在正在承擔(dān)國(guó)家計(jì)委的“數(shù)字家電網(wǎng)絡(luò)控制平臺(tái)”，863智能計(jì)算機(jī)的多媒體數(shù)據(jù)壓縮編碼算法與實(shí)現(xiàn)技術(shù)，國(guó)家基金委的分布式層次結(jié)構(gòu)視頻服務(wù)器的關(guān)鍵技術(shù)研究等課題。

　　目前正在研究的課題還有：MPEG-4和MPEG-7中的分割技術(shù)及基于內(nèi)容檢索技術(shù)；網(wǎng)絡(luò)教學(xué)及遠(yuǎn)程教學(xué)中的課件點(diǎn)播技術(shù)（COD-Course Ware On Demand）。

　　數(shù)字視頻和圖像壓縮編碼技術(shù)的研究，已歷經(jīng)半個(gè)世紀(jì)，在理論和工程上都取得了很多成果。進(jìn)入20世紀(jì)90年代，在ISO和ITU等國(guó)際組織的協(xié)調(diào)下，對(duì)視頻和圖像編碼的成果進(jìn)行了收集、整理、綜合和加工，制定了幾個(gè)通用的壓縮編碼標(biāo)準(zhǔn)，包括適用于二值圖像的JBIG、用于連續(xù)灰度和彩色靜止圖像的JPEG、用于64K視頻傳輸?shù)腍.261、面向1.5M數(shù)字視頻和音頻傳輸及存儲(chǔ)的MPEG-1、面向高品質(zhì)數(shù)字視頻和音頻傳輸及存儲(chǔ)的MPEG-2，以及適于低碼率視頻編碼的H.263。這些標(biāo)準(zhǔn)的算法主要由四類技術(shù)混合構(gòu)成，即運(yùn)動(dòng)補(bǔ)償、正交變換、量化和熵編碼，代表了20世紀(jì)90年代中前期視頻和圖像編碼的研究水平。

　　20世紀(jì)90年代中后期，Internet迅猛發(fā)展，無(wú)線通信也迅速在全球普及，因此人們開(kāi)始有了在網(wǎng)絡(luò)上傳輸視頻和圖像的愿望，于是視頻和圖像編碼的目標(biāo)也就從傳統(tǒng)的面向存儲(chǔ)變?yōu)楝F(xiàn)在的面向傳輸。在網(wǎng)絡(luò)上傳輸視頻和圖像等多媒體信息除了要解決誤碼問(wèn)題之外，最大的挑戰(zhàn)在于用戶可以獲得的帶寬在不停地變化。這主要是因?yàn)榫W(wǎng)絡(luò)的異構(gòu)性，即各子網(wǎng)的網(wǎng)絡(luò)資源，包括處理能力、帶寬、存儲(chǔ)和擁塞控制策略等分布得很不平均，用戶通過(guò)不同的通信子網(wǎng)傳輸數(shù)據(jù)會(huì)體驗(yàn)到非常不同的實(shí)際傳輸吞吐量、數(shù)據(jù)丟失率、傳輸延遲；另外由于現(xiàn)在的網(wǎng)絡(luò)沒(méi)有提供資源預(yù)留一類的協(xié)議保障，當(dāng)網(wǎng)絡(luò)擁塞發(fā)生時(shí)，多媒體數(shù)據(jù)流的有效傳輸帶寬會(huì)突然降低，影響用戶接收多媒體信息的質(zhì)量和速度，甚至造成無(wú)法觀看。

　　為了適應(yīng)網(wǎng)絡(luò)帶寬的變化，可擴(kuò)展性編碼的思想被提了出來(lái)。可擴(kuò)展性編碼就是將多媒體數(shù)據(jù)壓縮編碼成多個(gè)流，其中一個(gè)可以獨(dú)立解碼，它稱為基本層碼流；其它的碼流稱為增強(qiáng)層，它們不可以單獨(dú)解碼，而只能與基本層和它以前的增強(qiáng)層聯(lián)合在一起解碼，用來(lái)提高觀看效果�？蓴U(kuò)展性編碼主要分為時(shí)域可擴(kuò)展性編碼、空域可擴(kuò)展性編碼和質(zhì)量可擴(kuò)展性編碼。在這些策略中，編好的碼流可以按層為單位截?cái)�，具有一定的網(wǎng)絡(luò)帶寬適應(yīng)能力。

　　新一代的視聽(tīng)對(duì)象編碼的國(guó)際標(biāo)準(zhǔn)MPEG-4中的精細(xì)可擴(kuò)展性（Fine Granular Scalable,FGS）視頻編碼更提供了完全可擴(kuò)展的增強(qiáng)層碼流，它可以在任何地點(diǎn)截?cái)�，具有極強(qiáng)的網(wǎng)絡(luò)帶寬適應(yīng)能力。后來(lái)又提出了漸進(jìn)的精細(xì)可擴(kuò)展性（Progressive Fine Granular Scalable,PFGS）的編碼方案，它保留了FGS的所有優(yōu)良性能，并且把編碼效率提高了將近1dB。

　　最新的靜止圖像編碼國(guó)際標(biāo)準(zhǔn)JPEG2000，它利用小波變換、位平面編碼和基于上下文的算編碼等一系列新技術(shù)，將圖像編碼的效率提高了一大步（同等質(zhì)量下，JPEG2000的碼流尺寸只有JPEGA的一半），并且提供可擴(kuò)展性的碼流。

　　在當(dāng)前的網(wǎng)絡(luò)時(shí)代，視頻和圖像編碼的目標(biāo)從產(chǎn)生適合存儲(chǔ)的固定尺寸的碼流發(fā)展到產(chǎn)生適合一定的傳輸碼率范圍的可擴(kuò)展性碼流，因此今后的多媒體數(shù)據(jù)編碼必然要支持可擴(kuò)展性。當(dāng)然，可擴(kuò)展性編碼現(xiàn)在還是一個(gè)很不成熟的領(lǐng)域，與不具有可擴(kuò)展性的單層編碼相比，它的編碼效率還是比較低的（例如FGS的編碼效率比MPEG-4非可擴(kuò)展性編碼低2～3dB）。如何將可擴(kuò)展性編碼的效率盡可能地逼近非可擴(kuò)展性編碼，是一個(gè)值得繼續(xù)研究的問(wèn)題。

分層可擴(kuò)展性編碼

　�。↙ayered Scalable Coding）

　　關(guān)于分層可擴(kuò)展性編碼的研究可以追溯到10年前，目前它已經(jīng)被許多現(xiàn)行的國(guó)際壓縮標(biāo)準(zhǔn)接納，例如H.263+和MPEG-4。分層可擴(kuò)展編碼主要有三種：時(shí)域可擴(kuò)展性、空域可擴(kuò)展性和質(zhì)量可擴(kuò)展性。其中質(zhì)量可擴(kuò)展性也稱為PSNR可擴(kuò)展性，原因是視頻質(zhì)量通常用峰值信噪比（PSNR）來(lái)衡量。

　　1.時(shí)域可擴(kuò)展性（Temporal Scalability）

　　時(shí)域可擴(kuò)展性編碼通常是通過(guò)在碼流中添加B幀來(lái)實(shí)現(xiàn)的。B幀是使用與它在時(shí)間上最近鄰的前后兩個(gè)I幀或P幀來(lái)預(yù)測(cè)的，而自己并不作為任何其它幀的參考圖像，因此在傳輸中丟棄B幀并不影響其它幀的質(zhì)量，而僅僅降低幀率。圖1是MPEG-4的時(shí)域可擴(kuò)展性編碼的示意圖。

　　圖1 MPEG-4中的時(shí)域可擴(kuò)展性編碼

　　2.空域可擴(kuò)展性（Spatial Scalability）

　　空域可擴(kuò)展性編碼是通過(guò)為視頻中的每一幀都創(chuàng)建多分辨率的表示來(lái)實(shí)現(xiàn)的。當(dāng)進(jìn)行空域可擴(kuò)展性編碼時(shí)，原始視頻首先通過(guò)下采樣得到低分辨率的視頻，編碼得到基本層碼流；然后編碼原始視頻和基本層視頻的差生成增強(qiáng)層碼流。不過(guò)空域可擴(kuò)展性編碼在視頻傳輸中應(yīng)用較少，因?yàn)槿魏我粋€(gè)用戶都不能接收在前一個(gè)GOP中觀看高分辨率視頻，而到下一個(gè)GOP只能獲得低分辨率視頻。因此即使增強(qiáng)層在傳輸中被丟棄，客戶端的解碼器也要對(duì)低分辨率的圖像進(jìn)行插值，這實(shí)際上是一種質(zhì)量可擴(kuò)展性的特殊情形。圖2為空域可擴(kuò)展性編碼的示意圖。

　　圖2 空域可擴(kuò)展性編碼

　　3.質(zhì)量可擴(kuò)展性(PSNR Scalability)

　　質(zhì)量可擴(kuò)展性編碼的思想和空域可擴(kuò)展性編碼很類似，只不過(guò)這里不需對(duì)原始視頻進(jìn)行下采樣，而是進(jìn)行一次很粗的量化形成基本層碼流。然后對(duì)原始視頻和基本層視頻的差再進(jìn)行一次量化，生成增強(qiáng)層碼流；如果有多個(gè)增強(qiáng)層碼流則重復(fù)上面的過(guò)程。圖3是質(zhì)量可擴(kuò)展性編碼的示意圖。

　　圖3 質(zhì)量可擴(kuò)展性編碼

適合網(wǎng)絡(luò)傳輸?shù)木幋a方案

　　從以上可以看出，傳統(tǒng)的視頻編碼方法不適合網(wǎng)絡(luò)傳輸，其根本原因是它們的目標(biāo)是將視頻壓縮成為適合一個(gè)或幾個(gè)固定碼率的碼流，也就是說(shuō)傳統(tǒng)的視頻編碼是面向存儲(chǔ)的。而由于網(wǎng)絡(luò)的異構(gòu)性和缺乏QoS保證，帶寬在一個(gè)很大的范圍內(nèi)變化，因此面向網(wǎng)絡(luò)傳輸?shù)囊曨l編碼的目標(biāo)是將視頻壓縮成為適合一個(gè)碼率的范圍。

　　MPEG組織看到了網(wǎng)絡(luò)傳輸對(duì)視頻編碼的新要求，于是開(kāi)始征集精細(xì)的可擴(kuò)展性視頻編碼方案。它的基本思想是將視頻編碼成一個(gè)可以單獨(dú)解碼的基本層碼流和一個(gè)可以在任何地點(diǎn)截?cái)嗟脑鰪?qiáng)層碼流，其中基本層碼流適應(yīng)最低的網(wǎng)絡(luò)帶寬，而增強(qiáng)層碼流用來(lái)覆蓋網(wǎng)絡(luò)帶寬變化的動(dòng)態(tài)范圍。世界各地的學(xué)者提出了許多解決方案，主要分為三類，分別使用DCT變換技術(shù)、小波變換技術(shù)和Matching Pursuit技術(shù)。最終從編碼效率和復(fù)雜性兩方面的考慮，精細(xì)可擴(kuò)展性編碼（FGSC）及漸進(jìn)的精細(xì)可擴(kuò)展性編碼（PFGSC）被MPEG組織采納。

　　1. 精細(xì)的可擴(kuò)展性編碼

　　MPEG-4的FGS主要有以下一些特性：第一，基本層使用基于分塊運(yùn)動(dòng)補(bǔ)償和DCT變換的編碼方式達(dá)到網(wǎng)絡(luò)傳輸?shù)淖畹鸵�；第二，增�?qiáng)層使用位平面編碼技術(shù)對(duì)DCT殘差進(jìn)行編碼來(lái)覆蓋網(wǎng)絡(luò)帶寬的變化范圍；第三，每一幀的增強(qiáng)層碼流可以在任何地點(diǎn)截?cái)�；第四，解碼器重建的視頻質(zhì)量和收到并解碼的比特?cái)?shù)成正比。

　　FGS的基本層編碼和普通的MPEG-4非可擴(kuò)展性編碼相同，都是由運(yùn)動(dòng)估計(jì)、運(yùn)動(dòng)補(bǔ)償、DCT變換、標(biāo)量量化和變長(zhǎng)編碼（Variable Length Coding）組成。而在增強(qiáng)層編碼時(shí)，從原始的DCT系數(shù)中減去基本層逆量化后重建的DCT系數(shù)值獲得DCT殘差，然后對(duì)每一個(gè)8×8的塊按從上到下從左到右的順序使用位平面進(jìn)行編碼。

　　使用位平面編碼的好處就是使得每一個(gè)系數(shù)的重要部分（較高的位）優(yōu)先編碼，這樣在碼流截?cái)鄷r(shí)就保證了解碼器仍可以獲得有關(guān)視頻的重要信息，從而提供了精細(xì)可擴(kuò)展的特性。

　　一般的FGS只考慮了要編碼系數(shù)的值，實(shí)際上FGS的應(yīng)用是非常靈活的。例如我們可以對(duì)圖像中比較感興趣的前景部分優(yōu)先編碼，具體作法就是將圖像中的某些塊上移若干個(gè)位平面，就實(shí)現(xiàn)了對(duì)圖像中感興趣部分的優(yōu)先傳輸。我們還可以對(duì)不同頻率的DCT系數(shù)加以不同的權(quán)重，也就是對(duì)不同的DCT系數(shù)上移不同的位平面，從而滿足人眼對(duì)不同頻率成分的敏感程度。

　　FGS還可以和時(shí)域可擴(kuò)展性編碼相結(jié)合（FGST），即對(duì)B幀中的DCT系數(shù)都使用位平面技術(shù)編碼，這樣FGST不僅保持了FGS的精細(xì)可擴(kuò)展的特性，而且支持幀率的變化。

　　FGS雖然具有優(yōu)良的可擴(kuò)展特性，但它也有致命的弱點(diǎn)，即效率太低。在同等碼率下，F(xiàn)GS的質(zhì)量要比MPEG-4中的非可擴(kuò)展性編碼低2～3dB（3個(gè)dB意味著碼率翻一番），這是人們難以接受的。因此要想提高FGS的編碼率，必須改善它用作運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償?shù)膮⒖紙D像的質(zhì)量。

　　2. 漸進(jìn)的精細(xì)可擴(kuò)展性編碼

　　可以看出，質(zhì)量可擴(kuò)展性編碼（我們對(duì)它的增強(qiáng)層使用位平面編碼）和FGS編碼分別走了兩個(gè)級(jí)端，質(zhì)量可擴(kuò)展性編碼保證了編碼效率，因?yàn)樗猛瑢拥慕獯a圖像作參考，獲得了較為準(zhǔn)確的運(yùn)動(dòng)預(yù)測(cè)和補(bǔ)償，但它對(duì)錯(cuò)誤極為敏感，一旦某個(gè)增強(qiáng)層出現(xiàn)了錯(cuò)誤，它后面的增強(qiáng)層都將無(wú)法解碼，直到遇到下一個(gè)I幀為止；而FGS保證了對(duì)錯(cuò)誤的恢復(fù)能力，它可以從前一幀增強(qiáng)層的任何錯(cuò)誤恢復(fù)出來(lái)，但是由于參考圖像質(zhì)量低，因而效率不高。為了在編碼效率和錯(cuò)誤恢復(fù)能力之間取得一個(gè)權(quán)衡，后來(lái)有人提出了一種被稱為漸進(jìn)的精細(xì)可擴(kuò)展性（Progressive Fine Granular Scalable,PFGS）的視頻編碼方案，在保持了FGS所具有的網(wǎng)絡(luò)帶寬自適應(yīng)和錯(cuò)誤恢復(fù)能力的同時(shí)，提高了編碼效率將近1dB。

　　但是，PFGS的編碼效率和非可擴(kuò)展性編碼相比，還有1～2dB的差距。如何進(jìn)一步提高它的性能，還是一個(gè)值得研究的問(wèn)題。

取得的最新研究成果

　　目前正在研究視頻和圖像的可擴(kuò)展性編碼，其主要成果有：

　　1. 根據(jù)PFGS增強(qiáng)層各幀之間碼率的不平衡性，研究了PFGS增強(qiáng)層的碼率分配問(wèn)題。首先提出了一個(gè)PFGS增強(qiáng)層多幀聯(lián)合的率失真（Rate-Distortion,R-D）函數(shù)，然后我們根據(jù)這個(gè)率失真函數(shù)提出了一個(gè)局部最優(yōu)的PFGS增強(qiáng)層碼率分配算法。實(shí)驗(yàn)結(jié)果顯示，和FGS中使用的碼率平均分配算法相比，我們的算法不僅使視頻解碼質(zhì)量更加平滑，而且將視頻質(zhì)量提高了0.3～0.5dB。另外，我們算法的復(fù)雜性很低，使得它非常適合于視頻服務(wù)器使用。

　　2.為了進(jìn)一步壓縮FGS和FPGS的基本層碼流，我們將位平面編碼技術(shù)和空域可擴(kuò)展性視頻編碼相結(jié)合，提出了一種稱為精細(xì)的空域可擴(kuò)展性（Fine-Granularity Spatially Scalable,FGSS）的視頻編碼算法。這個(gè)方案具有質(zhì)量精細(xì)變化的特性，即低分辨率和高分辨率的增強(qiáng)層碼流都可以在任何地點(diǎn)截?cái)�，具有極強(qiáng)的網(wǎng)絡(luò)帶寬適應(yīng)能力。

　　此外，我們的算法還具有錯(cuò)誤恢復(fù)功能，同時(shí)保持了空域可擴(kuò)展性編碼的多分辨率特性，它可以滿足擁有不同網(wǎng)絡(luò)帶寬和不同分辨率接收設(shè)備的許多用戶的需求。實(shí)驗(yàn)表明，在大多數(shù)碼率條件下，F(xiàn)GSS的性能優(yōu)于傳統(tǒng)的空域可擴(kuò)展性編碼。

　　3. 我們提出了一種基于塊的細(xì)粒度可擴(kuò)展（B-FGS）編碼方法，這種編碼方法比MPEG-4 FGS具有更多的靈活性，它能夠支持區(qū)域級(jí)的動(dòng)態(tài)碼率分配，它是MPEG-4 FGS的一種改進(jìn)。在基于塊的FGS編碼系統(tǒng)中，在視頻流化傳輸服務(wù)器端，通過(guò)給屬于感興趣區(qū)域的空塊分配更多的碼率就可以實(shí)現(xiàn)選擇性區(qū)域增強(qiáng)，而增強(qiáng)區(qū)域的選擇是由傳輸策略決定的，由于B-FGS編碼將區(qū)域增強(qiáng)從編碼中分離出來(lái)，所以可以很好地支持區(qū)域級(jí)動(dòng)態(tài)碼率分配。

　　同時(shí)，我們還較好地解決了B-FGS中均勻碼率分配所造成的編碼效率下降問(wèn)題，實(shí)現(xiàn)了B-FGS編碼中的快速最優(yōu)碼率分配，使其可以用于實(shí)時(shí)流媒體服務(wù)器中。

　　上述編碼方法可以和MPEG-7內(nèi)容描述相結(jié)合，在低傳輸帶寬時(shí)，實(shí)現(xiàn)重要區(qū)域的選擇性增強(qiáng)，從而提高接收端視覺(jué)質(zhì)量。

賽迪網(wǎng)　2002/05/27

會(huì)議電視系統(tǒng)解決方案 2002-05-20

將視頻通訊帶進(jìn)中國(guó)人的生活 2002-05-20

高檢采用VTEL設(shè)備建設(shè)會(huì)議電視系統(tǒng) 2002-05-20

評(píng)論：將視頻通訊帶進(jìn)中國(guó)人的生活 2002-05-16

分類信息: 技術(shù)_視像通訊_文摘