首頁>>>技術>>>視像通信  視像通信產品

視頻通信技術的新發(fā)展

畢厚杰 李濤 2004/12/29

  應用現狀  

  近10年以來,視頻通信發(fā)展較快,業(yè)務范圍日漸擴大,表現為以下幾方面。

  1.視頻會議  

  利用視頻數字壓縮技術和傳輸技術,可使不同地點的人員猶如在一個會議室一樣召開會議,節(jié)省了大量時間、費用,特別在爭取時間、集思廣益作決策時更顯示其重要性。目前我國從中央到省、市以至縣都已大量應用。

  2.視頻電話  

  視頻電話原來也叫可視電話,除了面對面的通話功能外,現正發(fā)展成具有各種信息交互和任意切換功能的個人信息終端,可以進行視頻通話,還可召開多人發(fā)言的會議,支持多路視頻圖像,具有電子文檔共享,瀏覽網頁等功能。

  3.遠程學習和培訓  

  由于技術、管理體制等不斷發(fā)展、更新,在職人員的培訓、學習極其重要。目前,我國有的企業(yè)已經開始利用視頻通信網絡對職工進行遠程培訓教育。國外非常重視這種遠程培訓,我國還需加強。

  4.遠程醫(yī)療  

  可利用視頻設備和網絡進行遠程醫(yī)療,這對于我國農村廣大地區(qū)醫(yī)療水平相對較低、農民經濟水平相對不高的情況十分適宜,應該大力推廣。

  5.網上游戲  

  計算機游戲市場十分巨大,只要組織和引導得好,對寓教育于游戲、豐富年輕人的生活、培養(yǎng)下一代有十分重要的意義和價值,在我國需進一步大力發(fā)展。

  6.視頻點播  

  數字電視的發(fā)展已迫在眉睫,怎樣通過網絡和視頻點播方式讓老百姓看到高質量、低價格、內容豐富健康的數字影片已是一個亟待解決的問題。

  視頻壓縮技術

  1.多編碼模式的自適應選擇  

  由于視頻信息的內容千變萬化,很難用一種固定的模型進行描述。有人為此進行過大量的嘗試都失敗了,有人甚至認為“視頻壓縮”不是一門科學。其實視頻信息的規(guī)律就是多變,一幅圖像內容可能是平坦的,也可能是多細節(jié)的;可能是靜止的,也可能是運動的;而且同一幅圖像中各個部分可能又是極不相同的。針對這種復雜情況,為了保證壓縮質量,唯一的辦法是把圖像分成許多大小不同的塊,對各個塊按不同內容自適應地采取不同的編碼模式。  

  在H.261,H.263,MPEG-1,MPEG-4中,把圖像分成8×8或16×16的方塊,然后對各個方塊視其內容分成幀內、幀間、跳幀等不同編碼模式。在H.264中,則更進一步細化成4×4方塊,從而編碼模式更能適應于內容的變化,如幀間編碼用INTER表示,幀內編碼用INTRA表示,跳幀用SKIP表示! 

  在H.264中采用了以下多種編碼模式! 

  (1)幀內編碼  

  幀內編碼有INTRA-4×4, INTRA-16×16,INTRA-PCM,SKIP等。在幀內編碼中,采用空間域的預測,INTRA-4×4中視內容不同又可進一步分成利用鄰近像素的垂直預測、水平預測等9種預測模式,INTRA-16×16則用于平坦區(qū),INTRA-PCM則采用直接傳送像素不進行預測,以上共有12種不同編碼模式。  

 。2)幀間編碼  

  幀間編碼有INTER-16×16,INTER-16×8, INTER-8×16, INTER-8×8,還有INTER-8×8的子模式,即INTER-8×8, INTER-8×4 ,INTER-4×8,INTER-4×4等8種! 

  (3)幀編碼和場編碼自適應方式選擇  

  對于運動量較小的,則幀編碼時鄰行之間空間相關性大,故采用幀編碼;對于運動量大的,則場編碼鄰行間的時間相關性大,故采用場編碼。由于一幀中有一部分內容運動量大,有一部分內容運動量小,則又可在幀編碼中進一步分成圖像自適應幀場(PAFF)和宏塊自適應幀場(MBAFF)等共三種模式! 

  如此眾多的編碼模式,根據內容的運動狀況、細節(jié)等不同,采用自適應選擇方式,視頻質量顯然可提高,但計算量也很大。

  2.多種預測精度  

  (1)1/4象素精度的預測  

  過去,只采用整像素或1/2像素的精度進行預測,在H.264中可采用1/4像素精度進行預測。眾所周知,預測精度越高,則壓縮比越高。H.264中曾建議用1/8像素精度預測,后來停止使用的原因是太高的精度使編碼復雜度增加,但壓縮比增加不多! 

 。2)多參考幀選擇  

  過去,在H.261等標準中,運動補償時只選用前一幀作參考幀。為了進一步提高預測精度,H.264中可選用多至前后5幀的多參考幀(見圖1)。


3.熵編碼自適應技術  

  視頻信息(或殘差信息)經變換、量化后,利用熵編碼可進一步壓縮碼率。以往在熵編碼時由于只采用一張固定的碼表,無法適應視頻信息本身的統(tǒng)計特性,因此壓縮比不高! 

  在H.264中采用了兩種自適應的熵編碼:上下文自適應變長編碼(CAVLC)和上下文自適應二進制算術編碼(CABAC),它們都利用待編碼視頻信息鄰近已編碼像素的統(tǒng)計特性,因而碼率壓縮比(編碼效率)進一步提高,而后者編碼效率更高,但計算更復雜些。

  .R-D優(yōu)化技術  

  由信息論可知,在一定失真D下,傳輸碼率有一個最小值R,這時,如傳送更低碼率,其失真必大于D,也就是說R與D之間有一個優(yōu)化的問題。我們的任務是在一定的傳輸碼率R的限制下要求失真最小,即視頻質量最好(見圖2)。


  仔細分析發(fā)現,這個問題十分復雜,牽涉到視頻編碼中一系列問題,首先是選擇編碼模式。如上所述,編碼模式的種類很多,隨著視頻內容不同而不同。其次還有編碼參數的選擇,如多種量化節(jié)距(量化步長)、多種變換方式(DCT、小波變換……)、多種熵編碼方法等。  

  最近發(fā)展了一種利用拉格蘭其的R-D優(yōu)化算法,其大體步驟如下(以幀間編碼為例):  

  ·找出以R-D優(yōu)化為目標的運動矢量mi(這和以往的按當前宏塊與參考宏塊之間誤差最小的目標是不同的);


  其中,M為可能的編碼模式集合,其失真項為:


  其中,s,s'分別為當前塊和參考塊,Ai,x,y分別為當前塊及其中的像素值,λMOTION 為選擇運動矢量的拉格蘭其常數! 

  上述公式,可選出R-D優(yōu)化時的運動矢量mi! 

  ·選擇編碼參數量化值Q(在編碼模式已自適應選擇時),利用拉格蘭其方法實現R一定條件下,失真D最小,具體說是拉格蘭其代價函數JMODE最小。


  ·通過調整Q值,計算出DREC和RREC,最后得到JMODE最小值,于是得到R-D最優(yōu)時的Q值! 

  由以上可見,其計算量是相當大的。

  5.視頻信號的去方塊后處理  

  為了提高視頻質量,從根本上說,應使接收者的人眼在視覺上享受到一種高質量的圖像。因此,現在發(fā)展一種解碼環(huán)路的去方塊濾波器,它既能濾去由于編碼造成的人為的方塊效應,又能保留原圖像中應有的細節(jié)、邊緣等! 

  綜上可見,目前的視頻壓縮編碼技術已有了重大進展,在同樣碼率下,利用以上新的編碼技術,相對于H.263或MPEG-4可使碼率降低一半,或者說同樣碼率下,峰值信噪比約有2 dB的提高,其代價是復雜度高(即計算量大)。由于高速DSP技術也有了重大進展,這類復雜度的問題應該說是可以解決的,當然對其編碼方法的優(yōu)化仍有不少工作需做。

 。桑泻蜔o線網絡下的視頻傳輸技術

  1.IP網絡的視頻傳輸  

  這里的IP網絡主要是公用的IP網,即INTERnet網。由于網絡資源是共享的,當流量突然增大時往往導致網絡的擁塞和緩存的溢出,于是丟包、誤碼等很容易發(fā)生。除以往編碼標準中已有的多種圖像分割、幀內片插入等防止誤碼擴散外,H.264中還包括如下各項! 

 。1)參數組  

  序列參數組包括有關屬于該序列的圖像信息,而圖像參數組則包含所有屬于該圖像的所有條(slice)信息,它們都有不同的序列號位置,并放在每一編碼片的片頭上,由于有序號,這就可用來增強誤碼的恢復能力。  

 。2)靈活的宏塊排序(FMO)  

  FMO(如圖3)中一個圖像由6×4 MB組成,其中黑片和白片各屬不同的共兩個片,這種FMO的宏塊組成方式,顯然可以提高抗誤碼能力。例如黑片丟失,即使黑片中所有宏塊全丟失,也可利用領域的相關性,采用掩蓋技術,由白片很容易得到近似的丟失的黑宏塊,人眼幾乎覺察不出已發(fā)生了丟包。  

 。3)冗余片(RS)  

  編碼時在同一比特流中除基本信息(采用較低Q值)外,還包括冗余信息(采用較高的Q值),例如解碼時,如基本片丟失,還可重建冗余片,從而得到一個較“粗”的重建圖像! 

 。4)網絡自適應層(NAL)句法結構  

  NAL和以往標準不同,在 H.264中設置NAL層,把一個數據包(采用RTP/RTCP規(guī)程)放在一個NAL單元中,它的句法結構可適用于各種不同網絡,它的頭信息結構見圖4,全長8 bit,其中T為類型,長5 bit,包括32個不同類型的NAL單元;R為2 bit,指示該NAL單元的重要性,分四個等級,用于不同的誤碼保護;F為1 bit,指示該單元是否有誤碼(正常為0,誤碼為1)?梢姡危粒痰木浞ńY構充分考慮到不同網絡環(huán)境下的誤碼保護。

  2.無線網絡的視頻傳輸  

 。1)傳輸包和片都應較短  

  不同誤碼格式和不同包長其丟包率是不同的(見表1)。





  傳輸包短些,則丟包率低些,包長1 000 B時丟包率低于5%(見圖5)。帶有包的片也自然不宜長,設片的目的是防止了誤碼擴散,因為片本身是自我包含的,不能利用其他片來預測當前片。  

  (2)瞬時解碼更新(IDR)  

  除了有規(guī)則的幀內編碼插入以防止誤碼擴散,還應配有解碼的瞬時更新,以防預測誤碼的進一步擴散。  

 。3)FEC,ARQ及誤碼跟蹤的組合  

  前向糾錯(FEC)已廣泛地用于檢測和糾正誤碼,在H.261和H.263中,利用(511,493)的BCH碼,可糾正每個包2 bit隨機誤碼,但不能糾正突發(fā)誤碼。幀交織可緩解這個問題,但它會帶來一定時延,在實時視頻通信不宜采用FEC。由于視頻流中各個符號在不同位置重要性不同,可利用FEC對重要的符號進行不等誤碼保護(VEP)。  

  自動重復要求(ARQ)也是通信中已被廣泛應用的糾錯技術,它能有效地恢復丟失的包和糾正突發(fā)誤碼,但它需要有一個反饋信道,因此廣播電視中不能采用該技術。ARQ另一個問題是環(huán)路時延較長! 

  誤碼跟蹤是另一種減少誤碼的方法,它利用從ARQ得到的丟包信息跟蹤解碼器性能,并采用幀內方塊停止誤碼擴散,但它需要容量較大的緩存器。  

  把FEC,ARQ和誤碼跟蹤等技術很好地組合起來,可獲得相當好的抗誤碼效果! 

  (4)低時延的ARQ技術  

  如上所述,ARQ會引入較大時延,為此,某些文獻提出了一種無線環(huán)境下低時延的ARQ技術,即在基站設置一個視頻代理服務器,它可適用于H.261,H.263,MPEG-1,MPEG-2,MPEG-4以及H.264中。對“Foreman”視頻序列的實驗表明,在隨機誤比特率10-3的惡劣環(huán)境下,利用該技術,亮度信號的PSNR僅降低 0.35 dB! 

  無線視頻通信網絡見圖6,時延TARQ見公式(8): 


  其中,p為丟包率,T環(huán)為環(huán)路時延! 

  如在基站設置ARQ代理服務器,則可大大減少TARQ。分析得到:


  其中,Pω1,Pω2為無線鏈路的丟包率,Pg為有線鏈路的丟包率。Tω1net,Tω2net為無線傳輸時延,Tgnet為有線網絡傳輸時延。


  200 ms,又設無線環(huán)境下丟包率Pω1=Pω2=2×10-2,有線網絡丟包率Pg=10-6,則設置ARQ視頻代理服務器平均時延TARQ2=0.82 ms,而不設ARQ代理服務器,由公式(8)可得點到點的TARQ=18ms?梢,不設和設代理服務器,其TARQ差22倍。當然這是理想值。但可見,這種設ARQ代理服務器后時延大大減少確是不爭的事實,從而可在視頻實時通信中利用ARQ和FEC等。




復雜度估計  

  由上述視頻壓縮技術的新發(fā)展,可知視頻壓縮比和質量都有了顯著提高,但其代價是計算量大,復雜度高。隨著DSP技術的進一步發(fā)展,現在已開發(fā)了若干高速視頻處理芯片,如TI公司的DM642和EQATOR公司的BSP-15等,其運算能力均在4 000 MIPS以上,能滿足H.264等高速需求。當然,優(yōu)化和改進這些新編碼算法仍有不少工作要做。

世界電信



相關鏈接:
視訊市場未來競爭格局面臨變數 2004-12-29
國內視訊市場欣欣向榮 鼎視通穩(wěn)步前行繼續(xù)領航 2004-12-10
7302 ISAM——IPTV視頻業(yè)務的基石 2004-12-10
視訊教育帶給在線培訓教育新商機 2004-12-08
體驗廉價寬帶電話 聯通寶視通試用手記 2004-12-07

分類信息:     文摘   技術_視像通訊_文摘