馬思偉:
北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授, 2005年博士畢業(yè)于中國科學(xué)院計算技術(shù)研究所。2005年8月至2007年8月在美國南加州大學(xué)進(jìn)行博士后研究,之后到北大工作至今。2013年獲國家自然科學(xué)基金委優(yōu)青項目資助,2015年入選中組部第二批青年拔尖人才計劃。主要研究方向為視頻編碼及處理,已發(fā)表論文200余篇,已獲授權(quán)發(fā)明專利40多項。擔(dān)任IEEE Transactions on Circuits and System for Video Technolgoy(TCSVT)、Journal of Visual Communication and Representation(JVCIR)期刊編委(AE)、中國圖象圖形學(xué)學(xué)會理事、AVS視頻組聯(lián)合組長等。自2002年起,陸續(xù)參與組織AVS1、AVS+、AVS2一系列國家標(biāo)準(zhǔn)的制定,曾獲國家技術(shù)發(fā)明獎二等獎、國家科學(xué)技術(shù)進(jìn)步獎二等獎等獎勵。

首先我們回顧一下視頻編碼的歷史,視頻編碼起源于廣播電視,在很長一段時間里視頻編解碼的變革主要推動力是來自于廣播電視。當(dāng)然,今天我們看互聯(lián)網(wǎng)的視頻編碼是速度越來越快,昨天在ICET2017年世界大會上,ICET的主席還說到以前一個編碼是十年更新一版,但是現(xiàn)在從H.265最新進(jìn)展的來看,可能不到十年。
我們看到這個圖,大家可能在小的時候見到過,電視上一個圓盤,這是最主要的電視測試信號,這是1951年第一部數(shù)字電視和廣播。這個起源是脈沖調(diào)制編碼,相當(dāng)于一個脈沖一個象素值,比較早的是用固定的比特,用8比特表示圖象電視信號編碼傳輸。這是在廣播電視領(lǐng)域。

到了我們計算機(jī)行業(yè),計算機(jī)誕生于1946年,但是在計算機(jī)上出現(xiàn)圖象是到了1957年, Kirsch是第一幅數(shù)字圖象的創(chuàng)造者,他用他的兒子做了第一幅數(shù)字圖像。2007年是這一幅圖象誕生50周年,現(xiàn)在是60周年了,原來的小baby現(xiàn)在也已經(jīng)是50、60歲的老頭了。今天的數(shù)字圖象,已經(jīng)到了4K甚至8K。

到了編碼,編碼的原理是因為視頻里面有很多冗余,包括連續(xù)兩幅圖象出現(xiàn)的時域冗余,還有人眼對高頻信息不敏感的感知冗余;谶@個原理,現(xiàn)在視頻編解碼框架從早期261開始,一直到今天266快出來了,框架基本上沒有太多變化。
在這個框架里面,編碼技術(shù)可以主要分成三大塊。變換編碼,剛剛提到通過變換把高頻信息、空域、時域的冗余信息去掉。還有預(yù)測編碼,還有熵編碼。這是三大塊編碼的技術(shù)。

三大塊編碼技術(shù),從1950年左右開始。1946年計算機(jī)誕生,1948年是相對信息論,50年代初開始了數(shù)字化開始視頻數(shù)字編碼時代。在早期由于計算能力限制,基本上是基于象素處理,用統(tǒng)計模型去處理。計算能力增強了之后現(xiàn)在有基于塊的處理。原來只能是基于圖象去做,后面才可以基于塊的處理,基于塊的運動估計、運動補償,像塊大小也可以變化,今天我們看到的H.264、265都是這樣。

再看當(dāng)下的視頻編碼技術(shù)進(jìn)展。首先是空間的分辨率,從原來的小圖象到標(biāo)清、到高清、再到超高清。第二,是時間分辨率,從原來的15幀,還有更高的20幀,到120。第三,采樣精度,現(xiàn)在的HDR高動態(tài)范圍電視,至少是10比特了,但是10比特夠不夠,將來還會發(fā)展,也可能到了20比特。第四,視點數(shù)和視場范圍,這兩個是密切相關(guān)的。視頻傳的不是一路視頻,可能是兩路,可能是多路,這是視點數(shù)。視頻的范圍,看到的角度,越來越寬,這是視場范圍。第五,模型數(shù)據(jù)。模型數(shù)據(jù)是包括輪廓對象的刻劃。深度數(shù)據(jù),還包括特征,對圖像內(nèi)容、對象的認(rèn)識。還有是點云,完全可以把對象重建出來,遠(yuǎn)景重現(xiàn)就依賴這項技術(shù)。

模型編碼,是標(biāo)準(zhǔn)之外的編碼。模型編碼這個概念也是比較久了,大概在80年代后期,一直到90年代中期的時候,曾經(jīng)有一個很大的呼聲,模型編碼是第二類編碼,但是今天為止我們發(fā)現(xiàn)二代始終沒上臺,始終在用原來的二代。模型編碼的概念很光,可以把原基于象素的編碼都可以涵蓋,也是模型,只不過它的模型是基于信號模型。當(dāng)然我們熟悉的是對象模型,這個概念很新,但是它也沒有用起來,也是有很多問題,在這里提到場景的解析,人和場地的解析。
更進(jìn)一步,包括對人,比如人的身體、臉可以建更高精度的模型。所以這對應(yīng)表格上是在早期過去編碼歷史也有反應(yīng),包括基于人臉模型,甚至人臉哭和笑,只要是做好模型,將來傳很少的數(shù)據(jù)就可以還原。當(dāng)然最后邊的發(fā)展最后還提到智能編碼,這是綜合了信號與視覺的模型,基于學(xué)習(xí)的視頻編碼。

再看看視頻編碼的發(fā)展趨勢。4K越來越流行。我們看到互聯(lián)網(wǎng)廣播,包括最近廣東也開會提出下一步要提出4K電視廣播技術(shù),我們北京也提出2022年冬奧會是8K的試播。上圖可以對比一下,有測試8K,左上角的高清多么小。當(dāng)然8K視頻不只是分辨率的問題,還有配套的技術(shù),包括采樣精度、幀率和聲音。

這是10億象素的相機(jī)拍攝的一張照片,圖片一直放大,可以清楚的看到“太和殿”三個字。

剛剛說的主要是分辨率的增長。分辨率上去之后,并不是說要傳一個更大的視頻,對于后端來說,意味著可以提供更多的視頻應(yīng)用形式,比如AR和VR,F(xiàn)在4K做VR的視覺效果還是有問題的,還是需要更高的視頻帶寬和視頻精度去傳輸。模型編碼,對AR也有更大的提升作用。

如果看挑戰(zhàn),第一是數(shù)據(jù)量的壓縮,依然比較嚴(yán)峻。8K、4K、HDR這樣的視頻,原始數(shù)據(jù)級是60Gbps。

第二個挑戰(zhàn)是,從壓縮到分析。剛剛講到視頻編碼的第一個推動作用是廣播電視,看到更好的視覺質(zhì)量。但是到今天為止,世界上好多視頻,比如監(jiān)控,并不是人要去看的,是計算機(jī)要去看的。我們沒有人去盯監(jiān)控視頻,希望計算機(jī)來能夠完成分析。目前的壓縮是面向存儲和傳輸,降低帶寬占用,但是分析的支持相當(dāng)弱。所以,很多視頻分析的研究是在壓縮完之后進(jìn)行。但是,隨著現(xiàn)在前期分析識別技術(shù)越來越強,很多視頻分析開始在視頻編碼時就進(jìn)行智能分析、智能編碼。

最新進(jìn)展我也快速過一下,一個是大家最關(guān)心的JEM266,高通推動新一代的發(fā)展,最早是在MPEG會議提出,提出HM—KTA—1.0,到2020年制定新的標(biāo)準(zhǔn)。

JEM的性能有很大提升。客觀性測試上,編碼效率已經(jīng)提升了30%,復(fù)雜度增加了12倍,這對編碼實現(xiàn)還是很有壓力的。這是剛剛出來的雛形,后端肯定會在復(fù)雜度和性能之間的做更多優(yōu)化做更多技術(shù)。

最近已經(jīng)有幾家平臺基于JEM做了一些嘗試,可以看到他們的測試結(jié)果。在SDR、HDR、360video三個平臺,可以看到基本上原來的碼率下一半的時候可以達(dá)到同等的要求。這個對8K很有吸引力,

從固定精度運動矢量到自適應(yīng)精度運動矢量,離預(yù)測中心比較近是,用高精度,比較遠(yuǎn)時用低精度,以此來節(jié)省運動矢量編碼的碼率。

第二個是關(guān)于劃分,劃分模式太多,大家在選擇起來比較頭疼。

再說一下360,基本上是把投影拼接,拼接完了之后再壓縮編碼。在這個環(huán)節(jié)里面最重要的是投影數(shù)據(jù),投影數(shù)據(jù)決定你要壓縮什么、丟失什么,對整個VR的體驗影響很多。這是很重要的方向。

從圖象這塊我們可以看到全景視頻投影,從立方體、八面體、二十面體、球體,JEM里面有十幾種投影方式。

對于質(zhì)量評價不一樣,當(dāng)然這種質(zhì)量評價也是影響你編碼工具的設(shè)計,這兒有一個WSPSNR的概念因為它是從球面投到平面上去,有些數(shù)據(jù)丟了,如何計算WSPSNR很難,當(dāng)然還有很多其他的方式。

剛剛講到JEM的技術(shù)。像光場這塊原來是聚焦一個圖象,現(xiàn)在是把不同方向的內(nèi)容光線記錄下來,一遍是利用相機(jī)陣列,或者微透鏡成像。光場圖像壓縮,JPEG比較積極,它是在2017年1月份發(fā)布光場圖象壓縮平臺。
在這里我們做了初步探索,對光場圖象里面有很多問題,每一個小透鏡采集的光和圖象不一樣,中間有很多差異。弄完之后實際上每個濾波就是一個視頻,每一個小透鏡就是一個小圖象,這些差異需要處理。

再后來數(shù)據(jù)采集就是點云采集,把人臉模型變成動畫場面。后面我們要把三維場景傳輸過去,這是下一步場景三維模型建模的技術(shù)發(fā)展方向。在這塊MPE也是比較迅速。

在今年4微分發(fā)布的CFP,大概10月份確立第一個驗證平臺,這個是類似于AR、VR可以把動態(tài)模型用三維模型傳輸過去。

這是序列編碼框架,把編碼數(shù)據(jù)包裝到每一個盒子里面,當(dāng)然對于點云的數(shù)據(jù)要復(fù)雜的多一些。

這是對比的效果圖,可以看到這是原始數(shù)據(jù),一幀點云可能是136MB,我們看到壓縮一千倍、一萬倍,信息會丟掉不少。

下面討論關(guān)于未來,本來簡史我們很熟悉,包括人類簡史、未來簡史,包括赫拉利講到人類簡史說三個革命,一個是認(rèn)知革命,因為認(rèn)知革命會制造工具,還有一個是農(nóng)業(yè)革命可以養(yǎng)活更多的人,因為有個更多的人,才有人力去搞科學(xué)革命。
在視頻編碼方面,我把認(rèn)知革命改成“采集革命”。視頻采集的深度、點云、以及壓縮感知,Nyquist采樣定理等對采集有很大影響。采集是編碼的源頭,采集會影響到編碼的框架設(shè)計。第二個計算革命,剛剛說農(nóng)業(yè)可以創(chuàng)造更多的糧產(chǎn),可以養(yǎng)活更多的人。在視頻編碼領(lǐng)域,能編碼,是因為計算能力的支持。計算的初期是基于像素、后來是基于塊,現(xiàn)在有更多更復(fù)雜的計算。早期是CPU,后來GPU,現(xiàn)在有NPU。這些計算能力很強大,但是視頻編碼目前還沒有利用上這些計算能力。目前正在探索,利用這些計算能力現(xiàn)在在探索基于神經(jīng)網(wǎng)絡(luò)的編碼,就是想利用這種更高效的計算能力。第三個是科學(xué)革命,我認(rèn)為對于編碼來說是認(rèn)知革命。認(rèn)識視頻里的內(nèi)容,對內(nèi)容有所識別。這里面包括簡單的視覺特征,高級一點是深度學(xué)習(xí),更高級是類腦計算學(xué)習(xí)。這個過程是支持未來視頻編碼的方向。
這三者相輔相成,采集有新東西了,計算能力要跟上。計算越強會支持采集。同樣對于認(rèn)知也是,計算能力更強也會加強認(rèn)知。所以這三者是相互支撐的關(guān)系。

我們下面看采集革命,輸出的時候是離散的數(shù)字信號,這里面最有名的就是奈奎斯特采樣定理,是要過采樣。4K、8K那么大,采集到的數(shù)據(jù)有很多是冗余的,是為了重建。

但是這種采集,與人眼的處理差別是很大的。這里引入了壓縮感知,采樣時強調(diào)稀疏采樣。

這里面一個直接的應(yīng)用,e是原圖象。采樣時通過稀疏采樣,只采樣20%的象素,采集到的是a,再基于稀疏圖象的原理還原成e。數(shù)據(jù)量大大降低。

信號采集在時間上和幅度上都是離散的,這就是離散信號。但是離散信號帶來的問題就是數(shù)據(jù)量增加特別多。這都是過采樣的方式。

但是人腦的采集過程是,一開始是光刺激發(fā)生,通過視網(wǎng)膜光電轉(zhuǎn)換和編碼,最后通過視網(wǎng)膜認(rèn)出來。從圖像出來到人腦把這個圖像認(rèn)出來,需要經(jīng)過160ms。肯定今天的采集技術(shù)是比人眼采集頻率高很多,但是智能分析識別上人要比設(shè)備高很多。
人臉采集不一樣,上面是模擬信號,下面是數(shù)據(jù)信號,實際上我們?nèi)搜郾环Q之為神經(jīng)脈沖編碼,當(dāng)人看到一個東西如果沒有發(fā)生變化,是不發(fā)放神經(jīng)脈沖的,相當(dāng)于不傳信號。所以,人腦的功耗是特別的。如果人腦的功耗也很高,就會把大腦燒掉。所以,人是靠很低功耗的計算,來實現(xiàn)分析識別。
這是一個很低功耗的圖象傳感器,區(qū)別于傳統(tǒng)的CMOS、CCD,做陣列刷新。這是一種事件驅(qū)動的采集,對于事件的發(fā)生分析,精度要求很高效。

計算革命我也有一些思考。一個是我們知道前端計算,對于視頻編解碼都有專門的芯片,比如早期的C-Cube的處理器,VCD、DVD都使用這種處理器。最近有很強的ARM處理器可以支持4K,Tesla在使用的H.265編解碼器,可以處理8K。最新的寒武紀(jì)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理器。

這里我們還是從變換說起,變換是視頻編碼很重要的模塊,最早的變化是基于8x8 DCT。DCT的好處是當(dāng)信號相關(guān)性很強,相關(guān)系數(shù)達(dá)到0.95的時候,DCT就是最優(yōu)的變換。但是實際信號差別很大,如果圖像一旦有邊緣,DCT就變得不高效,因為相關(guān)性降低了。這是就提出了基于方向的變化,排列一下,分別進(jìn)行相關(guān)性變換;谶@種原理,擴(kuò)展出了DST,離散正弦變化。到了正弦變化之后還不算完,在H.265發(fā)展過程開始通過尋來找KLT最優(yōu)變換。在H.266提出了更新的做法,原來是離線訓(xùn)練,H.266中使用在線訓(xùn)練,通過前面一兩幀的數(shù)據(jù)在線訓(xùn)練。

1987年,神經(jīng)網(wǎng)絡(luò)編碼提出。最近,Google開始引發(fā)關(guān)于神經(jīng)網(wǎng)絡(luò)編碼的革命。這么多年的發(fā)展,神經(jīng)網(wǎng)絡(luò)編碼的原理,基本上還是想通的。

上文講的是神經(jīng)網(wǎng)絡(luò)可以進(jìn)行更多的計算,那么這里給一個例子,進(jìn)行這么多計算,作用在哪?左邊是縮倍率示意圖,右邊是編碼復(fù)雜度示意圖,我們關(guān)注最后面兩個,一個是JPEG和Residual(基于神經(jīng)網(wǎng)絡(luò)的編碼)的GRU和CPU。壓縮倍率,JPEG和Residual的都是15倍。在計算復(fù)雜度上,如果把JPEG當(dāng)做是1,那么Residual在GPU上進(jìn)行的編碼復(fù)雜度是3200,在CPU上的是26萬。

原來做濾波是做統(tǒng)計,求一個最優(yōu)的濾波系數(shù)。這也可以用神經(jīng)網(wǎng)絡(luò)代替,基于神經(jīng)網(wǎng)絡(luò)做濾波,不訓(xùn)練,直接通過神經(jīng)網(wǎng)絡(luò)就能計算的特別好。

前文是基于空域的濾波。還有基于時域的,像和幀之間的相關(guān)性,也可以用上,通過訓(xùn)練改善優(yōu)化,都能獲得性能的提升……

神經(jīng)網(wǎng)絡(luò)也可以做生成預(yù)測。

最后一塊是認(rèn)知革命。認(rèn)知革命是講前端處理都是基于塊,我們看到的塊都是像素值、是數(shù)。但是人腦處理的時候從邊緣到輪廓到對象,差別很大。如果更高效、更智能的編碼,應(yīng)該是基于特征的編碼,才可以做更高效的分析處理。

近期就是基于特征的編碼(CDVA),最新的2018年的標(biāo)準(zhǔn)。視頻監(jiān)控是一個典型應(yīng)用。上百萬路視頻,如果是傳統(tǒng)的編碼,數(shù)據(jù)量達(dá)到1Tbps,如果是CDVA,則數(shù)據(jù)量降到10Gbps,上萬倍壓縮比。傳很少的數(shù)據(jù)達(dá)到分析識別的目的。


紋理特征聯(lián)合編碼,現(xiàn)在已經(jīng)有一些方案了。一路傳視頻、一路傳特征,來輔助分析識別。
總結(jié):
4K正在普 ,8K是未來趨勢,下一代標(biāo)準(zhǔn)值得關(guān)注
采集革命進(jìn)一步擴(kuò)展了視覺數(shù)據(jù)的維度,豐富了視覺數(shù)據(jù)編碼的多樣性
采集、計算和認(rèn)知技術(shù)的融合,使得智能編碼成為可能
訪問:http://www.itdks.com/dakashuo/playback/1191,點擊視頻回放-立即報名,即可查看大會內(nèi)容回放。
訪問:https://pan.baidu.com/s/1kVrDrp1,獲取大會PPT。
