中國科學(xué)院計算技術(shù)研究所副總工、網(wǎng)絡(luò)科學(xué)與技術(shù)重點實驗室主任 程學(xué)旗
大數(shù)據(jù)時代,由于數(shù)據(jù)體量巨大、分布廣泛給安全問題帶來了新的挑戰(zhàn)。在真實空間和數(shù)據(jù)空間之間存在著相對應(yīng)的、平行的關(guān)系,在真實空間里的任何一個活動、交互和行為,在數(shù)據(jù)空間里都有著相對應(yīng)的表現(xiàn)。因此,數(shù)據(jù)空間里存在的手段和解決辦法都能夠影響到真實空間。數(shù)據(jù)空間可以發(fā)揮的作用是無所不在的,這也是大數(shù)據(jù)價值所在。然而,現(xiàn)實中企業(yè)、個人乃至物體的信息,比如移動互聯(lián)網(wǎng)、云計算和物聯(lián)網(wǎng)等,都是產(chǎn)生大數(shù)據(jù)的載體,也真正存在著大數(shù)據(jù),同時它們也成為攻擊的載體。
APT攻擊是一種有組織、有特定目標(biāo)、隱蔽性強、破壞力大、持續(xù)時間長的新型攻擊和威脅。它的主要特點是手段多樣、目標(biāo)明確和持續(xù)時間長。當(dāng)前,APT攻擊已經(jīng)成為互聯(lián)網(wǎng)安全領(lǐng)域關(guān)注的一個大熱點,并且持續(xù)升溫。
防不勝防的APTAPT是高級持續(xù)威脅,所謂的“高級”體現(xiàn)在其攻擊行為特征的難以提取、攻擊渠道的多元化和攻擊空間的不確定性上。首先,APT獲取權(quán)限是通過零日攻擊實現(xiàn)的,然而通過獲取和分析相應(yīng)攻擊的指紋特征來識別攻擊具有明顯的滯后性,這導(dǎo)致通過實時監(jiān)測發(fā)現(xiàn)APT攻擊不可行。APT注重對動態(tài)行為和靜態(tài)文件的隱蔽,比如隱蔽通道、加密通道等,幾乎所有的APT都具有這樣的特點;其次,APT攻擊渠道的多元化導(dǎo)致很難使用技術(shù)手段建立一張防護(hù)網(wǎng)來防止攻擊;最后是APT攻擊空間的不確定性,即任何一個階段、任何一個網(wǎng)絡(luò)都有可能成為攻擊的目標(biāo),包括邊緣性的、非核心的節(jié)點。
如果把網(wǎng)絡(luò)上的安全威脅看成是人體的一些疾病或者腫瘤,那么APT攻擊則相當(dāng)于一種慢性的、分階段的侵蝕,是“慢性疾病”,而慢性疾病往往是最難治愈的。大數(shù)據(jù)的特點是數(shù)據(jù)規(guī)模大、數(shù)據(jù)分布無所不在,這使得數(shù)據(jù)的價值密度變得更小、更分散,從而導(dǎo)致很難聚焦于高價值的數(shù)據(jù),這是大數(shù)據(jù)本身所帶來的攻擊檢測難點。據(jù)統(tǒng)計,攻擊從產(chǎn)生到被發(fā)現(xiàn)平均耗時5年,而我們是否能夠保證在5年的時間內(nèi)一直關(guān)注某些數(shù)據(jù)?這在物理世界都很難堅持,更何況是在數(shù)據(jù)無所不在的網(wǎng)絡(luò)空間。然而,攻擊者則可能一直持續(xù)關(guān)注著這些敏感數(shù)據(jù),這就造成APT攻擊防不勝防。
大數(shù)據(jù)與APT攻擊檢測目前,APT攻擊檢測圍繞著3個方面:惡意代碼檢測、主機(jī)應(yīng)用保護(hù)、網(wǎng)絡(luò)入侵檢測。
孤立地進(jìn)行惡意代碼的檢測和主機(jī)應(yīng)用保護(hù),對防御APT攻擊來說是很難奏效的。簡單來說,解決思路主要有以下幾方面:首先,雖然APT的載體存在于大數(shù)據(jù)中,給APT檢測和對抗帶來了一系列困難,但是也可以利用大數(shù)據(jù)對APT進(jìn)行一些檢測和應(yīng)對。如果有各層面、各階段的全方位信息數(shù)據(jù),即對任何交互行為都進(jìn)行檢測,可以利用不同的數(shù)據(jù)找到不同的階段進(jìn)行APT分析;其次是全流量分析,其核心是對全年的數(shù)據(jù)進(jìn)行存儲,在此基礎(chǔ)上做宏觀的分析、微觀特定事件的檢測。由于很多流量行為存在統(tǒng)計意義上的普適性規(guī)律,因此,要在大數(shù)據(jù)的情況下進(jìn)行小樣本的異常檢測;最后要解決大數(shù)據(jù)空間的不確定性問題。APT攻擊是以分布式方式進(jìn)行的,利用大數(shù)據(jù)組織、整理相關(guān)信息,提高截獲攻擊者攻擊路徑的概率。另一種可能是攻擊目標(biāo)是確定的,這種情況下將數(shù)據(jù)進(jìn)行存儲,形成所謂的歷史模式數(shù)據(jù),利用對歷史模式數(shù)據(jù)進(jìn)行重放來發(fā)現(xiàn)攻擊線索。
大數(shù)據(jù)的4個難題上述方法都是把相關(guān)的全部數(shù)據(jù)做完整的處理與分析。通常,大數(shù)據(jù)具有4個特征:體量大、速度快、數(shù)據(jù)格式和類型不同、數(shù)據(jù)真實精確(volume、velocity、variety和veracity)。這給數(shù)據(jù)存儲帶來一系列難點。對于APT而言,更多的是針對網(wǎng)絡(luò)空間,而網(wǎng)絡(luò)空間本身具有數(shù)據(jù)類型和數(shù)據(jù)格式不一樣,日志信息的行為、內(nèi)容、結(jié)構(gòu)化各異的特點。利用大數(shù)據(jù)進(jìn)行有效地監(jiān)測,不僅可以用來解決APT攻擊問題,也可以應(yīng)用到其它相關(guān)領(lǐng)域。對于大數(shù)據(jù)來說存在著一些共性、普世性的東西,其中包括4個需要關(guān)注的難題:
1.數(shù)據(jù)的復(fù)雜性。大數(shù)據(jù)的規(guī)模已不再是導(dǎo)致復(fù)雜性的第一要素,比如連接網(wǎng)絡(luò)的關(guān)系更復(fù)雜。由于一些數(shù)據(jù)包含了某些非法的行為,使得對數(shù)據(jù)復(fù)雜性的定義已經(jīng)不能使用所謂的規(guī)模來定義,而是需要使用一些新的規(guī)則。要把數(shù)據(jù)復(fù)雜性解決好,就需要找到數(shù)據(jù)的傳播路徑。如何獲得傳播路徑呢?一個辦法就是搜索,即把所有的可能路徑都找出來,然后判定哪些是異常的、有問題的和惡意的。這種判定方法把所有的可能性存下來,然后再去做判定,必然會導(dǎo)致規(guī)模巨大。如果從中找到穩(wěn)定的結(jié)構(gòu)特征,如擴(kuò)散行為、攻擊行為等,就可以采取一系列步驟。利用大數(shù)據(jù)進(jìn)行這樣的計算,就是尋找結(jié)構(gòu)規(guī)則性和網(wǎng)絡(luò)重合模式,進(jìn)而解決現(xiàn)有的難點。
2.計算的復(fù)雜性。當(dāng)數(shù)據(jù)存在于整個空間的時候,它實際上是一個主體存在多個狀態(tài)。網(wǎng)上的攻擊行為出現(xiàn)后,將其存儲下來進(jìn)行分析,分析之后再獲取網(wǎng)上的攻擊行為,然后再對其進(jìn)行篩選,這是永不停機(jī)的工作過程。最原始的輸入可能是網(wǎng)絡(luò)空間里、全流量數(shù)據(jù)中與APT持續(xù)攻擊之外的某個信息,在非停機(jī)的情況下,傳統(tǒng)的制造方法、數(shù)據(jù)的計算以及思路都會與實際想要的結(jié)果存在偏差,甚至南轅北轍。因此,需要找到一種新的、簡約式的集中計算進(jìn)行合適數(shù)量的數(shù)據(jù)分析,并不是全量數(shù)據(jù)。把所有的數(shù)據(jù)全部存儲進(jìn)行分析是不可行的。
3.系統(tǒng)的復(fù)雜性。由于獲取到的數(shù)據(jù)是不同的,因此,需要進(jìn)行存儲以便于做深入分析。當(dāng)進(jìn)行數(shù)據(jù)管理和查詢時,需要一系列的結(jié)構(gòu)、非結(jié)構(gòu)、半結(jié)構(gòu)化處理。一般的關(guān)系查詢、網(wǎng)絡(luò)查詢和建制查詢等需要各種手段和技術(shù),不存在一種技術(shù)或手段能解決所有的問題。利用大數(shù)據(jù)進(jìn)行APT攻擊檢測,需要一個基于相關(guān)數(shù)據(jù)生命周期的靈活的系統(tǒng)架構(gòu)。
4.大數(shù)據(jù)的學(xué)習(xí)。所謂學(xué)習(xí)是指根據(jù)已發(fā)現(xiàn)的事物或知識對未知的事物或知識進(jìn)行判定。在APT空間里,學(xué)習(xí)是指預(yù)測和泛化,這是因為大數(shù)據(jù)環(huán)境下數(shù)據(jù)的碎片化與無邊界,使得傳統(tǒng)解決方法中的一些基本假設(shè)有了實現(xiàn)的可能。