Teradata CTO寶立明:CIO數(shù)據(jù)分析需勇于創(chuàng)新
2011/05/25
第11屆Teradata數(shù)據(jù)中心峰會(huì)上,eNet硅谷動(dòng)力對(duì)Teradata的首席技術(shù)官Stephen Brobst寶立明先生進(jìn)行了專訪。了解到Teradata在數(shù)據(jù)分析和數(shù)據(jù)處理方面的優(yōu)勢(shì)以及CIO在需要數(shù)據(jù)分析與處理時(shí)需要注意的問(wèn)題。
Teradata數(shù)據(jù)分析與處理的優(yōu)勢(shì)
記者:隨著數(shù)據(jù)量的飛速增長(zhǎng),大家面對(duì)更多的信息的時(shí)候會(huì)很迷茫。Teradata如何幫助處理這些海量的信息?
寶立明:人們對(duì)于海量數(shù)據(jù)感到困惑是因?yàn)閷?duì)于整個(gè)數(shù)據(jù)的全局沒(méi)有很好的把握,他們所看到的只是破碎的、零散的、局部的數(shù)據(jù),就像你通常把一些數(shù)據(jù)做了一個(gè)總結(jié)一樣,而在這個(gè)總結(jié)的過(guò)程當(dāng)中,你會(huì)丟失掉很多細(xì)節(jié),而有很多有價(jià)值的信息正隱藏在具體的細(xì)節(jié)當(dāng)中。Teradata能幫助用戶深度了解這些數(shù)據(jù)的細(xì)節(jié),打個(gè)比方,幫助客戶了解數(shù)據(jù)每一個(gè)構(gòu)成的原子或者是分子。要實(shí)現(xiàn)這樣的目標(biāo),需要有很強(qiáng)的可伸展性。這種可伸展性可以幫助用戶能夠去掉那些局部性的對(duì)于數(shù)據(jù)的了解,深入到數(shù)據(jù)的細(xì)節(jié),這樣就可以解開(kāi)用戶對(duì)于整個(gè)大數(shù)據(jù)的困惑。
記者:過(guò)去在技術(shù)上,要分析非結(jié)構(gòu)性的信息的難處是什么?在買了Aster Data之后,可以解決這樣的問(wèn)題嗎?
寶立明:Teradata的數(shù)據(jù)庫(kù)主要用是來(lái)分析結(jié)構(gòu)性的數(shù)據(jù)。當(dāng)Teradata收購(gòu)了第三方的工具之后,我們可以把一些非結(jié)構(gòu)性數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)型數(shù)據(jù),再用Teradata的解決方案,或者產(chǎn)品進(jìn)行相應(yīng)的分析。收購(gòu)Aster Data之后,其實(shí)我們可以直接地把一些非結(jié)構(gòu)性的數(shù)據(jù)存儲(chǔ)到我們這里,然后可以直接對(duì)非結(jié)構(gòu)性的數(shù)據(jù)進(jìn)行相應(yīng)的分析。
如果你問(wèn)我是不是通過(guò)Aster Data,就完全解決了分析非結(jié)構(gòu)性數(shù)據(jù)的問(wèn)題,我的答案是我們永遠(yuǎn)不可能完全把某些問(wèn)題都解決。只不過(guò)是現(xiàn)在通過(guò)收購(gòu)Aster Data之后,這項(xiàng)工作變的更加容易一些了。
Teradata客戶數(shù)據(jù)保護(hù)的優(yōu)勢(shì)
記者:前一陣子大家都知道索尼在網(wǎng)上數(shù)據(jù)泄露那個(gè)事情,我想知道一下(50:45)在于保護(hù)用戶數(shù)據(jù)這方面有沒(méi)有一些相應(yīng)的措施?
寶立明:我們有一些非常先進(jìn)的加密技術(shù),實(shí)際上所有的設(shè)計(jì)都是加密的,都是來(lái)自數(shù)據(jù)庫(kù)加密,所以除此以外我們有完全并行的內(nèi)部的數(shù)據(jù)庫(kù)加密能力,也就是說(shuō)在表格等等都可以。從安全角度來(lái)說(shuō)可以把所有的數(shù)據(jù)進(jìn)行編加密、保存還有儲(chǔ)存。即使有一些也進(jìn)入了我們的系統(tǒng),他們也無(wú)法了解這個(gè)數(shù)據(jù),而且這些數(shù)據(jù)都必須加密這是客戶的選擇,最好的做法就是由客戶來(lái)進(jìn)行加密。
記者:在處理海量信息的時(shí)候,怎么保護(hù)用戶的隱私?
寶立明:關(guān)于隱私的保護(hù)的問(wèn)題,我們可以提供某些層次上的用戶隱私的保護(hù),如:通過(guò)對(duì)一些數(shù)據(jù)進(jìn)行加密,或者只讓需要知道數(shù)據(jù)的人了解、接觸或者訪問(wèn)到這些數(shù)據(jù),比如說(shuō)需要做決策的人,這只是一種層次上的隱私保護(hù)。但是更為重要的是,現(xiàn)在人們都非常擔(dān)心自己的數(shù)據(jù)或者信息會(huì)被別人看到,而Teradata可以通過(guò)數(shù)據(jù)挖掘的軟件解決這些問(wèn)題。通過(guò)數(shù)據(jù)挖掘軟件,實(shí)際上看到用戶的數(shù)據(jù)或者信息的并不是某個(gè)具體的人,而是一個(gè)軟件。這個(gè)軟件用來(lái)處理這些數(shù)據(jù),并且判斷這個(gè)數(shù)據(jù)應(yīng)該被什么樣的人所使用或者用于什么樣的目的。
就我個(gè)人而言也是數(shù)據(jù)的消費(fèi)者,我一旦收到比較有用的、有意思的廣告,盡管我知道這只是隨著郵件而附帶來(lái)的廣告,但是我仍然愿意收到它。所以說(shuō)作為一個(gè)消費(fèi)者,對(duì)于這樣有用的信息數(shù)據(jù),我還是能夠接受的。另外我覺(jué)得我作為一個(gè)消費(fèi)者,我也有權(quán)利做出一些決定,我要用哪些數(shù)據(jù)和信息,不用哪些類型的數(shù)據(jù)或者信息。因此消費(fèi)者實(shí)際上可以對(duì)此有一定的控制能力,同時(shí)也可以來(lái)決定哪些最符合他的利益的數(shù)據(jù)。
很多國(guó)家的立法者或者政府希望通過(guò)建立或者制定一些保護(hù)隱私的法律來(lái)實(shí)現(xiàn)對(duì)用戶信息的保護(hù)。但是這些立法者,對(duì)于數(shù)據(jù)相應(yīng)的分析是非常的不了解。最后導(dǎo)致的結(jié)果可能就是這種出于隱私保護(hù)目的的法律,最終產(chǎn)生不理想的結(jié)果。舉個(gè)例子,在某些國(guó)家對(duì)于一些電話用戶的呼叫記錄,最多只能保持90天,而且這樣的一種呼叫記錄只能夠用于計(jì)費(fèi)的目的。這樣就限制了電信運(yùn)營(yíng)公司對(duì)數(shù)據(jù)的保存,不能夠很好地來(lái)設(shè)計(jì)符合消費(fèi)者或者用戶需求的電信產(chǎn)品;同時(shí)在定價(jià)方面也受到了很大的限制,進(jìn)而影響了市場(chǎng)的競(jìng)爭(zhēng)。
所以這個(gè)例子說(shuō)明,雖然立法者的初衷是想要保護(hù)用戶的隱私,但是由于他缺乏對(duì)數(shù)據(jù)分析的了解,最終可能限制了用戶真正對(duì)信息和數(shù)據(jù)的使用。電信運(yùn)營(yíng)商如果要保留用戶電話通信的記錄,也有責(zé)任對(duì)記錄或者信息、數(shù)據(jù)進(jìn)行保護(hù),以免未經(jīng)授權(quán)的人來(lái)使用這些信息和數(shù)據(jù)。在這樣一個(gè)過(guò)程當(dāng)中,當(dāng)然就要用到加密的軟件或者是用到其他數(shù)據(jù)保護(hù)的方法。我們?cè)谌蚍秶鷥?nèi)是和一個(gè)叫做Protegrity公司來(lái)進(jìn)行很好的合作,他們有非常出色的加密的能力和技術(shù),所以我們就把他們加密的技術(shù)嵌入到了我們Teradata公司的產(chǎn)品和解決方案當(dāng)中,來(lái)為我們的用戶提供相應(yīng)的保護(hù)。
記者:最近日本發(fā)生的地震以及一些云供應(yīng)商的宕機(jī)情況讓我們對(duì)企業(yè)數(shù)據(jù)的災(zāi)難恢復(fù)得到了更大程度上的重視,Teradata是如何進(jìn)行數(shù)據(jù)災(zāi)難恢復(fù)的。
寶立明:每一個(gè)分支機(jī)構(gòu)當(dāng)中都會(huì)有一定的數(shù)據(jù)的存在,關(guān)鍵之處就是在創(chuàng)建這些數(shù)據(jù)的伊始,你就必須要對(duì)這些數(shù)據(jù)實(shí)現(xiàn)集中化,這樣做的好處就是這些數(shù)據(jù)不再是像孤島式的一個(gè)一個(gè)存在,而是被集中在一起,這樣你就有一個(gè)單一的數(shù)據(jù)來(lái)源。你可以通過(guò)使用數(shù)據(jù)集成的技術(shù),或者是使用Teradata公司所提供的這些技術(shù)和解決方案,深入到每一個(gè)數(shù)據(jù)的細(xì)節(jié)進(jìn)行了解。所以實(shí)現(xiàn)這樣一個(gè)數(shù)據(jù)的集中化之后,隨之而來(lái)的就是它可能也會(huì)出現(xiàn)這種單點(diǎn)的故障,這時(shí)候出現(xiàn)了單點(diǎn)的故障,就必須具備災(zāi)難恢復(fù)的能力。我們經(jīng)常采用的是多系統(tǒng)管理的能力,而且也能夠提供一些多個(gè)負(fù)載的能力。如果說(shuō)一旦某一個(gè)系統(tǒng),由于自然的災(zāi)害出現(xiàn)了故障,比如說(shuō)由于地震、颶風(fēng)出現(xiàn)了中斷,它就會(huì)自動(dòng)地來(lái)轉(zhuǎn)到其他的系統(tǒng)進(jìn)行相應(yīng)的一些數(shù)據(jù)處理和分析的能力。
有很多執(zhí)行這些關(guān)鍵任務(wù)的機(jī)構(gòu),或者是公司,都在采用這種方式來(lái)對(duì)自己的數(shù)據(jù)進(jìn)行管理。比如說(shuō)像沃爾瑪、e-bay、AT&T和世界銀行。另外中國(guó)現(xiàn)在也有很多客戶在完成或者執(zhí)行一些關(guān)鍵任務(wù)的時(shí)候,他們也會(huì)采用這樣的方式來(lái)做。
另外我還想強(qiáng)調(diào)一下,我們的災(zāi)難恢復(fù)的系統(tǒng)實(shí)際上是一個(gè)雙有源系統(tǒng),或者是一個(gè)雙活躍的系統(tǒng)。Teradata產(chǎn)品跟其他的產(chǎn)品不一樣,其他人員在做災(zāi)難恢復(fù)的時(shí)候,通常會(huì)有兩套系統(tǒng),一套只是備用的,也就是說(shuō)只有出現(xiàn)了災(zāi)難的時(shí)候,才會(huì)啟動(dòng)這樣的系統(tǒng)來(lái)做。但是我們的不同之處在于我們有兩套系統(tǒng),這兩套系統(tǒng)都是在有源狀態(tài)下進(jìn)行工作的,也就是都處于活躍的狀態(tài),我們會(huì)在這兩套系統(tǒng)之間,實(shí)現(xiàn)非常好的負(fù)載均衡。這兩套系統(tǒng),都在行之有效地工作,因此也帶來(lái)了非常高的成本的效率。而其他的公司的產(chǎn)品只有一套系統(tǒng)一直在動(dòng),而另外一套系統(tǒng)一直處在無(wú)源的狀態(tài)之下,或者說(shuō)一直不去積極地在工作,這時(shí)候相應(yīng)的成本也是非常高的。
CIO進(jìn)行數(shù)據(jù)分析需勇于創(chuàng)新
記者:商業(yè)智能現(xiàn)在正在演變成一種商業(yè)分析的趨勢(shì),傳統(tǒng)的數(shù)據(jù)分析方法已經(jīng)不太適合新的發(fā)展。對(duì)于這種新的發(fā)展趨勢(shì),Teradata怎么來(lái)迎合這種新的趨勢(shì)跟態(tài)度的?
寶立明:如果談到商業(yè)智能分析,能夠給人們帶來(lái)什么樣更多的價(jià)值,它最主要的一個(gè)價(jià)值就在于它能夠讓這些知識(shí)型的工作人員,更好地對(duì)數(shù)據(jù)進(jìn)行控制。就像剛才我們所提到的,我們提供了一種非常凝結(jié)的、云的環(huán)境,讓這些知識(shí)性的工作人員,能夠很好地來(lái)控制自己的數(shù)據(jù),也能夠控制對(duì)于數(shù)據(jù)的分析。比如說(shuō)像Teradata公司所提供的數(shù)據(jù)視覺(jué)化技術(shù),就可以使得知識(shí)型的工作人員,不需要有IT人員的介入,就可以把自己相應(yīng)的一些數(shù)據(jù)進(jìn)行分析和處理。
記者:在大數(shù)據(jù)時(shí)代,您也提到有很多技術(shù)在產(chǎn)生,您覺(jué)得這些技術(shù)對(duì)于數(shù)據(jù)倉(cāng)庫(kù)原有的一些技術(shù)只是功能上的擴(kuò)展還是說(shuō)意味著數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能原有的技術(shù)正在過(guò)時(shí)。
寶立明:我覺(jué)得新技術(shù)或者說(shuō)具有突破性意義的技術(shù)是非常必要的。所以這也就是我們?yōu)槭裁词召?gòu)Aster Data這家公司,因?yàn)樗峁┑木褪蔷哂型黄菩砸饬x的新的技術(shù)。我們認(rèn)為在一段時(shí)間內(nèi),新舊技術(shù)之間是有一個(gè)共存的關(guān)系,但是最終新的技術(shù)還是會(huì)合并成為一體,新技術(shù)要花一定的時(shí)間要不斷演進(jìn),最終慢慢地來(lái)形成對(duì)舊技術(shù)的包圍,以及最后把它融為一體。
記者:您作為數(shù)據(jù)分析與處理這方面的技術(shù)專家,能不能為我們展望一下您現(xiàn)在正在思考的沒(méi)有成型的未來(lái)的技術(shù)趨勢(shì)?
寶立明:我有四點(diǎn)跟你介紹一下,首先第一點(diǎn),就是剛才在新聞發(fā)布會(huì)的現(xiàn)場(chǎng)也提到的一點(diǎn),我們會(huì)看到傳感器將會(huì)是無(wú)處不在的,物聯(lián)網(wǎng)的不斷發(fā)展,也給我們帶來(lái)了海量的數(shù)據(jù),讓我們進(jìn)行分析。
第二點(diǎn),我們要實(shí)現(xiàn)規(guī);芏喾治鲂缘囊(guī)模要進(jìn)入數(shù)據(jù)庫(kù)當(dāng)中。我們不能只是做數(shù)據(jù)的拷貝,而更多地要把分析性的功能納入到數(shù)據(jù)庫(kù)當(dāng)中,比如說(shuō)像現(xiàn)在SAS和Teradata之間的一個(gè)合作,我們可以把SAS公司的數(shù)據(jù)挖掘的能力納入到我們數(shù)據(jù)庫(kù)當(dāng)中,另外還有Informix與我們的合作,我們要把它的數(shù)據(jù)集成功能納入到數(shù)據(jù)庫(kù)當(dāng)中。
第三點(diǎn),無(wú)處不在的或者普遍存在的商業(yè)智能。商業(yè)智能在將來(lái)會(huì)發(fā)展成為消費(fèi)者智能,所以“智能”以及“分析”這兩個(gè)詞應(yīng)該說(shuō)是未來(lái)非常關(guān)鍵的兩個(gè)要素。而且隨著移動(dòng)終端不斷地普及,我們看到越來(lái)越多的智能和分析的能力,會(huì)被終端用戶通過(guò)移動(dòng)的終端來(lái)實(shí)現(xiàn)。所以移動(dòng)終端對(duì)于未來(lái)也是非常重要的。
第四點(diǎn),這些非傳統(tǒng)性的數(shù)據(jù)分析,比如說(shuō)像社交媒體,像視頻或者像一些話音方面的數(shù)據(jù),從傳統(tǒng)意義上來(lái)說(shuō),我們是不需要對(duì)這些數(shù)據(jù)進(jìn)行分析的,但是這些數(shù)據(jù)也成為一個(gè)需要分析的數(shù)據(jù)。
記者:現(xiàn)在數(shù)據(jù)社會(huì)化的趨勢(shì),讓數(shù)據(jù)分析獲取比較困難。您認(rèn)為CIO應(yīng)該如何應(yīng)對(duì)這些數(shù)據(jù)的獲得與分析?
寶立明:數(shù)據(jù)社會(huì)化需要捕捉一些社交媒體所產(chǎn)生的用戶感覺(jué),這個(gè)時(shí)候我們就必須對(duì)這些社交媒體整個(gè)的網(wǎng)絡(luò)有一個(gè)非常清楚的了解和認(rèn)知,才可以從這個(gè)社交媒體網(wǎng)絡(luò)上提取相應(yīng)的數(shù)據(jù)和信息來(lái)近些分析,以此來(lái)得出對(duì)用戶的感覺(jué)、了解和捕捉。這時(shí)候所做的分析就包括,對(duì)社交媒體上的用戶的一些自然語(yǔ)言的處理,以及對(duì)他們的行為或者是一些相應(yīng)的活動(dòng)的分析和處理,這也就是我們收購(gòu)了Aster Data公司的原因。這個(gè)公司的技術(shù)可以幫助我們處理非結(jié)構(gòu)性的數(shù)據(jù),對(duì)它們進(jìn)行很好的分析。因此我對(duì)于CIO們的建議就是,應(yīng)該考慮做一些相應(yīng)的投資,也就是說(shuō)不要再僅僅局限于對(duì)傳統(tǒng)性的數(shù)據(jù)來(lái)進(jìn)行一些分析和處理,而現(xiàn)在需要來(lái)投入一些力量,來(lái)對(duì)非結(jié)構(gòu)性的數(shù)據(jù)進(jìn)行很好的分析。所以他們?cè)谙鄳?yīng)的策略和考慮的時(shí)候,要進(jìn)行重新的思索和定位。
eNet硅谷動(dòng)力
相關(guān)閱讀: