天天透天天干,欧美福利在线,国产三级网站,色婷婷综合网,亚洲欧美成人一区二区,亚洲国产精品成人久久久麻豆,国产剧情久久久

首頁 > 專題 > 文思海輝-乘數據之舟-達價值彼岸 > IBM產品介紹(西安站)

IBM產品介紹(西安站)
2014-11-28 11:43:42   評論:0 點擊:

  隨著中國金融市場的快速發(fā)展,互聯網金融對傳統金融行業(yè)的競爭,以及監(jiān)管力度的不斷加強,IT咨詢服務公司對金融企業(yè)的商業(yè)智能方案也面臨不斷創(chuàng)新。如何提升金融機構在管理、盈利、風險控等多方位的能力?如何將國際經驗更好的為中國市場服務?如何通過解決方案將海量數據轉化為對經營決策有價值的信息之路?如何將客戶智能分析成果行之有效地運用于服務渠道,并最終轉換為銷售業(yè)績?為解決中國金融機構在發(fā)展中所面臨的新問題,文思海輝在西安、蘇州、北京、成都、深圳五地舉辦了6場“乘數據之舟,達價值彼岸”系列活動。

  在主題為“乘數據之舟,達價值彼岸”的文思海輝商業(yè)智能解決方案系列研討會西安站現場,IBM大數據專家張光業(yè)做了IBM產品介紹。

  以下為演講實錄:

  各位來賓下午好,我是IBM公司軟件部的張光業(yè)。剛才賈總已經給大家介紹了建設企業(yè)基礎的信息平臺以及信息管控這方面的重要性,接下來我給大家介紹如何使用IBM的軟件包括IBM的解決方案幫助您來構建基礎的數據平臺,也解決數據倉庫平臺以及怎么幫我們實現信息管控和信息治理,也就是幫我們構建端到端的數據分析的解決方案,一個技術一個架構。

  剛才已經講了很多的,今天專門談數據,正是因為數據現在已經是我們整個企業(yè)的重要資產,我們如何更好的利用這些數據,特別是現在我們進入了大數據時代,對數據從它的緯度來講,從外延來講有了更多的延伸,比如銀行核心的還是我們現在客戶的信息,帳務信息,但是我們要做擴展,我們有很多微博信息,包括微信,社交媒體等等這些信息,旅游媒體信息,怎么來擁抱更加廣泛的數據幫助我們做更時時的決策這是對我們的要求,我們在面對大數據時代,怎么來實現剛才這些訴求,也就是在大數據時代,怎么來做?大家都聽過大數據,一提就是Hadoop、streams非常熱,但是一定要有自己的原則,也就是說在大數據時代,如何發(fā)揮作用首先一點我們還要堅持我們原來的現在已有的結構化數據,我們業(yè)務系統,數據倉的數據,還是最重要的源泉,同時我們要拓展我們思考的外延,也就是要納入一些更清新的東西,比如提到的一些媒體信息,包括日志信息,圖形圖象傳感器信息,幫助我們決策做到更精準,更時時。

  基于這些訴求,從IBM來講,也是提供了很好的大數據管理以及分析基礎的平臺,通過大數據分析技術平臺架構,我們現在做應用一定要做架構信息,一定要有穩(wěn)定的架構,再這個架構上來構建我們的應用,才能保證我們的系統長久的發(fā)展。從IBM來講也是提供了大數據分析基礎的平臺,這個基礎平臺從架構來講,基本上從幾個方面考慮,這邊是我們原來的核心系統,一些業(yè)務系統,包括新興的數據,比如社交媒體,位置信息,流的信息,怎么進行實現呢?首先我們會通過信息整合的平臺來幫助把分布在各個業(yè)務系統里面的結構化信息,包括新興的非結構化信息,通過信息整合平臺來存儲到數據倉庫,數據倉庫包括ODS系統,包括數據集市幫助我們做信息分析,以做出更好的決策。

  因為大數據時代,我們的數據隔聲越來越多,現在我們有很多包括社交媒體信息,包括一些影像等等非結構化信息,我們就會通過系統對非結構化的信息可能做一些預處理,加工,把數據里面重要信息做提純,提純出來之后形成一個結構化信息,同樣保存在我們的數據倉庫里面,這樣我們的分析外延會更加廣泛。

  另外還有一類叫流媒體信息,比如現在有很多視頻頭,傳感器,這些傳播數據是時時的不斷流動數據,我們就不能像傳統這樣,把數據都放到數據倉庫里面再做分析,這個時效性有問題,我們怎么在這種其他下做更時時的方式,我們就會有流數據的處理,也就是當這個數據流動過來之后,我立刻對數據做時時的響應,做時時分析做時時決策,這樣就能夠為我們提供時時的決策,我們稱為叫T+0的分析決策,采用這個方式。

  從我們產品來講,在傳統的數據庫這邊,基礎架構平臺IBM會提供一體機,因為我們知道在傳統數據倉庫里面,大家都會知道有一個數據庫,包括硬件的方式會結合起來,但是這個方式會有一個問題,我軟件硬件單獨采購,比如我要建一個T規(guī)模的數據倉,我應該選什么樣的硬件,每個硬件的配置是什么,網絡怎么配,存儲怎么配,以前做真的是憑經驗的過程,現在就有很好的方式采用一體機的方式,就像我們買了電視拿過來就用,現在在數據倉庫這個領域,也有一個趨勢就是采用數據倉庫一體機的方式,也就是軟件、硬件存儲預先配置好的,預先優(yōu)化的,我們開箱就用的,這種方式好處是效率比較高,管理簡單,而且擴展性好,所以在這里面IBM會提供一個產品叫PDA,我們和文思海輝這邊在很多商行都做,包括北京銀行都實施了數據倉庫的一體機來做。

  另外一點在我們構建一個數據倉庫架構時,除了在基礎平臺會分層,所以我們詳細數據區(qū)和匯總區(qū)我們可能會針對不同的業(yè)務部門建一些數據集市,針對你的部門,不同的主題有很多不同的集市來做,在數據集市方面,現在有一個很大的問題,一定要有響應速度好,我查一個東西要立刻得到響應,在這里面怎么提高數據集市的分析效率,現在在業(yè)界有一個趨勢,能不能用基于內存的,采用內式的存儲方式,高度壓縮的方式做,這樣的好處減少了IO,因為在內存里面,所以你的響應效果會非常高,在這方面IBM會推出一個產品BB2blue,就是基于內存的采用列式壓縮的方式,而且高度壓縮的方式,它所有的處理分析不需要解壓,完全在壓縮數據上進行分析,這樣的好處一個效率非常高,非常非?,另外一點管理起來非常簡單。

  在我們來構建傳統的數據倉庫,傳統的基礎數據平臺,包括我們引入了大數據的技術擴展我們的數據基礎平臺,這里面還有很重要一點,就是我們要考慮信息管控和治理。信息管控和治理是保證您的數據倉庫能夠提供高質量的數據,標準的數據,這樣能對您的決策真正有意義,這里面會考慮幾個問題,上面已經講了,如何定義我們數據標準,如何構建我們的原數據,怎么保證您的數據是高質量可信的數據,這樣才能保證我們真正的數據倉庫發(fā)揮作用,因為我們碰到很多客戶,早就建數據倉庫了,業(yè)務員一看你的報表數據都是錯誤的,或者說有問題的,整個系統沒法使用,他會反過來,又做新的治理,由做數據質量,所以在我們構建倉庫時,數據質量一定要放在很重要的議事日程之上,來保證您分析的數據是可信數據,包括我們在銀行里面大家都建了一些客戶的主數據管理。

  還有一點當我們構建數據倉庫之后,大量的數據包括很核心的數據都放在一塊,這時候數據安全是很重要的,如何保證大量的敏感數據不被非法篡改,非法閱讀,這時候有幾種方式來做,一個我們要做很好的審計制度,也就是說能夠記住誰什么時候對這些數據做了訪問,同時我們還要做預先的試防,也就是定一些規(guī)則,當一些特權用戶要對我們的敏感數據做訪問時,立刻告警,立刻阻斷他,這樣能保證整個在基礎數據平臺的安全性得到保證,這個怎么考慮IBM下一個產品會做,易夠數據庫,數據審計以及安全的解決方案。

  另外一點當我們數據倉庫構建越來越多之后,數據量越來越大,我們考慮到數據生命周期的管理,因為大家知道建數倉的時候,都要用高端存儲,這樣成本會很高,同樣在數據倉庫的數據也是有很多的,我們雖然經常做趨勢分析,但可能五年前,十年前的數據其實是很少接觸到的,但是為了監(jiān)管考慮我們要保持,這時候我是不是采用生命周期的管理,因為數據是有溫度的,我也就把這些數據按不同溫度采用多級存儲的方式,我經常訪問的數據放在高效盤上,甚至在SSB上,不太訪問的可能放在光盤部上,這樣我能夠通過層級方式存儲,減少數據倉庫存儲的成本,同時我需要的數據都能夠很好的得到,這個怎么來做在IBM來講,在整個大數據分析的基礎架構里面,有兩種實現方式,對傳統的結構化數據有一個產品(01:45:33英),由這個產品幫助我們做數據倉庫,數據庫生命周期的管理。

  另外一點剛才賈總也談到光大銀行做了歷史數據查詢,因為我們傳統經常訪問的數據還是放在數據倉庫里面,剛才講了不太查的數據,我們稱為比較冷的數據,我把它放在hadoop平臺上,因為hadoop的本質是用廉價服務器組成的集群,它會通過運算得到高效的處理,這樣它的存儲很低,查詢效率也是可以接受,所以我們采用另一種方式,來把這些冷的數據放到Hadoop平臺,實現歷史數據的查詢,這兩種方式都可以幫助我們做生命周期的管理。

  我們在大數據分析的平臺里面,除了我們要使用結構化信息,一體機,我們的數據集市,可能通過BB2blue來幫助您加速數據集市的查詢效率,在傳統的大數據這邊,IBM的hadoop的解決方案是一個企業(yè)級的hadoop,它是基于標準的技術,但是增加了一個企業(yè)的特性,這后面會具體來講,也就是說真正的為我們企業(yè)使用hadoop平臺,因為hadoop是一個標本,它只是考慮它的功能,不考慮企業(yè)的特性,真正流的處理IBM有一個產品,就是能夠針對流的數據時時的處理,時時的響應,幫助我們做時時的決策。

  通過數據的基礎平臺包括我們的信息管控平臺,之后我們就可以為我們的客戶實現很多東西,大家可能很清楚了,我們基于這些數據平臺做分析應用,典型的可以做一些數據分析,數據報表,數據多維查詢,IBM有一個產品就是做報表多維查詢的工具,同時IBM還有一個產品(01:48:21英)這個是專門針對財務績效分析的工具,叫TMY。同時我可能還要預測一下未來會發(fā)生什么,就剛才提到的IBM提供的一些數據挖掘的工具,IBM有一個產品叫SPSS,來做一些挖掘分析,另外我們還可以通過這個來看當前正在發(fā)生的事情,對當前的數據做探索,通過我可以了解當前發(fā)生了什么,為什么發(fā)生了什么,可能會發(fā)生什么之后,我就可以做一些行動,基于它做一些決策,這里IBM有一個產品(英)來做一些決策分析的工具,通過大數據的基礎平臺,我們就可以幫助您構建數據基礎平臺,幫助我們實現信息管控與治理。

  同樣這套解決方案在硬件部屬上,我們不僅可以使用傳統的用硬件服務器的方式部屬,現在也很難要做云,不管是共有云,私有云,當然我們行內一般建私有云,這里面都會到云的平臺上,這是整個IBM大數據分析的基礎架構。

  下面我們具體看一下在架構里面的一些產品,因為我講的主要是產品,剛才講的是一些理念,具體的落地怎么實現,可能要通過一些產品和解決方案來做,我們來看IBM的產品怎么來做,首先剛才講了大數據分析平臺里面,很重要一點要做數據整合,來保證您數據質量,這個IBM有一個產品一個企業(yè)級的整合平臺,通過它能夠幫助我們提供統一的一致的可信的數據,怎么來實現?從IBM的信息整合平臺,就能考慮是這樣,如果我們要對一個信息做整合,我們首先要對您的各個異構數據源越了解,您之后的轉換才能夠有的放矢,也就是說在整個過程中,怎么保證我們數據源的質量,在信息服務家族里面有一個產品叫(01:51:07英),這個來做什么?它可以了解您數據源是什么樣的,都采用了什么樣的數據庫,采用了什么樣的表,什么樣的字段,字段的定義是什么,字段值的分布是什么,通過它字段和字段之間的關系是什么,通過它你可以知道數據源的質量,比如我們在行里面經常做一些客戶的營銷,客戶營銷其實用一個很重要的技術手段,就是數據挖掘的客戶分群。大家知道男孩子女孩子消費習慣不一樣,一定要把信件放到模型里做數據因子,但是我通過IA來看數據源時,一看性別99%都是男的,數據源的質量可能有問題,可能原來系統里面性別缺的是男的,可能錄入的時候大家都沒錄入,回車了,都變成男的,您要把這個作為您這個系統的模型輸因子,您建的模型肯定問題,這樣我們之后做相應的處理,可能做一些加全處理,或者性別不納入這個模型輸入因子,這樣才有的放矢。

  另外一點我們來看地址大量都是空的,之后做轉換很多復雜處理其實沒意義,您對您的數據源越了解,對數據整合才更有效,通過IA我們可以來看數據源的質量情況,同時IBM有一個產品幫助我們定義您的業(yè)務源數據,剛才已經講了,數據標準是在信息管控里面很重要的一點,標準我們會有一個軟科學,您做咨詢等等來梳理您的業(yè)務指標,之后怎么做IT管理,其實IBM的BG就是做業(yè)務指標的管理工作,把業(yè)務指標存入到這里面,對它做更好的操作,可以他您的業(yè)務指標和真正的業(yè)務數據連到一塊,這個叫BG,通過可以更好的做您的業(yè)務源數據的管理。

  之后采用Data Studio這個工具做數據質量的處理工作,通過它能夠保證我們數據是完整統一的數據,在這里面還有一個工具幫助我們實現數據的質量保證,因為大家知道做的時候都是對一些數據做處理,但是有很多東西是基于一段話,一個文字的東西就很難處理,比如我叫張光業(yè),我是IBM的公司,比如我銷售額是什么,另一個系統來也是張光業(yè)你看的是兩個人,但是你說是一個人,當我系統里有大量數據之后,如何通過電子方式自動識別您的信息,自動對這些數據做去重,保證你的數據是可信的數據,這怎么做,其實IBM有一個產品來幫你完成。另外一點通過生產過程中的持續(xù)的適量監(jiān)控,也就是當一上線之后,比如我通過報表來看數據時,比如我們的營業(yè)額都是千萬級,突然有一天數據一看上億了,肯定有問題,業(yè)務員知道你之后,你怎么解決,其實我們也不知道,通過這個就可以做數據分析,能知道報表這個字段是從數據源的哪個表,哪個字段經過哪些處理得到的,第二當這個報表有問題時,就可以檢查問題。

  同時可以做影響分析,當我們數據源某一個字段變化了,已經上線了,跟他影響的相應的流程要做相應的變化,你相應的報表做變化,通過這個影響可以知道,我要改變數據源的某一個指標,相應的流程怎么改,包括報表的定義怎么改,這樣保證我們生產過程中的整個數據質量是有保證,這個是IBM的信息整合平臺,同時在數據的抽取過程中我們還有一個產品叫CDC,它是復制工具,能夠識別您的生產系統變化信息,能夠及時的做數據通過,保證數據倉庫的數據是時時的分析,就是CDC完成。

  另外一塊是在基礎平臺里面很重要的做存儲,做數據倉庫,剛才講了在這里面,其實業(yè)界有一個趨勢用數據倉庫的一體機,從IBM來講提供PDA,專門針對數據分析的一體機,它的好處是通過提供的并行處理的架構,完成了CRIC的結構,同時采用了業(yè)界非常重要的技術PGA,它把數據的處理都變成電子信號,這樣的好處是效率非常高,大家看這是一個原理,我們所有的數據都存在磁盤上,磁盤上FBTA的板,這是PDA的專利技術,它通過背板來連接到您的磁盤,比如我們做一個操作時,當發(fā)查詢之后,數據通過背板直接變成電子信號,通過FBTA板,首先對它做解壓,之后做一些條件,同時我們還有一些條件再做一些過濾,大家看到這樣得到數據是非常小的,所有這個過程都是轉變了電子信號,通過硬件板極實現,所以效率會非常高。

  首先在數據這邊,基于電子信號方式做,所以效率很高,這也是PDA為什么在一體機領域里面比較強的技術,另外一點雖然很高效,大家管理非常簡單,不像傳統數據庫,我們要建表空間,建索引,作為數據庫不需要,它非常簡單我們就建一個桌面,裝載數據就可以用,效率高,管理簡單。另外應用開發(fā)上線簡單,我們就是一個數據,所以非常簡單,很快速,這也是我們和文思一起在很多的客戶,特別在商業(yè)銀行里面有很多案例都是這么做的,北京銀行,大商所等等都是通過野鴿PAD做,另外一個剛才講的在我們數據集市領域,我們?yōu)榱颂岣邤祿械牟樵冃,往往都會采用居列式存儲內存的方式進行訪問,IBM的產品就是blue,它的核心是基于內存列式的存儲,而且壓縮的方式做,它很重要的一點,處理都是基于壓縮數據進行操作,不需要解壓,所以效率非常高,而且可以充分利用CPU的并行機制實現并行處理,使我們的產品效率很高,但是同樣它也是這樣,使用起來也非常簡單,跟PAD一樣,我不需要建你的表空間,不需要建索引,不需要對數據庫做統計,不需要做調優(yōu),也是直接一個數據就可以,也是速度非常高,我們統計基本采用Blue,比傳統的數據集市方式至少有十倍,到二十五倍的性能提高,壓縮比也會節(jié)省十到二十倍,所以效率非常高,存儲成本很低,使用起來非常簡單。

  另外一塊除了我們現在要針對傳統的高價值的數據做分析,我們現在要擁抱,在大數據時代擴展數據外延,擁抱新的一些數據格式,新的數據格式從IBM來講,主要是兩種,一種結構化半結構化的靜態(tài)數據,也就是把它存到hadoop里面進行并行分析,IBM這邊會這個之后,就是對企業(yè)級hadoop,另外針對流的處理IBM有一個steeams,首先來看big in side(02:01:13英),這是基本的組成部分,在這里面黃色都是阿帕奇的標志,big in side是基于標準的阿帕奇,藍色都是IBM的拓展,基于傳統的標準的阿帕奇的hadoop的技術,同時提供了一些企業(yè)科技,包括統一的管理安全工作附帶的優(yōu)化和各個傳統結構化、非結構化數據的連接,包括一些高級處理引擎,統一開發(fā)管理界面,通過可視化的工具可以為我們企業(yè)提供更好的hadoop的應用支撐。

  在hadoop里面也有很重要的趨勢,因為以前大家用hadoop的時候,大家可能用JAVA來寫,因為大家傳統的跟數據領域相關的人員對C語言比較熟悉,所以在Hadoop里面,大家經常用MapReduce集做數據處理,但是它不支持子查詢,多維處理函數都不支持,它的處理是有限制的,IBM提供一個hadoop,我們叫InfoSphere BigInsights它是完全基于標準做的,它會支持子查詢,多維函數查詢都會這樣做,在這個領域里面,其實采用hadoop來做會有一些問題,因為它用JAVA做時,它開銷比較高,單運行會很高,所以對大數據處理現在有一個趨勢,就是采用傳統的SQ并行引擎來代替它做的,因為SQ的引擎都是用C++來寫的,包括資源調度會很好,所以現在有一個趨勢,而IBM的3.0也是采用SQ的LPP的引擎代理了一些來做,這樣并行處理算法會更好,效率會很高,資源調度更好,子查詢多維查詢都會支持,這是它的體系結構我們就不講了。

  另外一點IBM企業(yè)級的InfoSphere BigInsights和傳統的阿帕奇的區(qū)別,要注意整合,因為hadoop是作為我們傳統數據的擴展,一定要把你的Hadoop和傳統的數據倉庫有機的聯系起來,有效的整合,這怎么做,在IBM里有很大的優(yōu)勢,包括我們的3.0它可以采用數據聯邦的技術,可以把你的hadoop數據和我們的傳統數據庫包括數據倉庫技術做很好的整合,這樣真正能夠在大數據時代同時整合我們的結構化數據以及非結構化外延的數據得到更好更全面的分析,其實這才是有用的,這在標準的阿帕奇里面其實很少有這方面的東西,這是一個它的優(yōu)勢。

  另外一點3.0也很快和傳統的HV做測試,基本有40倍的提高,在新的IBM里面除了具備統一企業(yè)特性之外,從信息整合,集成管理方面都有很大的提高。另外一個因為大數據它的本質是做分析,所以在這里面會有高級文本分析引擎,對飛碟化的文本分析,會通過高級文本分析引擎可以轉變成一個結構化數據和傳統的數據倉庫數據結合起來做更好的分析,這個典型例子,銀行里面對客戶的360深度分析,現在各個行都建了微博,把一些社交媒體的數據和我們傳統數據結合起來,這種方式做本質上輿情分析就用了高級文本分析引擎完成。

  另外就是流的處理,IBM有一個產品streams,它能夠對攝象頭、傳感器時時流動的傳輸數據之后,我對這個數據做時時的響應,從而得到時時決策,能達到T+0的洞察力,就是通過這個產品實現。這個產品本身也是一個并行處理架構,它能夠只關注您的數據流處理的流程,不需要管理后面怎么部屬,它會根據您的硬件情況自動的擴充,是一個很好的流處理的基礎平臺,同時我還可以和一些數據挖掘工具結合起來,比如我們在銀行里面要做風險,我們來看風險防范,就可以通過采用這個技術,對您的七大防范做時時的檢測和時時響應,這就和SPS這種數據挖掘模型結合起來。

  另外一點剛才講了,整個構建數據基礎平臺之外,很重要一點要考慮信息管控,信息管控里面重要的就是數據安全,怎么提供可信的安全的數據,這是大數據時代重要的東西,安全怎么做,剛才講了IBM有一個產品易構數據庫的審計安全管理的工具,大家看就是這個產品,它會針對您的所有易構的數據源包括現在的hadoop數據,對這些易構數據進行識別,來收集對這些數據所有的訪問,所有訪問流程都能做記載,對事后審計,同時還可以定一些規(guī)則,定完規(guī)則之后,當對敏感數據做訪問時,能夠時時的告警,甚至時時阻斷,這樣保證我們整個企業(yè)數據環(huán)境的安全性。

  采用這種方式的好處是采用盤務的方式,也就是說您用了之后,對您所有的數據庫應用不需要做任何修改,只要把這個盒子插上去,安裝上就可以進行收集,進行時時的數據安全監(jiān)控,所以使用起來非常方便,也不需要打開所有數據庫的日志,所以對性能沒有任何影響。

  再一個就是數據的生命周期管理,剛才講了,如果對結構化數據IBM有一個產品來做生命周期的管理,但是很大的好處和我們自己實現做傳統的生命周期管理有很大的區(qū)別,它可以采用在數據抽取時,是采用面向業(yè)務對象來做,也就是說您的數據之間是有關聯的,它抽取時不是按照一個數據點做,而是數據之間的關聯關系統一的業(yè)務對象來做,同時當你抽下來存儲時,是采用了自己的格式,這樣做的好處可能你從這個數據庫歸檔的數據,以后可能恢復到BB2上都是可以的,因為它有自己內部的格式,因為做的一紙歸檔,比如您實際來做的,可能十年之后實際軟件早沒有了,您數據要恢復沒法恢復,采用這種方式,因為它存儲的是自己內部格式,從實際歸檔一下數據,以后可能在20G照樣可以恢復,所以是它很大的好處,同時可以采用層級存儲的方式。

  它還可以做隱私管理,這個不講了,通過IBM大數據分析平臺,我們就可以借助一個平臺之上,構建針對各個行業(yè)的數據分析,包括對它的分析,這個后面我們會講銀行的應用知道,就講構建分析。同樣IBM來做是提供基礎的平臺,我們要和合作伙伴比如文思海輝一起幫助您實現行里面的一些數據分析應用,數據治理,基本上我就今天講這么多,大家有什么問題沒有,謝謝。

錯誤報告  分享到: