天天透天天干,欧美福利在线,国产三级网站,色婷婷综合网,亚洲欧美成人一区二区,亚洲国产精品成人久久久麻豆,国产剧情久久久

您當前的位置是:  首頁 > 資訊 > 國際 >
 首頁 > 資訊 > 國際 >

數據湖正成為新的數據倉庫

2019-07-15 09:50:57   作者:JamesKobielus Wikibon公司研究AI、數據科學和應用軟件開發(fā)的首席分析師   來源:云頭條   評論:0  點擊:


  像AWSLake Formation和Delta Lake這類平臺正成為用于決策支持和AI驅動型決策自動化的治理中心。
  數據倉庫是再度扮演重要角色,還是說奄奄一息?
  如果你在這個問題上有點困惑,那也情有可原。一方面,數據倉庫無疑似乎炙手可熱。作為一名長期的行業(yè)觀察人士,我看到這個行業(yè)創(chuàng)新不斷,創(chuàng)業(yè)活動高潮迭起。
  這股趨勢實際上始于十年前一體機(appliance)這種設備進入數據倉庫主流,然后隨著幾年前市場轉向新一代云數據倉庫,獲得了新的發(fā)展勢頭。過去這幾年,一家云數據倉庫供應商Snowflake在市場上獲得了異常的關注。
  數據倉庫黯然失色
  另一方面,數據倉庫在新的行業(yè)模式面前一次次黯然失色,比如大數據、機器學習和AI等新模式。這股趨勢加深了這種印象:作為一個企業(yè)IT優(yōu)先事項,數據倉庫日漸式微,但實際上大多數企業(yè)組織現在至少有一個、常常有多個數據倉庫為各種下游應用提供服務。
  數據倉庫依然是核心的企業(yè)工作負載,這就是為什么幾年前我覺得我要撰文解釋為什么數據倉庫遠未消亡。這也可以解釋為什么其他觀察人士認為他們要重新定義數據倉庫概念,好讓數據倉庫在數據湖和云計算盛行的時代繼續(xù)扮演重要角色。
  數據倉庫這種實踐不僅蓬勃發(fā)展,現在還被視為是云計算行業(yè)一個值得期待的主要增長點。然而,如果你一味關注帶這個標簽進入市場的那些平臺(比如Snowflake),就會看不到這個領域的大部分面貌。
  數據湖大行其道
  許多人所說的“數據湖”正迅速發(fā)展成為下一代數據倉庫。有必要向不熟悉這個概念的人介紹一下,數據湖是多重結構數據的系統(tǒng)或存儲庫,這些數據以自然的格式和模式來存儲,通常作為對象“blob”或文件。
  數據湖通常用作所有企業(yè)數據的單個存儲區(qū),包括源系統(tǒng)數據和已轉換數據的原始副本,已轉換數據用于報告、可視化、分析和機器學習等任務。數據湖包含分布式文件或對象存儲、機器學習模型庫以及高度并行化的處理和存儲資源集群。此外,數據湖通常在讀取時執(zhí)行模式,并使用統(tǒng)計模型從中提取有意義的關系和模式,而不是對它們存儲的對象執(zhí)行通用模式和語義。
  這一切與為大多數專業(yè)人員采用的數據倉庫方法提供依據的Inmon和Kimball核心概念不一致。從根本上說,數據倉庫是為了聚合、保留和管理得到官方認可、“單一版本真相”的數據記錄而存在的。這個概念與所管理數據的特定應用領域和具體的特定使用場合無關。
  如果你懷疑我在這個方面的說法,不妨看看Bill Inmon對數據倉庫定義的這番討論(http://www.b-eye-network.com/view/16066)以及對Inmon的框架和Ralph Kimball的框架進行的這番比較(https://www.computerweekly.com/tip/Inmon-or-Kimball-Which-approach-is-suitable-for-your-data-warehouse)。數據倉庫的關鍵通常是為決策提供數據驅動型支持,因而可以很好地擴展到AI驅動型推理這個新領域。
  下一代數據倉庫
  在過去的一年,幾則備受矚目的行業(yè)宣布表明了數據倉庫的角色已發(fā)生轉變。雖然決策支持(又叫商業(yè)智能、報告和聯機分析處理)仍是大多數數據倉庫的核心使用場合,但我們看到了向決策自動化的穩(wěn)步轉變。換句話說,數據倉庫現在支持為數據驅動的推理構建機器學習應用的數據科學管道。
  新一代數據倉庫實際上是數據湖,首要任務是用來治理用于構建和訓練機器學習模型的清理、整合和認可。比如說在去年秋天在亞馬遜re:Invent大會上,AWS宣布了AWSLake Formation。這種新型托管服務的明確目的是,簡化和加快安全數據湖的安裝和配置。然而,AWS Lake Formation擁有云數據倉庫的所有標志,不過AWS沒有稱之為云數據倉庫,實際上已經提供了一種面向決策支持應用的經典數據倉庫Amazon Redshift。
  AWS Lake Formation的外觀和行為都類似數據倉庫。的確,AWS這樣來描述該服務:“數據湖是一種集中的、篩選的且安全的存儲區(qū),它以原始形式和針對分析而做準備的形式來存儲所有數據。數據湖讓你可以打破數據孤島,結合不同類型的分析工具,以獲得洞察力并指導更好的業(yè)務決策。”
  的確,AWS將AWS Lake Formation視作一種用于決策支持和AI驅動型決策自動化的超級數據倉庫。具體來說,這家供應商聲稱這項服務旨在管理“你用戶可以利用的數據集……用戶可以選擇用來管理的分析和機器學習服務,比如Amazon EMR for Apache Spark、Amazon Redshift、Amazon Athena、Amazon SageMaker和Amazon QuickSight 。”
  另一個典型例子是Databricks最近宣布的Delta Lake開源項目。Delta Lake(現在已有采用Apache 2.0許可證的版本)的明確目的類似AWS Lake Format:聚合、清理、篩選和管理數據湖中維護的數據集,以支持機器學習管道。
  Delta Lake位于可以從Apache Spark訪問的現有內部部署或云數據存儲平臺上,比如HDFS、Amazon S3或微軟Azure blob存儲。Delta Lake以Parquet格式存儲數據,以提供Databricks所謂的“事務存儲層”。Parquet是一種開源列存儲格式,可用于Hadoop生態(tài)系統(tǒng)中的任何項目,無論選擇哪種數據處理框架。它通過樂觀的并發(fā)串行化、快照隔離、數據版本控制、回滾和模式實施來支持ACID事務。
  Delta Lake與AWS Lake Formation的一個關鍵區(qū)別是,Delta Lake在該管道中既處理批量數據,又處理流數據。另一大區(qū)別是,Delta Lake支持所有數據的ACID事務,允許數百個應用程序同時進行多次寫入和讀取。此外,開發(fā)人員可以訪問每個Delta Lake的早期版本,以便審計、回滾或者重現MLFlow機器學習實驗的結果。
  從最廣泛的層面上來看,DeltaLake似乎與最廣泛采用的開源數據倉庫項目Apache Hive競爭,不過Hive完全依賴基于HDFS的存儲,就在不久前還缺乏對ACID事務的支持。一年前宣布的Hive3終于為基于Hadoop的數據倉庫帶來了ACID支持功能。Hive3使用增量文件(delta file),對針對事務型CRUD(創(chuàng)建讀取更新刪除)表的操作提供了原子性和快照隔離。
  AI驅動型決策自動化的基礎
  AWS Lake Formation、Delta Lake和Hive 3,最近這些行業(yè)宣布預示著有一天,數據湖成為所有決策支持和決策自動化應用的治理中心,以及所有事務數據應用的治理中心。要想讓這些趨勢加快發(fā)展,Hive 3和Delta Lake等開源項目需要在供應商和用戶當中獲得更廣泛的支持。
  “數據倉庫”這個術語可能繼續(xù)主要指面向商業(yè)智能(BI)的結構化數據的受管理多領域存儲。然而,底層數據平臺將繼續(xù)演進,為基于云的AI管道提供核心的數據治理基礎。
  當下在推動企業(yè)數據倉庫發(fā)展的是AI,而不是BI。
  原文鏈接:https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題

CTI論壇會員企業(yè)