火花峰会17:Databricks推出Delta作为纯粹的数据湖
DataBroks,Apache Spark处理平台的Inventor和商业分销商宣布,该系统称为Delta,它认为将为CIOS作为数据湖,数据仓库和“流入口系统”。据说据说消除了提取,变换和负载(ETL)过程的需要。
供应商的首席执行官和联合创始人Ali Ghodsi在都柏林的Spark Oumit发布了公告。
Databricks Delta将成为在云中运行的供应商统一分析平台的组件。Databricks在一个与Delta的声明中表示,“企业组织不再需要跨各种系统运行的复杂,脆性提取,转换和加载过程,并创建高延迟以获取对相关的业务关键数据的访问。”
Ghodsi说:在与计算机周刊上的会议的采访中说:“Delta基本上是一个具有数据仓库能力的数据湖。它还将额外的“控制”信息存储在系统中的数据 - 有关数据本身的统计信息。
“这对于开始询问数据的问题时,这可能很有用。它使得分析更快。我们还验证了数据进入数据湖时的数据是正确的。否则,您将未来存储问题。例如,如果摄氏度值改变为华氏度[在数据存储中]。“
Ghodsi表示,该公司开始在一年和半前工作的三角洲,以应对处理多个数据仓库和数据湖泊的客户问题。
“我们创造了Spark以简化这些东西,发现我们没有。我们的客户告诉我们他们的数据仓库是表演,但昂贵的。他们的数据湖泊充满了垃圾。所以,我们回到了绘图板,而不是继续逐步修补东西,“他说。
在发布会议的声明中,他说:“Delta将数据仓库的可靠性和性能与流系统的数据湖泊和低延迟相结合。借助本统一管理系统,企业现在受益于简化的数据架构,查询性能增加到100倍,并更快地访问相关数据。“
在同一声明中,我们汽车购物网站Edmunds.com技术执行主任Greg Rokita表示:“获得实时客户和收入洞察对我们的业务至关重要。但我们一直以复杂的ETL处理挑战,这会减慢我们对数据的访问。
“Delta允许我们通过将数据仓库的性能与数据湖的规模和成本效率混合来克服此障碍,”罗基塔添加。
柏林旅游旅游信息网站GetyourGuide的数据平台的工程经理Yonatan Aharon与计算机周期,Yonatan Aharon说:“对我来说,Delta将是一个使用Spark和DataBricks的数据仓库。
“在数据湖中,数据通常不洁净和非结构化。我们希望为您的业务用户提供干净,结构化和快速执行的数据。这将是一个巨大的一步,“哈隆说。目前,GetyourGuide仍在使用Postgres数据库进行数据仓库。
据说Delta允许“统一的数据管理系统[该]简化了流水线,允许用作数据源和接收器”,以及“自动化小文件的压实以获得高效读取”和“智能数据跳跃”和索引“。
该系统将其所有数据存储在Amazon S3中,该公司表示可以通过标准的Spark应用程序编程接口(API)从DataBricks平台上运行的任何Spark应用程序访问它。
根据Databricks的说法,Delta还集成到DataBricks企业安全模型中,包括细胞级访问控制,审计和符合HIPAA的处理。然后将数据存储在客户自己的云存储帐户内“最大控制”。