您的位置: 美食小小课堂 > 科技

认识数据湖(一):与数据仓库之区别

2020-02-22来源:美食小小课堂

自2011年“数据湖”概念被提出,业界便对数据湖一直有着广泛而不同的理解和定义。

“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”--这是对数据湖比较清晰且完整的定义。然而,从定义上看不出数据湖对企业的重要性,本文从数据湖架构的发展,数据平台对企业的重要性,华为数据湖方案等角度阐明数据湖的对企业的价值。

一、数据湖架构的发展

数据湖架构一直在不断变革和发展,很多场景下,大家很容易将数据湖与数据仓库进行混淆,数据湖方案最初确实是为解决数据仓库笨重,高成本,冗长的分析周期等问题而生,但是二者又有着明显的不同,同时伴随着云计算、大数据、人工智能技术的发展,数据湖与之不断融合,数据湖的架构也在不断完善。

认识数据湖(一):与数据仓库之区别

图1

数据湖与数据仓库的区别

数据湖与数据仓库之间的异同点有很多,很容易混淆,但是最重要的区别有两个:

存储数据类型:数据仓库是存储数据,进行建模,存储的是结构化数据;数据湖以其本源格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据。在需要数据之前,没有定义数据结构和需求。数据处理模式:在我们可以加载到数据仓库中的数据,我们首先需要定义好它,这叫做写时模式(Schema-On-Write)。而对于数据湖,您只需加载原始数据,然后,当您准备使用数据时,就给它一个定义,这叫做读时模式(Schema-On-Read)。这是两种截然不同的数据处理方法。因为数据湖是在数据到使用时再定义模型结构,因此提高了数据模型定义的灵活性,可满足更多不同上层业务的高效率分析诉求。

认识数据湖(一):与数据仓库之区别

图2

本文由美食小小课堂整理,内容仅供参考,未经书面授权禁止转载!图片来源图虫创意,版权归原作者所有。