1.数据仓库
数据仓库的概念是由William H Inmon在上个世纪九十年代提出,他将其定义为面向主题的、集成的、稳定的、不同时间的数据***,用以更好地支持企业或组织的决策分析处理。具体来看,是一种从事务性应用程序中获取数据与存储数据的技术组合,它将一些信息系统中分散数据的重要信息提取到集中的存储库,以支持对历史数据的访问需求。
数据仓库包含与操作数据库分离的逻辑数据***,是一个存储信息的工具,可以集成来自各种应用程序或系统的各种类型数据,通过ETL(抽取、转换和加载)过程从外部多种数据源提取数据,然后根据业务需要转换数据,并将其存储到数据仓库中,可以保证管理人员通过专门访问机制获取信息并对其进行分析以进行决策。
数据仓库有几个特点:面向主题、集成数据、非易失性、时间变化和非标准化。
2.数据仓库发展历程
第一代数据仓库:软硬件一体化架构、有限的扩展性、昂贵的扩容成本;
第二代数据仓库:开源软件框架(Hadoop、Hive、Spark)、适配通用硬件(x86)、适应上百BP的海量数据计算、可灵活地进行性能拓展;
第三代数据仓库:可按需取用的云化资源、近乎无限的扩容能力、更低的扩容成本、降低运维成本;
第四代数据仓库:计算存储分离,精细化的资源管理、全民化的数据分析需求、更高的访问并发量与更低的延迟。
3.数据仓库与数据挖掘、数据湖的区别与联系
(1)数据仓库与数据挖掘
数据挖掘试图从数据中发现潜在的、内部的关系和模式,希望能够透过数据的表象发现其本质;数据仓库是一个包含大量历史数据的海量数据库,侧重于管理和存储以主题进行组织的数据。
数据挖掘所处理的数据比较混沌,其数据源种类很多,可以是数据文件或数据库,不一定必须是数据仓库,但是由于数据仓库已经将大量的历史数据进行了清洗、加玉后存放起来,因此它可以为数据挖掘算法提供丰富的、规范的、完备的、干净的样本数据,数据挖掘算法可以直接使用这些数据,而不必再进行繁琐的数据清洗和准备工作,从而大大节省数据挖掘在数据预处理上所花费的时间,因此,将数据挖掘技术和数据仓库有机结合起来,不但能够发掘化更多的、更好的有价值的模式,而且能够明显提高数据挖掘过程的效率。
(2)数据仓库与数据湖
数据湖能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式;数据仓库只能处理结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。
数据湖拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用;数据仓库处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。
数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求;而数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。
更多行业知识,敬请关注本站行业知识栏目。
推荐阅读:《【公司研究】易华录-数据湖基建龙头于波澜之中把握新机遇-210604(32页).pdf》
《【研报】通信行业海外云相关行业简析之Snowflake:全球领先云上数据仓库-20200921(27页).pdf》
《新能源汽车行业数据仓库系列之汽车电动化:电动化有望继续繁荣磷酸铁锂风头正劲-20220221(14页).pdf》
《艾瑞咨询:中国云原生数据湖应用洞察白皮书(47页).pdf》