数据库发展史中,数据仓库是如何演变至今的?
摘要: 回顾数据仓库的发展历程,大致可以将其分为几个阶段:萌芽探索到全企业集成时代、企业数据集成时代、混乱时代--"数据仓库之父"间的论战、理论模型确认时代以及数据仓库产品百家争鸣时代。 数据
回顾数据仓库的发展历程,大致可以将其分为几个阶段:萌芽探索到全企业集成时代、企业数据集成时代、混乱时代--"数据仓库之父"间的论战、理论模型确认时代以及数据仓库产品百家争鸣时代。
数据仓库理论发展历程
上世纪70年代,IBM的E.F.Codd等人提出关系型数据库后,MIT的研究员提出单独构建分析系统的基础理论,新的理论试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则。他们认为这两种信息处理的方式具有较大差别,应使用不同的架构和设计。但受限于当时的技术能力,这个研究仅仅停留在理论层面。
到了80年代初,W.H.Inmon 开始了“记录系统”、“本原数据”、“决策支持数据库”等专题的研究。几乎同时,J. Martin在关于数据库分类的研究中,专指一种他称之为“第4类数据库”的“由用户驱动的计算环境”,为这种环境提供信息服务的是一种以“搜索和快速信息回收”为基本特征的数据库。这个定义已经和后来的数据仓库十分类似。
1988年,IBM 公司的研究员创造性地提出了一个新的概念--数据仓库(Data Warehouse)。到了1991年,数据仓库之父W.H.Inmon出版数据仓库经典作品--《构建数据库仓库》,标志着数据仓库概念的确立。书中指出,DW是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,并且是用于支持管理决策的数据集合。该书还提供了建立数据仓库的指导意见和基本原则,凭借着这本书,W.H.Inmon被称为数据仓库之父。
编辑
由于传统的关系型数据库已无法满足构建数据仓库的需求,在1993年Codd提出了多维数据库和多维分析的概念,即OLAP(On-Line Analysis Processing联机分析处理)。当时Codd认为OLTP(On- Line Transaction Processing 联机事务处理)已不能满足终端用户对数据库查询的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需要。因此提出了多维数据库和多维分析的概念,即OLAP。
1995年,Ralph Kimball出版了《数据仓库工具箱》,数据仓库行业进入少林和武当之争。Inmon主张建立数据仓库时采用自上而下方式,以关系型数据库的第3范式进行数据仓库模型设计,而Kimball则是主张自下而上的方式,力推数据集市(Data Market)建设。两位数据仓库领域的大咖为此吵得不可开交,他们的粉丝也纷纷站队,这种争吵直到Inmon推出新的BI架构CIF,把Kimball的数据集市包括了进来才算平息。
编辑
早期MPP时代的数仓
IBM DB2和Teradata是早期数仓理论的实践者,也是市场领导者。其中Teradata是MPP数仓最成功的商业产品,几乎是行业的天花板。诞生于1970年代末的Teradata公司,名称来源于Tera Bytes,TB数据的存储也展示了哪个年代创业者的雄心壮志。终于在1992年第一个TB 级的数据库在华尔街出现。1999年,客户拥有130TB的数据分布于176个节点。短短7年时间,Teradata客户的数据规模翻了176倍。
但进入新千年后,数据库巨头间的竞争进入白热化阶段,以Oracle Exadata为代表的一体机很快崭露头角。之后在Postgres基础上演变而来的Greenplum构建了开源的MPP架构数仓,也在市场中有很高的影响力。但真正让数仓焕然一新的是云计算时代的云原生数仓Snowflake。
一体机时代的数仓
新千年后,数仓进入一体机的快速发展时代,典型代表是Netezza、SAP HANA和Oracle Exadata。Netezza率先推出,后来被IBM收购。而Oracle Exadata为代表的一体机依然是今天Oracle公司的核心业务。2008年,Exadata V1诞生,由Oracle提供软件惠普提供硬件,这一代产品仅支持数据仓库和商务智能等OLAP工作。到了2009年9月,Exadata V2发布,采用了SUN的(此后MySQL也属于了Oracle),次年Oracle完成了SUN的收购。在V2版本中,Exadata存储节点中首次采用了Flash卡,从而可以同时支持OLAP和OLTP类型的负载。有了高性能产品的同时也有了极其昂贵的价格。
