大数据OLAP系统开源组件方案，有哪些值得对比？

摘要：开源大数据OLAP组件，可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎： MOLAP一般对数据存储有优化，并且进行

开源大数据OLAP组件，可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎： MOLAP一般对数据存储有优化，并且进行部分预计算，因此查询性能最高。但通常对查询灵活性有限制。->关注清哥聊技术公众号，了解更多技术文章 MPP数据库是个完整的数据库，通常数据需要导入其中才能完成OLAP功能。MPP数据库在数据入库时对数据分布可以做优化，虽然入库效率有一定下降，但是对后期查询性能的提高有很大帮助。MPP数据库可以提供灵活的即席查询能力，但一般对查询数据量有一定限制，无法支撑特别大的数据量的查询。 SQL引擎只提供SQL执行的能力，本身一般不负责数据存储，通常可以对接多种数据储存，如HDFS、HBase、MySQL等。有的还支持联邦查询能力，可以对多个异构数据源进行联合分析。SQL引擎中，基于MPP架构的SQL引擎，一般对在线查询场景有特殊优化，所以端到端查询性能一般要高于基于通用计算框架的SQL引擎；但是在容错性和数据量方面又会逊于基于通用计算框架的SQL引擎。总之，可以说没有一个OLAP系统能同时在处理规模，灵活性和性能这三个方面做到完美，用户需要基于自己的需求进行取舍和选型。 2.1 开源MOLAP系统分析 2.1.1 Kylin Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，它能在亚秒内查询巨大的 Hive 表。Kylin的核心思想是预计算，理论基础是：以空间换时间。即将多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube并存储到HBase中，供查询时直接访问。把高复杂度的聚合运算，多表连接等操作转换成对预计算结果的查询。 Kylin的核心模块： REST Server：提供 Restful 接口，例如创建、构建、刷新、合并等 Cube 相关操作，Kylin 的 Projects、Tables 等元数据管理，用户访问权限控制，SQL 的查询等； Query Engine：使用开源的 Apache Calcite 框架来实现 SQL 解析，可以理解为 SQL 引擎层； Routing：负责将解析 SQL 生成的执行计划转换成 Cube 缓存的查询，这部分查询是可以在秒级甚至毫秒级完成； Metadata：Kylin 中有大量的元数据信息，包括 Cube 的定义、星型模型的定义、Job 和执行 Job 的输出信息、模型的维度信息等等，Kylin 的元数据和 Cube 都存储在 HBase 中，存储的格式是 json 字符串； Cube Build Engine：所有模块的基础，它主要负责 Kylin 预计算中创建 Cube，创建的过程是首先通过 Hive 读取原始数据，然后通过一些 MapReduce 或 Spark 计算生成 Htable，最后将数据 load 到 HBase 表中。整个系统分为两部分：离线构建：数据源在左侧，目前主要是 Hadoop Hive，保存着待分析的用户数据；根据元数据的定义，下方构建引擎从数据源抽取数据，并构建 Cube；数据以关系表的形式输入，支持星形模型和雪花模型； 2.5 开始 Spark 是主要的构建技术（以前是MapReduce）；构建后的 Cube 保存在右侧的存储引擎中，一般选用 HBase 作为存储。在线查询用户可以从上方查询系统（Rest API、JDBC/ODBC）发送 SQL 进行查询分析；无论从哪个接口进入，SQL 最终都会来到 Rest 服务层，再转交给查询引擎进行处理；查询引擎解析 SQL，生成基于关系表的逻辑执行计划；然后将其转译为基于 Cube 的物理执行计划；最后查询预计算生成的 Cube 并产生结果。优点：亚秒级查询响应；支持百亿、千亿甚至万亿级别交互式分析；无缝与 BI 工具集成；支持增量刷新；缺点：由于 Kylin 是一个分析引擎，只读，不支持 insert, update, delete 等 SQL 操作，用户修改数据的话需要重新批量导入（构建）；需要预先建立模型后加载数据到 Cube 后才可进行查询使用 Kylin 的建模人员需要了解一定的数据仓库知识。

大数据OLAP系统开源组件方案，有哪些值得对比？

相关推荐