有哪些开源数据资产管理平台及其底层架构实现技术?

摘要:《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。 关注清哥聊技术公众号,了解更多技术文章 图书介绍:数据资产管理核心技术与应用 随着大数据技术的发展,在开源社区中涌现出了很多优秀的数据资产管理平台项目,比如像Apache Atlas、Data Hub、OpenMetadata等,正是这些开源项目的出现,推动了数据资产管理技术的不断前进。 8.2.1. Apache Atlas Apache Atlas是一个以元数据管理、数据血缘跟踪、数据治理为主的数据资产管理平台,包含了数据分类、数据血缘、数据安全、数据治理等很多强大的功能,通过访问https://atlas.apache.org/#/ 可以进入Apache Atlas的官方网站,其源码是托管在Github中,源码的Github地址为https://github.com/apache/atlas,Apache Atlas 是开源项目中首个实现了数据血缘功能的数据资产管理平台,Apache Atlas官方网站提供的技术架构实现如下图8-2-1所示。 图8-2-1 从图中可以看到 Apache Atlas可以管理很多种不同种类的数据源的元数据,比如像Hive、Hbase等。 Apache Atlas在底层存储血缘数据和元数据时,不仅使用了Apache Solr这样的索引数据库,还用到了图数据库来存储数据的血缘关系,Apache Solr是开源社区开源的一个用于搜索引擎性质的索引数据库。 在Apache Atlas中,元数据和血缘数据的采集以及存储的技术实现架构图如下图8-2-2所示。 图8-2-2 从图中可以看到 Apache Atlas 在获取元数据时是通过Hook的方式来实现的,通过Hook的方式来获取元数据的信息变更,然后发送到Kafka消息队列中,Apache Atlas消费Kafka 消息队列中数据从而来获取元数据,并且存储到Apache Atlas底层数据库中。 Apache Atlas在底层存储数据血缘关系时,默认用到了JanusGraph图数据库,JanusGraph是一个开源的分布式图数据库。 Apache Atlas虽然解决了元数据的获取和管理以及数据血缘的管理,但是其存在以下不足之处: Apache Atlas的Admin控制台管理界面相对比较简单,而且用户体验较差。 Apache Atlas仅仅解决了Hive的数据血缘,对很多其他常见的数据源的数据血缘关系并不支持。 底层用到了太多的技术组件,部署和运维管理相对比较复杂。 8.2.2. Data Hub Data Hub是一个开源的可扩展的以元数据管理为主的数据资产管理平台,实现了元数据的采集、存储、展示、治理等功能,通过访问https://datahubproject.io可以进入Data Hub的官方网站,其源码是托管在Github中,源码的Github地址为https://github.com/datahub-project/datahub。Data Hub包含的主要功能介绍如下: 元数据采集:支持从Hive、ClickHouse、MySQL、SQL Server 等数据仓库或者常见的关系型数据库中采集元数据,并且存储到Data Hub中。如下图8-2-3所示为Data Hub元数据采集的技术架构实现,从图中可以看到Data Hub 获取元数据的方式是从不同的数据源中主动去拉取元数据,然后将获取到的元数据可以直接发送给Data Hub,也可以先发送Kafka消息队列,然后由Data Hub从Kafka消息队列中消费数据来获取元数据。 图8-2-3 元数据的管理:将采集到的元数据展示到Data Hub的元数据管理界面中,并且支持对元数据打标签以及添加注释,方便用户检索自己需要的元数据信息。 数据质量管理:通过对元数据的管理、测试和检查,来提高数据质量。 提供了完善的API服务以及SDK,让外部业务或者系统可以访问Data Hub获取到自己需要的数据信。
阅读全文