如何设计一个有效的网站建设销售流程图?
摘要:网站建设销售销售流程图,建网站的流程,阿里云域名出售,wordpress 仿 主题下载目录 一、为什么需要HUDI? 1. 传统技术选型存在哪些问题? 2. Hudi有什么优点&a
网站建设销售销售流程图,建网站的流程,阿里云域名出售,wordpress 仿 主题下载目录
一、为什么需要HUDI#xff1f;
1. 传统技术选型存在哪些问题#xff1f;
2. Hudi有什么优点#xff1f;
基于 Hudi Payload 机制的多流拼接方案#xff1a;
二、HUDI的应用场景
1. 什么场景适合使用hudi#xff1f;
2. 什么场景不适合使用hudi#xff1f;
…目录
一、为什么需要HUDI
1. 传统技术选型存在哪些问题
2. Hudi有什么优点
基于 Hudi Payload 机制的多流拼接方案
二、HUDI的应用场景
1. 什么场景适合使用hudi
2. 什么场景不适合使用hudi
三、什么是HUDIHUDI能做什么
1. 什么是HUDI
2. HUDI能做什么特性
四、HUDI的概念原理
1. 概念
2. 原理
五、流批一体 一、为什么需要HUDI
1. 传统技术选型存在哪些问题
【离线方面】
这种T1延迟的结果已经无法满足商业分析同学的日常分析需求。
【实时方面】
有些场景需要基于具有相同主键的多个数据源实时构建一个大宽表数据源一般包括 Kafka 中的指标数据以及 KV 数据库中的维度数据。
业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表但这种解决方案在实践中面临较多挑战主要可分为以下两种情况
01 - 维表 JOIN
场景挑战指标数据与维度数据进行关联其中维度数据量比较大指标数据 QPS 比较高导致数据可能会产出延迟。当前方案将部分维度数据缓存起起来缓解高 QPS 下访问维度数据存储引擎产生的任务背压问题。存在问题由于业务方的维度数据和指标数据时间差比较大所以指标数据流无法设置合理的 TTL而且存在 Cache 中维度数据没有及时更新导致下游数据不准确的问题。
02 - 多流 JOIN
场景挑战多个指标数据进行关联不同指标数据可能会出现时间差比较大的异常情况。当前方案使用基于窗口的 JOIN并且维持一个比较大的状态。存在问题维持大的状态不仅会给内存带来的一定的压力同时 Checkpoint 和 Restore 的时间会变 得更长可能会导致任务背压。
总结上述场景遇到的挑战主要可归结为以下两点 由于多流之间时间差比较大需要维持大状态同时 TTL 不好设置。 由于对维度数据做了 Cache维度数据数据更新不及时导致下游数据不准确。 2. Hudi有什么优点
基于 Hudi Payload 机制的多流拼接方案
Payload是一个条数据的内容的抽象决定了同一个主键的数据的增删改查逻辑也决定了其序列化的方式。通过对payload的自定义可以实现数据的灵活合并数据的自定义编码序列化等丰富Hudi现有的语义提升性能。
多流数据完全在存储层进行拼接与计算引擎无关因此不需要保留状态及其 TTL 的设置。维度数据和指标数据作为不同的流独立更新更新过程中不需要做多流数据合并下游读取时再 Merge 多流数据因此不需要缓存维度数据同时可以在执行 Compact 时进行 Merge加速下游查询。支持离线场景和流批混合场景。内置通用模板支持数据去重等通用接口同时可满足用户定制化数据处理需求。 二、HUDI的应用场景
1. 什么场景适合使用hudi 0. 具有相同主键的多个数据源构建一个大宽表 1. 近实时DB数据入仓/湖把原来T 1的数据新鲜度提升到分钟级别 2. 近实时OLAP分钟级别的端到端数据新鲜度同时又非常开放的OLAP查询引擎可以适配 3. 近实时ETL 2. 什么场景不适合使用hudi
下游对时效性要求较高对数据延迟容忍度较低 三、什么是HUDIHUDI能做什么
1. 什么是HUDI
Hudi是Hadoop Updates and Incrementals的简写它是由Uber开发并开源的Data Lakes解决方案。Hudi 用于管理的数据库层上构建具有增量数据管道的流式数据湖同时针对湖引擎和常规批处理进行了优化。简言之Hudi是一种针对分析型业务的、扫描优化的数据存储抽象它能够使DFS数据集在分钟级的时延内支持变更也支持下游系统对这个数据集的增量处理。
