为什么服装网站需要建设美食相关内容?
摘要:服装网站建设都有哪些,美食网站建设的意义,济南建网站公司排行榜,传媒公司网站模板1、Bloom Index Bloom Index (default) 使用根据记录键构建的bloom过滤器,也可以使用记录键范围
服装网站建设都有哪些,美食网站建设的意义,济南建网站公司排行榜,传媒公司网站模板1、Bloom Index
Bloom Index (default) 使用根据记录键构建的bloom过滤器#xff0c;也可以使用记录键范围修剪候选文件.原理为计算RecordKey的hash值然后将其存储到bitmap中#xff0c;为避免hash冲突一般选择计算3次 HoodieKey 主键信息#xff1a;主要包含recordKey 和p…1、Bloom Index
Bloom Index (default) 使用根据记录键构建的bloom过滤器也可以使用记录键范围修剪候选文件.原理为计算RecordKey的hash值然后将其存储到bitmap中为避免hash冲突一般选择计算3次 HoodieKey 主键信息主要包含recordKey 和patitionPath 。recordkey 是由hoodie.datasource.write.recordkey.field 配置项根据列名从记录中获取的主键值。patitionPath 是分区路径。Hudi 会根据hoodie.datasource.write.partitionpath.field 配置项的列名从记录中获取的值作为分区路径。 https://llimllib.github.io/bloomfilter-tutorial/zh_CN/
原理计算RecordKey的hash值然后将其存储到bitmap中去key值做hash可能出现hash 碰撞的问题为了较少hash 值的碰撞使用多个hash算法进行计算后将hash值存入BitMap一般三次hash最佳
查找步骤
1、提取所有的分区路径和主键值然后计算每个分区路径中需要根据主键查找的索引的数量。
2、有了需要加载的分区后调用LoadInvolvedFiles 方法加载分区下所有的parquet 文件。在加载paquet文件只是加载文件中的页脚信息页脚存放的有布隆过滤器、记录最小值、记录最大值。对于布隆过滤器其实是存放的是bitmap序列化的对象。
3、加载好parquet 的页脚信息后会根据最大值和最小值构造线段树。
4、据Rdd 中RecordKey 进行数据匹配查找数据属于那个parqeut 文件中对于RecordKey查找只有符合最大值和最小值范围才会去查找布隆过滤器中的bitmap RecordKey小于最小值找左子树RecordKey大于最大值的key找右子树。递归查询后如果查找到节点为空说明RecordKey在当前分区中不存在当前Recordkey是新增数据。查找索引时spark会自定义分区避免大量数据在一个分区查找导致分区数据倾斜。查找到RecordKey位置信息后会构造HoodieKey,HoodieRecordLocation Rdd 对象。
