云南建设厅网站首页建设公司为何倒闭?

摘要:云南建设厅建设网站首页,网站建设公司倒闭,app外包公司有哪些,微信公众平台官方网站1.背景 要了解spark参数调优,首先需要清楚一部分背景资料Spark SQL的执行原理,方便
云南建设厅建设网站首页,网站建设公司倒闭,app外包公司有哪些,微信公众平台官方网站1.背景 要了解spark参数调优#xff0c;首先需要清楚一部分背景资料Spark SQL的执行原理#xff0c;方便理解各种参数对任务的具体影响。 一条SQL语句生成执行引擎可识别的程序#xff0c;解析#xff08;Parser#xff09;、优化#xff08;Optimizer#xff09;、执行… 1.背景 要了解spark参数调优首先需要清楚一部分背景资料Spark SQL的执行原理方便理解各种参数对任务的具体影响。 一条SQL语句生成执行引擎可识别的程序解析Parser、优化Optimizer、执行Execution 三大过程。其中Spark SQL 解析和优化如下图 Parser模块未解析的逻辑计划将SparkSql字符串解析为一个抽象语法树/AST。语法检查不涉及表名字段。 Analyzer模块解析后的逻辑计划该模块会遍历整个AST并对AST上的每个节点进行数据类型的绑定以及函数绑定然后根据元数据信息Catalog对数据表中的字段和基本函数进行解析。 Optimizer模块该模块是Catalyst的核心主要分为RBO和CBO两种优化策略其中RBO是基于规则优化谓词下推(Predicate Pushdown) 、常量累加(Constant Folding) 、列值裁剪(Column Pruning)CBO是基于代价优化。 SparkPlanner模块优化后的逻辑执行计划OptimizedLogicalPlan依然是逻辑的并不能被Spark系统理解此时需要将OptimizedLogicalPlan转换成physical plan物理计划如join算子BroadcastHashJoin、ShuffleHashJoin以及SortMergejoin 。 CostModel模块主要根据过去的性能统计数据选择最佳的物理执行计划。这个过程的优化就是CBO基于代价优化。 在实际Spark执行完成一个数据生产任务执行一条SQL的基本过程 1对SQL进行语法分析生成逻辑执行计划 2从Hive metastore server获取表信息结合逻辑执行计划生成并优化物理执行计划 3根据物理执行计划向Yarn申请资源executor调度task到executor执行。 4从HDFS读取数据任务执行任务执行结束后将数据写回HDFS。 上述运行过程 过程 2主要是driver的处理能力 过程 3主要是executor 、driver的处理能力、作业运行行为 本文从作业的运行过程23各选择一个参数介绍从而了解运行过程。
阅读全文