如何创建网站的八个步骤?
摘要:建网站的八个步骤,游戏网页链接,漂亮网站,网站页面设计报价模板spark笔记 1. 概述 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎;Spark提供内存计算,
建网站的八个步骤,游戏网页链接,漂亮网站,网站页面设计报价模板spark笔记
1. 概述
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎#xff1b;Spark提供内存计算#xff0c;将计算结果直接放在内存中#xff0c;减少了迭代计算的IO开销#xff0c;有更高效的运算效率。 1.1 Spark核心模块 Spark Core#xff1a;提供S…spark笔记
1. 概述
Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎Spark提供内存计算将计算结果直接放在内存中减少了迭代计算的IO开销有更高效的运算效率。 1.1 Spark核心模块 Spark Core提供Spark最基础与最核心的功能Spark SQL是Spark用来操作结构化数据的组件。通过Spark SQL用户可以使用SQL或者Apache Hive 版本的SQL 方言HQL来查询数据Spark Streaming是Spark平台上针对实时数据进行流式计算的组件提供了丰富的处理数据流的API 1.2 基本概念 RDD弹性分布式数据集的简称分布式内存的一个抽象概念提供了一种高度受限的共享内存模 (可以看作一个不可变的分布式对象集合) DAG有向无环图的简称 反映RDD之间的依赖关系 Executor是运行在工作节点WorkerNode的一个进程负责运行Task 应用Application用户编写的Spark应用程序 任务 Task 运行在Executor上的工作单元 作业 Job 一个作业包含多个RDD及作用于相应RDD上的各种操作 阶段 Stage 是作业的基本调度单位一个作业会分为多组任务每组任务被称为阶段或者也被称为任务集合代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集
2. spark工作架构 Cluster Manager集群资源管理器Worker Node运行作业任务的工作节点运行在集群中的一台服务器上Cluster Manager每个应用的任务控制节点Driver每个应用的任务控制节点Executor每个工作节点上负责具体任务的执行进程 一个应用由一个Driver和若干个作业构成一个作业由多个阶段构成一个阶段由多个没有Shuffle关系的任务组成 当执行一个应用时Driver会向集群管理器申请资源(即由Driver创建一个SparkContext进行资源的申请、任务的分配和监控) 启动Executor并向Executor发送应用程序代码和文件然后在Executor上执行任务运行结束后执行结果会返回给Driver或者写到HDFS或者其他数据库中。
3. RDD
弹性分布式数据集spark最基本的数据处理模型代码中是一个抽象类它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 3.1 特性 弹性 内存与磁盘的自动切换、数据丢失可以自动恢复、计算出错重试机制、可根据需要重新分片 分布式 数据存储在大数据集群不同节点上 数据集 RDD封装计算逻辑不保存数据 不可变 RDD封装计算逻辑是不可以改变的想要改变只能产生新的RDD在新的RDD里面封装计算逻辑 可分区 并行计算 3.2 RDD 创建 RDD的创建可以从从文件系统中加载数据创建得到或者通过并行集合数组创建RDD。
