如何搭建CentOS7上的Dolphinscheduler集群?

摘要:一、简述 Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。有如下特性: 高可靠性 去中心化的多Mas
一、简述 Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。有如下特性: 高可靠性 去中心化的多Master和多Worker, 自身支持HA功能, 采用任务队列来避免过载,不会造成机器卡死 简单易用 DAG监控界面,所有流程定义都是可视化,通过拖拽任务定制DAG,通过API方式与第三方系统对接, 一键部署 丰富的使用场景 支持暂停恢复操作. 支持多租户,更好的应对大数据的使用场景. 支持更多的任务类型,如 spark, hive, mr, python, sub_process, shell 高扩展性 支持自定义任务类型,调度器使用分布式调度,调度能力随集群线性增长,Master和Worker支持动态上下线 二、搭建过程 1.环境配置  集群服务划分: 192.168.30.141 s141 (master) 192.168.30.142 s142 (master) 192.168.30.143 s143 (api) 192.168.30.144 s144 (worker) 192.168.30.145 s145 (worker) 192.168.30.146 s146 (worker) 192.168.30.147 s147 (worker) 1>安装软件 PostgreSQL (8.2.15+) or MySQL (5.7系列) : 两者任选其一即可, 如MySQL则需要JDBC Driver 5.1.47+ JDK(1.8+) : 必装,请安装好后在/etc/profile下配置 JAVA_HOME 及 PATH 变量 ZooKeeper (3.4.6+) :必装 Hadoop (2.6+) or MinIO :选装,如果需要用到资源上传功能,可以选择上传到Hadoop or MinIO上 注意:DolphinScheduler本身不依赖Hadoop、Hive、Spark,仅是会调用他们的Client,用于对应任务的提交。 2>创建部署用户 # 创建用户需使用root登录,设置部署用户名,请自行修改,后面以dolphinscheduler为例 useradd dolphinscheduler; # 设置用户密码,请自行修改,后面以111111为例 echo "111111" | passwd --stdin dolphinscheduler # 配置sudo免密 echo 'dolphinscheduler ALL=(ALL) NOPASSWD: NOPASSWD: ALL' >> /etc/sudoers sed -i 's/Defaults requirett/#Defaults requirett/g' /etc/sudoers 注意: - 因为是以 sudo -u {linux-user} 切换不同linux用户的方式来实现多租户运行作业,所以部署用户需要有 sudo 权限,而且是免密的。
阅读全文