Spark3.X分布式集群部署
一、部署规划
hadoop高可用集群部署参考: Hadoop3.X分布式高可用集群部署
1.1 版本说明
| 软件 | 版本 |
|---|---|
| 操作系统 | CentOS Linux release 7.8.2003 (Core) |
| JAVA | jdk-8u271-linux-x64 |
| Hadoop | hadoop-3.2.2 |
| Scala | Scala2.12.15 |
| Spark | spark-3.1.2-bin-hadoop3.2 |
1.2 集群规划
| hostname | IP | 组件 | ||||
|---|---|---|---|---|---|---|
| master | 172.16.20.200 | NameNode | Spark-Master | |||
| secondmaster | 172.16.20.201 | NameNode | Spark-Master | |||
| slave1 | 172.16.20.202 | Zookeeper | DataNode | NodeManage | Spark-Worker | |
| slave2 | 172.16.20.203 | Zookeeper | DataNode | NodeManage | Spark-Worker | |
| slave3 | 172.16.20.204 | Zookeeper | DataNode | NodeManage | Spark-Worker |
二、环境配置
2.1 配置Scala环境
- 所有节点相同操作
下载解压
下载地址: https://downloads.lightbend.com/scala/2.13.6/scala-2.13.6.tgz
1 | tar -zxf scala-2.12.15.tgz |
配置环境变量
1 | cat >> /etc/profile << 'EOF' |
验证
1 | scala -version |
配置同步到其余节点, 并配置环境变量
1 | rsync -av /usr/local/scala root@sm:/usr/local/ |
三、Spark集群部署
3.1 下载解压
下载地址: http://spark.apache.org/downloads.html
1 | tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/hadoop/ |
各节点配置环境变量, /etc/profie下加入
1 | cat >> /etc/profile << 'EOF' |
3.2 修改配置
1 | cd $SPARK_HOME/conf |
spark-env.sh
1 | mkdir -pv /data/spark |
workers
1 | cat > workers << EOF |
3.3 同步配置
1 | rsync -av /opt/hadoop/spark-3.1.2-bin-hadoop3.2 root@sm:/opt/hadoop/ |
并在节点上创建软连接
1 | ln -s /opt/hadoop/spark-3.1.2-bin-hadoop3.2 /usr/local/spark |
3.4 启动
master节点集群方式启/停spark集群
1 | $SPARK_HOME/sbin/start-all.sh |
secondmaster节点单节点方式启/停Master
1 | $SPARK_HOME/sbin/start-master.sh |
四、验证启动状态
5.1 命令查看
查看zk数据
1 | zkCli.sh |
JPS查看
master节点
1 | // JPS命令查看 |
slave节点
1 | // JPS命令查看 |
5.2 web页面查看
访问master和secondmaster的8080端口, 查看spark主页
master: Status: ALIVE
secondmaster: Status: STANDBY
五、高可用验证
停止master节点Master进程, 访问secondmaster的spark页面,查看状态是否切换为ALIVE
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 我的Hexo博客!