龙蜥8.10中spark各种集群及单机模式的搭建spark3.5.6(基于hadoop3.3.6集群)

先说最终的访问端口,如我这里ip为172.20.94.37、172.20.94.38、172.20.94.39,主机名分别为:hadoop37、hadoop38、hadoop39.
最终访问(默认端口):

hadoop webui 172.20.94.37:9870
hdfs 端口 8020
yarn 172.20.94.37:8088
historyserver 172.20.94.37:19888spark-master-port: 7077
spark-webui-port: 172.20.94.37:8080
spark-worker-webui-port: 172.20.94.37:8081
spark-historyserver: 172.20.94.37:18081

**

注意:如果要切换集群模式,一定要修改/etc/profile中SPARK_HOME的路径到对应的目录

**
1、去清华的镜像源下载相关文件 https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.5.6/
2、解压缩

tar zxvf spark-3.5.6-bin-hadoop3.tgz

3、移动到适当位置

mv spark-3.5.6-bin-hadoop3 /app/spark-3

4、下载scala
https://www.scala-lang.org/download/all.html
这个版本的spark用的是scala-2.12.20
https://www.scala-lang.org/download/2.12.20.html
linux下
https://downloads.lightbend.com/scala/2.12.20/scala-2.12.20.tgz

tar zxvf scala-2.12.20.tgz
mv scala-2.12.20 /app/scala-2

5、配置环境变量
nano /etc/profile
下面是完整的java、hadoop、scala、spark的配置环境

export JAVA_HOME=/app/openjdk-8
export HADOOP_HOME=/app/hadoop-3
export SCALA_HOME=/app/scala-2
export SPARK_HOME=/app/spark-3export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/sbin:$SCALA_HOME/bin

source /etc/profile 环境变量生效

验证:

scala -version
spark-shell
:quit 退出

单机模式:
6、配置
进到/app/spark-3/conf中,复制一个文件出来

cd /app/spark-3/conf
cp spark-env.sh.template spark-env.sh

nano spark-env.sh

export SCALA_HOME=/app/scala-3
export JAVA_HOME=/app/openjdk-8
export SPARK_MASTER_IP=hadoop37
export SPARK_WOKER_CORES=2
export SPARK_WOKER_MEMORY=2g
export HADOOP_CONF_DIR=/app/hadoop-3/etc/hadoop
#export SPARK_MASTER_WEBUI_PORT=8080
#export SPARK_MASTER_PORT=7070

7、配置spark-defaults.conf

cd /app/spark-3/conf
cp spark-defaults.conf.template spark-defaults.conf
nano spark-defaults.conf
spark.master                     yarn
spark.hadoop.fs.defaultFS        hdfs://hadoop37:8020
spark.yarn.jars                  hdfs://hadoop37:8020/spark-jars/*.jar

可以启动了

cd /app/spark-3
sbin/start-all.sh

8、查看spark版本

spark-submit --version

9、启动spark

cd /app/spark-3
sbin/start-all.sh

停止所有:

sbin/stop-all.sh

10、jps 查看是否安装成功,比如我的是这样,Worker、Master启动完,证明spark和scala安装启动成功了,这是主节点:

19136 JobHistoryServer
18533 ResourceManager
18039 DataNode
18727 NodeManager
20584 Worker
18233 SecondaryNameNode
20681 Jps
17900 NameNode
20479 Master

11、子节点:
jps执行后:

1559 DataNode
1687 NodeManager
1853 Jps

12、ip:8080 ,如 172.20.94.37:8080 来查看验证集群的情况。

——————————————————————————————————
spark on yarn集群模式

我是先装一个docker,在此基础上安装zookeeer3.6.4,然后搭建集群。

容器化安装:
docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/zookeeper:3.6.4
docker tag  swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/zookeeper:3.6.4  docker.io/zookeeper:3.6.4docker run --restart=always --log-driver json-file --log-opt max-size=100m --log-opt max-file=2 --name zookeeper -p 2181:2181 -p 8090:8080 -v /etc/localtime:/etc/localtime -d docker.io/zookeeper:3.6.4
启动了一个新的端口,可以查看相关命令,如类似下面的路径:
http://172.20.94.33:8090/commands

1、解压缩

tar zxvf spark-3.5.6-bin-hadoop3.tgz

2、移动到适当位置

mv spark-3.5.6-bin-hadoop3 /app/spark3-yarn

3、配置

cd /app/spark3-yarn/conf
cp spark-env.sh.template spark-env.sh

4、nano spark-env.sh

默认增加:

export JAVA_HOME=/app/openjdk-8
HADOOP_CONF_DIR=/app/hadoop-3/etc/hadoop
YARN_CONF_DIR=/app/hadoop-3/etc/hadoop

——————————————————————————————————

spark standalone集群模式 -------------

1、解压缩

tar zxvf spark-3.5.6-bin-hadoop3.tgz

2、移动到适当位置

mv spark-3.5.6-bin-hadoop3 /app/spark3-standalone

3、配置

cd /app/spark3-standalone/conf
cp spark-env.sh.template spark-env.sh

4、nano spark-env.sh
默认增加:

export JAVA_HOME=/app/openjdk-8
export SPARK_MASTER_HOST=hadoop37
export SPARK_MASTER_IP=hadoop37
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8080
export SPARK_WOKER_MEMORY=2g
export SPARK_WOKER_WEBUI_PORT=8081
export SPARK_HISTORY_OPTS="
-Dspark.history.fs.cleaner.enabled=true
-Dspark.history.fs.logDirectory=hdfs://hadoop37:8020/spark/logs
-Dspark.history.ui.port=18081"

5、cd /app/spark3-standalone/conf

cp spark-defaults.conf.template spark-defaults.conf
nano spark-defaults.conf

增加内容:

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop37:8020/spark/logs

6、cp workers.template workers
nano workers
增加内容:

hadoop37
hadoop38
hadoop39

7、创建spark/logs目录

hdfs dfs -mkdir -p /spark/logs

8、文件分发

scp -r /app/spark3-standalone/ hadoop38:/app/
scp -r /app/spark3-standalone/ hadoop39:/app/

9、启动spark

cd /app/spark3-standalone
./sbin/start-all.sh

停止所有:

./sbin/stop-all.sh

————————————————————————————————

spark ha 集群模式 -------------

1、解压缩

tar zxvf spark-3.5.6-bin-hadoop3.tgz

2、移动到适当位置

mv spark-3.5.6-bin-hadoop3 /app/spark3-ha

3、配置

cd /app/spark3-ha/conf
cp spark-env.sh.template spark-env.sh

4、nano spark-env.sh

默认增加:

export JAVA_HOME=/app/openjdk-8
export SPARK_MASTER_WEBUI_PORT=8080
export SPARK_HISTORY_OPTS="
-Dspark.history.fs.cleaner.enabled=true
-Dspark.history.fs.logDirectory=hdfs://hadoop37:8020/spark/logs
-Dspark.history.ui.port=18081"
export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=172.20.94.33:2181,172.20.94.33:2181
-Dspark.deploy.zookeeper.dir=/app/spark3-ha"

5、cd /app/spark3-ha/conf

cp spark-defaults.conf.template spark-defaults.conf

nano spark-defaults.conf
增加内容:

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop37:8020/spark/logs

6、cp workers.template workers
nano workers
增加内容:

hadoop37
hadoop38
hadoop39

7、创建spark/logs目录

hdfs dfs -mkdir -p /spark/logs

8、文件分发

scp -r /app/spark3-ha/ hadoop38:/app/
scp -r /app/spark3-ha/ hadoop39:/app/

9、启动spark

cd /app/spark3-ha
./sbin/start-all.sh

停止所有:

./sbin/stop-all.sh

10、启动standby状态的Master
比如在hadoop38

cd /app/spark3-ha
sbin/start-master.sh

11、启动历史服务器

cd /app/spark3-ha
sbin/start-history-server.sh

————————————————————————————
部署及运行的例子:
不指定模式,使用本地模式

cd /app/spark3-standalone
bin/spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode client --executor-memory 1G --executor-cores 1 --num-executors 1 examples/jars/spark-examples_2.12-3.5.6.jar 5

指定运行模式 yarn:

cd /app/spark3-yarn
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --executor-memory 1G --executor-cores 1 --num-executors 1 examples/jars/spark-examples_2.12-3.5.6.jar 5

上传文件:

hdfs dfs -put /app/word.txt /

删除输出目录

hdfs dfs -rm -r  /out

运行:

bin/spark-submit --class org.rainpet.WordCount --master yarn --conf spark.yarn.jars=$SPARK_HOME/jars/* --deploy-mode client --executor-memory 1G --executor-cores 1 --num-executors 1 /app/scala-spark-cluster01-1.0-SNAPSHOT.jar /word.txt /out

windows下:

spark-submit --class org.rainpet.WordCount --master yarn --conf spark.yarn.jars=%SPARK_HOME%/jars/* --deploy-mode client --executor-memory 1G --executor-cores 1 --num-executors 1 scala-spark-cluster01-1.0-SNAPSHOT.jar /word.txt /out

本地文件

sc.textFile("file:///D:/java/workspace_gitee/cloud-compute-course-demo/scala-spark01/src/main/resources/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

hdfs文件

sc.textFile("/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/97883.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/97883.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于我重新学习 react 的第一遍

今天是25年9月11号,很久很久没有学习前端知识了,坦诚来说还清楚记得在大学里因为前端技术第一次获奖的心情,也清晰记得写完第一篇博客后的心情,工作和运动给我最大程度的成就感。 打破自己 重新开始 完全地 版本一 25.9.11 文章目…

第2课:Agent系统架构与设计模式

第2课:Agent系统架构与设计模式 课程目标 理解Agent的基本概念和特性掌握多Agent系统的设计模式学习Agent通信协议和消息传递实践创建简单的Agent框架 课程内容 2.1 Agent基础概念 什么是Agent? Agent是一个具有自主性、反应性、社会性和主动性的计…

Day42 51单片机中断系统与8×8 LED点阵扫描显示

day42 51单片机中断系统与88 LED点阵扫描显示一、51单片机引脚位操作 —— sbit 关键字 作用 sbit 是专用于 51 单片机架构的 C 语言扩展关键字,用于定义特殊功能寄存器(SFR)中的某一位,从而实现对单个 I/O 引脚的直接位操作。 示…

差分: 模板+题目

题目:【模板】差分 应用场景:快速解决将某一个区间所有元素加上 “一个数” 的操作。 第一步,预处理差分数组。 f[i] 表示:当前元素与前一个元素的差值 a[i] - a[i-1]; 但在题目中,我们其实可以不用到a[]这个数组…

GD32 Timer+ADC多通道+DMA+PWM调试记录

本例记录使用GD32307C开发板,实现以内部Timer1 CH1为触发源,触发ADC0的两个通道,进行并行非连续采样,病通过DMA传输采样结果。同时输出PWM,用来检测Timer1 CH1的触发周期。下面介绍具体实现过程:1. gpio初始…

阻塞 IO为什么叫BIO,非阻塞IO为什么叫NIO,异步IO为什么叫AIO

IOIO的核心就是数据传输,也就是程序与外部设备之间进行传输,通过IO的核心可以分为,文件IO和网络IO文件IO交互的对象就是本地存储设备,比方说读写本地文件。网络IO交互的对象就是网络设备,核心的应用场景就是网络通信。…

10分钟了解什么是多模态大模型

10分钟了解什么是多模态大模型(MM-LLMs) 1. 什么是多模态 Multimodality 多模态(Multimodality)是指集成和处理两种或两种以上不同类型的信息或数据的方法和技术。在机器学习和人工智能领域,多模态涉及的数据类型通常…

通过DSL生成Jenkins流水线

代码化管理 Jenkins 流水线(Infrastructure as Code) 版本控制:DSL 脚本可以像代码一样存入 Git、GitLab 等版本控制系统,所有任务配置的变更都有提交记录,便于追溯历史、回滚错误。协作效率:团队成员可以通…

信号量主要API及综合应用

1.信号量概述信号量是一个底层核心模块【int】类型变量,记录当前信号量数据。信号量 P 操作 (sem_wait)线程检测对应信号量底层 int 数据数值,如果大于 0,当前线程获得 CPU 执行权,同时将信号量底层 int 数据-1 操作。如果底层数据…

工业自动化领域的“超级跑车”:西门子TDC系统深度解析与实战架构

工业自动化领域的“超级跑车”:西门子TDC系统深度解析与实战架构 文章目录 工业自动化领域的“超级跑车”:西门子TDC系统深度解析与实战架构引言:当普通PLC遇到性能瓶颈第一章:认识TDC——它不是简单的“大型PLC”1.1 TDC究竟是什…

MySQL高阶查询语句与视图实战指南

MySQL高阶查询语句与视图实战指南 文章目录MySQL高阶查询语句与视图实战指南一、常用高阶查询技巧1. 按关键字排序(ORDER BY)基础用法进阶用法:多字段排序条件过滤2. 区间判断与去重(AND/OR DISTINCT)区间判断&#x…

解决Pytest参数化测试中文显示乱码问题:两种高效方法

在使用Pytest进行参数化测试时,许多开发者都会遇到一个常见但令人头疼的问题:当测试用例的ids参数包含中文字符时,控制台输出会出现乱码。这不仅影响了测试报告的可读性,也给测试结果的分析带来了困难。本文将深入探讨这个问题&am…

基于SpringBoot的校园流浪动物救助平台【spring boot实战项目、Java毕设、Java项目、Java实战】

💖💖作者:计算机毕业设计小途 💙💙个人简介:曾长期从事计算机专业培训教学,本人也热爱上课教学,语言擅长Java、微信小程序、Python、Golang、安卓Android等,开发项目包括…

利用kimi k2编写postgresql协议服务端的尝试

美团龙猫还是很有自知之明的 提问请用C编写postgresql协议服务端,能接收psql客户端或其他采用postgresql协议的工具的请求,实现将用户请求打印在控制台,并把回应发给客户端回答 抱歉,我无法为您编写完整的 PostgreSQL 协议服务端。…

医疗 AI 再突破:辅助诊断准确率超 90%,但落地医院仍面临数据安全与临床信任难题

一、引言(一)医疗 AI 发展背景在数字化与智能化浪潮的席卷下,医疗领域正经历着深刻变革,人工智能(AI)技术的融入成为这场变革的关键驱动力。近年来,医疗 AI 辅助诊断技术取得重大突破&#xff0…

Rocky Linux10.0安装zabbix7.4详细步骤

安装Rocky Linux10.0系统 请参考Rocky Linux10.0安装教程-CSDN博客 查看当前系统版本 cat /etc/*release 安装数据库 安装zabbix之前,需要先安装一个数据库来承载zabbix的数据。这里我选择在本机直接安装一个MariaDB数据库。 Rocky Linux10.0系统默认不包含MySQ…

JDBC插入数据

文章目录视频:JDBC插入数据环境准备写插入数据属性配置属性配置视频:JDBC插入数据 环境准备 MySQL环境 小皮面板 提供MySQL环境 写插入数据 属性配置 声明变量 属性配置 # . properties 是一个特俗的map 集合 # key : 字符串 value : 字符串…

GPU 服务器压力测试核心工具全解析:gpu-burn、cpu-burn 与 CUDA Samples

在 GPU 服务器的性能验证、稳定性排查与运维管理中,压力测试是关键环节,可有效检测硬件极限性能、散热效率及潜在故障。以下从工具原理、核心功能、使用场景等维度,详细介绍三款核心测试工具,帮助用户系统掌握 GPU 服务器压力测试方法。 一、GPU 专属压力测试工具:gpu-bu…

Python进程和线程——多线程

前面提到过进程是由很多线程组成的,那么今天廖老师就详细解释了线程是如何运行的。首先,,Python的标准库提供了两个模块:_thread和threading,_thread是低级模块,threading是高级模块,对_thread进…

【MySQL|第九篇】视图、函数与优化

目录 十、视图 1、简单视图: 2、复杂视图: 3、视图更新: 十一、函数 1、函数创建: 十二、数据库优化 1、索引优化: 2、查询优化: 3、设计优化: 十、视图 在 MySQL 中,视图…