CentOS 7下搭建单节点Spark-3.2.3

Post author:xfxia
Post published:2023年10月14日
Post category:其他

注：本文章仅为记录本人安装过程，如有不足之处欢迎大家指正。

文章目录

一、安装前提
二、下载解压
三、修改配置文件并添加环境变量
- 1.修改配置文件
- 2.设置环境变量
四、测试运行
- 1.运行spark-shell
- 2.运行自带示例
总结

一、安装前提

安装Spark前需确保

JDK1.8

、

Python3.8.5

、

Hadoop2.10.2

等已安装完成并配置对应的环境变量。如未安装以上环境，请移步如下链接：

CentOS 7下安装jdk

CentOS 7下安装Python3.8.5

CentOS 7下搭建伪分布式hadoop2.10.2

二、下载解压

1.切换至指定目录下(下列代码以本人常用路径为例)

cd /usr/local/

2.使用wget命令下载Spark压缩包

此处使用的华为云镜像，也可替换为其他镜像源

wget https://repo.huaweicloud.com/apache/spark/spark-3.2.3/spark-3.2.3-bin-without-hadoop.tgz

如果wget命令不能使用，也可以将该压缩包下载后通过Xftp等工具上传至指定目录下。

3.解压并删除压缩包

tar -zxvf ./spark-3.2.3-bin-without-hadoop.tgz && rm -rf ./spark-3.2.3-bin-without-hadoop.tgz

4.文件夹更名

mv ./spark-3.2.3-bin-without-hadoop/ ./spark-3.2.3

执行完以上步骤后可以看到Spark压缩包已经成功解压并完成了目录更名

示例图片

三、修改配置文件并添加环境变量

1.修改配置文件

首先进入配置文件所在目录

cd /usr/local/spark-3.2.3/conf

然后使用配置文件的模板生成配置文件

cp spark-env.sh.template spark-env.sh

配置文件生成后再进行修改

vi spark-env.sh

需要在该配置文件中添加如下代码，其中的hadoop路径请修改为自己所安装的路径

# hadoop路径
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.10.2/bin/hadoop classpath)

2.设置环境变量

首先使用编辑模式打开环境变量文件

vi /etc/profile

然后在该文件中添加如下代码并保存，其中包含了Spark安装目录以及PySpark，PySpark 是 Spark 为 Python 开发者提供的 API，不需要可以不添加。（由于文章开头已提到默认安装了JDK、Python、Hadoop并配置了对应的环境变量，故此处不涉及上述环境的环境变量）

# spark
export PATH=$PATH:$SPARK_HOME/bin
export SPARK_HOME=/usr/local/spark-3.2.3
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.5-src.zip:$PYTHONPATH

# pyspark
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

使环境变量生效

source /etc/profile

四、测试运行

1.运行spark-shell

spark-shell

可以看到成功运行spark-shell，并标注出了Spark版本信息
示例图片

此时使用浏览器打开网页“

http://虚拟机ip:4040/

”则可查看SparkUI相关信息。（如果无法访问可能是防火墙原因）

使用如下命令即可退出spark-shell，也可以使用键盘Ctrl+C结束进程

:quit

示例图片

2.运行自带示例

运行自带示例测试打印圆周率

run-example SparkPi 10 | grep "Pi is roughly"

可以看到运行结果已经高亮显示出来

示例图片

总结

本文章仅为

记录本人安装过程

，如有不足之处欢迎大家指正。

原文链接：https://blog.csdn.net/m0_47373772/article/details/131275348