CentOS 7下搭建单节点Spark-3.2.3

  • Post author:
  • Post category:其他


注:本文章仅为记录本人安装过程,如有不足之处欢迎大家指正。




一、安装前提

安装Spark前需确保

JDK1.8



Python3.8.5



Hadoop2.10.2

等已安装完成并配置对应的环境变量。如未安装以上环境,请移步如下链接:


CentOS 7下安装jdk



CentOS 7下安装Python3.8.5



CentOS 7下搭建伪分布式hadoop2.10.2



二、下载解压



1.切换至指定目录下(下列代码以本人常用路径为例)

cd /usr/local/



2.使用wget命令下载Spark压缩包

此处使用的华为云镜像,也可替换为其他镜像源

wget https://repo.huaweicloud.com/apache/spark/spark-3.2.3/spark-3.2.3-bin-without-hadoop.tgz

如果wget命令不能使用,也可以将该压缩包下载后通过Xftp等工具上传至指定目录下。



3.解压并删除压缩包

tar -zxvf ./spark-3.2.3-bin-without-hadoop.tgz && rm -rf ./spark-3.2.3-bin-without-hadoop.tgz



4.文件夹更名

mv ./spark-3.2.3-bin-without-hadoop/ ./spark-3.2.3

执行完以上步骤后可以看到Spark压缩包已经成功解压并完成了目录更名

示例图片



三、修改配置文件并添加环境变量



1.修改配置文件

首先进入配置文件所在目录

cd /usr/local/spark-3.2.3/conf

然后使用配置文件的模板生成配置文件

cp spark-env.sh.template spark-env.sh

配置文件生成后再进行修改

vi spark-env.sh

需要在该配置文件中添加如下代码,其中的hadoop路径请修改为自己所安装的路径

# hadoop路径
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.10.2/bin/hadoop classpath)



2.设置环境变量

首先使用编辑模式打开环境变量文件

vi /etc/profile

然后在该文件中添加如下代码并保存,其中包含了Spark安装目录以及PySpark,PySpark 是 Spark 为 Python 开发者提供的 API,不需要可以不添加。(由于文章开头已提到默认安装了JDK、Python、Hadoop并配置了对应的环境变量,故此处不涉及上述环境的环境变量)

# spark
export PATH=$PATH:$SPARK_HOME/bin
export SPARK_HOME=/usr/local/spark-3.2.3
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.5-src.zip:$PYTHONPATH

# pyspark
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH

使环境变量生效

source /etc/profile



四、测试运行



1.运行spark-shell

spark-shell

可以看到成功运行spark-shell,并标注出了Spark版本信息
示例图片

此时使用浏览器打开网页“

http://虚拟机ip:4040/

”则可查看SparkUI相关信息。(如果无法访问可能是防火墙原因)

示例图片

使用如下命令即可退出spark-shell,也可以使用键盘Ctrl+C结束进程

:quit

示例图片



2.运行自带示例

运行自带示例测试打印圆周率

run-example SparkPi 10 | grep "Pi is roughly"

可以看到运行结果已经高亮显示出来

示例图片




总结

本文章仅为

记录本人安装过程

,如有不足之处欢迎大家指正。



版权声明:本文为m0_47373772原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。