linux 解压tar.gz命令 并重命名_linux下Spark安装与环境配置(附详细步骤和安装包下载)…

  • Post author:
  • Post category:linux



Hadoop测试:

linux下Hadoop安装与环境配置(附详细步骤和安装包下载)

按照上一篇文章安装完Hadoop集群之后,启动hdfs文件系统及yarn资源管理器(也可通过start-dfs.sh和start-yarn.sh完成):

start-all.sh

之后通过jps查看是否成功:

jps

成功之后如下图:

57053d46c70de7a2deb216c7864cb909.png

点击链接https://www.scala-lang.org/download/2.12.10.html,下载对应版本scala(本文选择scala 2.12.10):

6d491aa73ebc55b330eb9e65a0e503eb.png

下载好后解压到:/usr/local/

sudo tar zxvf ~/Downloads/scala-2.12.10.tgz -C /usr/local/

删除安装包:

rm ~/Downloads/scala-2.12.10.tgz

进入到减压目录并重命名:

cd /usr/local/sudo mv scala-2.12.10 scal

配置环境变量:

sudo vim /etc/profile
f6db0302cbfa5da66048b0ed67f8bdf8.png

执行source命令并测试:

source /etc/profilescala -version
3e1a1a3963264ac9bf85323b37912862.png


spark安装:

点击链接 http://spark.apache.org/downloads.html 进行下载(本文选择2.4.4版本):

db1019969e5021614773462216c281b4.png

下载好后解压至/usr/local/:

sudo tar zxvf ~/Downloads/spark-2.4.4-bin-hadoop2.7.tgz  -C /usr/local

删除安装包:

rm spark-2.4.4-bin-hadoop2.7.tgz 

进入到解压目录并重命名:

cd /usr/local/sudo mv spark-2.4.4-bin-hadoop2.7 spark


配置环境:

sudo vim /etc/profile
436126359d657a5507168b7ae3fc45d1.png

执行source更新命令:

source /etc/profile

配置spark-env.sh:

进入到配置目录并打开spark-env.sh文件:

cd spark/confcp spark-env.sh.template spark-env.shvim spark-env.sh

添加以下内容:

export JAVA_HOME=/usr/local/java/jdk1.8.0_241export HADOOP_HOME=/usr/local/hadoopexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoopexport SCALA_HOME=/usr/local/scalaexport SPARK_HOME=/usr/local/sparkexport SPARK_MASTER_IP=127.0.0.1export SPARK_MASTER_PORT=7077export SPARK_MASTER_WEBUI_PORT=8099export SPARK_WORKER_CORES=3export SPARK_WORKER_INSTANCES=1export SPARK_WORKER_MEMORY=5Gexport SPARK_WORKER_WEBUI_PORT=8081export SPARK_EXECUTOR_CORES=1export SPARK_EXECUTOR_MEMORY=1Gexport LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

配置slaves:

cp slaves.template  slavesvim slaves

注:我们会发现slaves文件里为localhost即本机地址,当前为伪分布式,因此不用修改

启动sbin目录下的start-master.sh以及start-slaves.sh(前提是hadoop已启动):

cd /usr/local/spark/./sbin/start-master.sh./sbin/start-slaves.sh

通过jps命令会发现多出worker一项

154393224d0d1acb922b750e08b8e04b.png

通过spark的web界面 http://127.0.0.1:8099/ 可以查看spark集群当前概况:

2dce7b0f924d64753c54440abf57a70b.png

启动bin目录下的spark-shell:

./bin/spark-shell

即会出现spark scala的命令行执行环境:

2c960f62ee1563bf6e44ba40b67d0730.png

同时我们还可通过spark-shell的web管理界面进行任务可视化监控:

8fbe28f6f3e395e37cd9d4331fbb6b6d.png

同时,也为了方便可以修改Bash环境变量配置:

vim /etc/bash.bashrc

添加相应环境变量:

export SPARK_HOME=/usr/local/sparkexport PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH

执行source更新命令:

source /etc/bash.bashrc

至此linux环境下Hadoop与Spark安装结束,下回将对这些框架的使用做进一步的介绍。



版权声明:本文为weixin_42367148原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。