Spark环境配置
上传安装文件
spark-3.0.0-bin-without-hadoop.tgz
解压软件
tar -zxvf spark-3.0.0-bin-without-hadoop.tgz -C /bigdata/server/
# 创建软链接
ln -s spark-3.0.0-bin-without-hadoop spark
修改配置文件
vim conf/spark-env.sh
# spark-on 配置
export HADOOP_CONF_DIR=/bigdata/server/hadoop/etc/hadoop
export YARN_CONF_DIR=/bigdata/server/hadoop/etc/hadoop
# spark的classpath依赖配置
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
配置历史服务器
vim spark-defaults.conf
# 默认提交到yarn集群运行
spark.master=yarn
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://hadoop01:8020/spark/log
spark.driver.memory=2g
在hdfs上创建历史日志存放目录
hdfs dfs -mkdir -p /spark/log
配置环境变量
# vim /etc/profile.d/custom_env.sh
# spark
export SPARK_HOME=/bigdata/server/spark
export PATH=$PATH:$SPARK_HOME/bin
同步环境变量
xsync /etc/profile.d/custom_env.sh
加载环境变量
source /etc/profile
测试运行
# 提交示例程序
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
examples/jars/spark-examples_2.12-3.0.0.jar \
10
上传spark的依赖到hdfs
# 这里需要上传spark纯净的jar包目录(不含hadoop的jar包)
hdfs dfs -put spark/jars/* /spark/jars/
hdfs dfs -put hive/lib/hive-exec.jar /spark/jars/
修改hive的配置文件
vim conf/hive-site.xml
<!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
<property>
<name>spark.yarn.jars</name>
<value>hdfs://node01:8020/spark/jars/*</value>
</property>
<!--Hive执行引擎-->
<property>
<name>hive.execution.engine</name>
<value>spark</value>
</property>
<!--Hive和Spark连接超时时间-->
<property>
<name>hive.spark.client.connect.timeout</name>
<value>10000ms</value>
</property>
<property>
<name>hive.spark.server.connect.timeout</name>
<value>300000ms</value>
</property>
<property>
<name>hive.spark.client.future.timeout</name>
<value>1200ms</value>
</property>
启动测试
-
启动hive客户端
bin/hive
版权声明:本文为RayMand168原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。