hive on spark模式spark的配置

  • Post author:
  • Post category:其他




Spark环境配置



上传安装文件


spark-3.0.0-bin-without-hadoop.tgz



解压软件

tar -zxvf spark-3.0.0-bin-without-hadoop.tgz -C /bigdata/server/
# 创建软链接
ln -s spark-3.0.0-bin-without-hadoop  spark



修改配置文件

vim conf/spark-env.sh
# spark-on 配置
export HADOOP_CONF_DIR=/bigdata/server/hadoop/etc/hadoop
export YARN_CONF_DIR=/bigdata/server/hadoop/etc/hadoop
# spark的classpath依赖配置
export SPARK_DIST_CLASSPATH=$(hadoop classpath)



配置历史服务器

vim  spark-defaults.conf
# 默认提交到yarn集群运行
spark.master=yarn 
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://hadoop01:8020/spark/log
spark.driver.memory=2g

在hdfs上创建历史日志存放目录

hdfs dfs -mkdir -p /spark/log



配置环境变量

# vim /etc/profile.d/custom_env.sh
# spark
export SPARK_HOME=/bigdata/server/spark
export PATH=$PATH:$SPARK_HOME/bin

同步环境变量

xsync /etc/profile.d/custom_env.sh

加载环境变量

source /etc/profile



测试运行

# 提交示例程序
spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn \
  examples/jars/spark-examples_2.12-3.0.0.jar \
  10



上传spark的依赖到hdfs

# 这里需要上传spark纯净的jar包目录(不含hadoop的jar包)
hdfs dfs -put  spark/jars/*  /spark/jars/
hdfs dfs -put  hive/lib/hive-exec.jar  /spark/jars/



修改hive的配置文件

vim conf/hive-site.xml	
<!--Spark依赖位置(注意:端口号8020必须和namenode的端口号一致)-->
    <property>
        <name>spark.yarn.jars</name>
        <value>hdfs://node01:8020/spark/jars/*</value>
    </property>
    <!--Hive执行引擎-->
    <property>
        <name>hive.execution.engine</name>
        <value>spark</value>
    </property>
    <!--Hive和Spark连接超时时间-->
    <property>
        <name>hive.spark.client.connect.timeout</name>
        <value>10000ms</value>
    </property>
    <property>
        <name>hive.spark.server.connect.timeout</name>
        <value>300000ms</value>
    </property>
    <property>
        <name>hive.spark.client.future.timeout</name>
        <value>1200ms</value>
    </property>



启动测试

  1. 启动hive客户端

    bin/hive
    



版权声明:本文为RayMand168原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。