2023年陕西省高等职业院校技能大赛“大数据应用开发“赛项之平台搭建

  • Post author:
  • Post category:其他




此文章为2023年陕西省高等职业院校技能大赛”大数据应用开发”赛项赛题的平台搭建任务的所有操作步骤,不包含截图。如有错误的地方请帮忙指出,所有内容仅供参考,希望能帮助到你



任务一:Hadoop 完全分布式安装配置



1、将容器 Master 节点 JDK 安装包解压并移动到/opt/module 路径中(若路径不存在,则需新建),将命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

tar -zxvf /opt/software/jdk-8u212-linux-x64.tar.gz -C /opt/module



2、修改/etc/profile 文件,设置 JDK 环境变量,配置完毕后在 master 节点分别执行“java -version”和“javac”命令,将命令行执行结果分别截图并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

vim /etc/profile
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin



3、 请完成 host 相关配置,将三个节点分别命名为 master、slave1、slave2,并做免密登录,用 scp 命令并使用绝对路径从 master 复制 JDK 解压后的安装文件到 slave1、slave2 节点(若路径不存在,则需新建),并配置 slave1、slave2 相关环境变量,将全部复制命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

三台节点分别命名(比赛时节点已完成命名):

hostnamectl set-hostname mater
hostnamectl set-hostname slave1
hostnamectl set-hostname slave2

更改hosts文件:

masterip	master
slave1ip	slave1
slave2ip	slave2

配置免密登录(三台节点):

cd .ssh/
​ssh-keygen
​ssh-copy-id master
​ssh-copy-id slave1
​ssh-copy-id slave2

scp 命令并使用绝对路径从 master 复制 JDK 解压后的安

装文件和环境变量文件到 slave1、slave2 节点

scp -r /opt/module/jdk1.8.0_212/ root@slave1:/opt/module/
scp -r /opt/module/jdk1.8.0_212/ root@slave2:/opt/module/
scp -r /etc/profile root@slave1:/etc
scp -r /etc/profile root@slave1:/etc



4、 在容器 Master 将 Hadoop 解压到/opt/module(若路径不存在,则需新建)目录下,并将解压包分发至 slave1、slave2 中,其中 master、slave1、slave2节点均作为 datanode,配置好相关环境,初始化 Hadoop 环境 namenode,将初始化命令及初始化结果截图(截取初始化结果结束倒数 20 行即可)复制粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

将hadoop解压到/opt/module

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module

并将解压包分发至slave1、slave2中(为提高效率可以先不分发,配置完毕后再分发)

scp -r /opt/module/hadoop-3.1.3/ root@bigdata2:/opt/module/
scp -r /opt/module/hadoop-3.1.3/ root@bigdata3:/opt/module/

配置hadoop环境变量(配置完成source /etc/profile):

export HADOOP_HOME=/opt/ module/ hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HDFS_NAMENODE_USER=root
​export HDFS_DATANODE_USER=root
​export HDFS_SECONDARYNAMENODE_USER=root
​export YARN_RESOURCEMANAGER_USER=root
​export YARN_NODEMANAGER_USER=root

进入需要修改hadoop配置文件的目录:

cd $HADOOP_HOME/etc/hadoop

vim hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_212

vim core-site.xml

<property> 
	<name>fs.defaultFS</name> 
	<value>hdfs://master:8020</value> 
</property> 
<property> 
	<name>hadoop.tmp.dir</name> 
	<value>/opt/module/hadoop-3.1.3/data</value> 
</property>

vim hdfs-site.xml

<property>
	<name>dfs.namenode.http-address</name>
    <value>master:9870</value>
</property>
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>slave2:9868</value>
</property>

vim yarn-site.xml

<property>
 	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
<property>
 	<name>yarn.resourcemanager.hostname</name>
	<value>slave1</value>
</property>
<property>
	<name>yarn.nodemanager.env-whitelist</name>
 
	<value>JAVA_HOME,
        HADOOP_COMMON_HOME,
        HADOOP_HDFS_HOME,
        HADOOP_CONF_DIR,
        CLASSPATH_PREPEND_DISTCACHE,
        HADOOP_YARN_HOME,
        HADOOP_MAPRED_HOME
	</value>
</property>

vim mapred-site.xml

<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

vim workers

master
slave1
slave2

编辑完以上配置文件将hadoop与/etc/profile文件复制到slave1和slave2

scp -r /opt/module/hadoop-3.1.3/ root@bigdata2:/opt/module/
scp -r /opt/module/hadoop-3.1.3/ root@bigdata3:/opt/module/
scp -r /etc/profile root@slave1:/etc
scp -r /etc/profile root@slave1:/etc

格式化Namenode命令

hdfs namenode -format



5、 启动 Hadoop 集群(包括 hdfs 和 yarn),使用 jps 命令查看 master 节点与slave1 节点的 java 进程,将 jps 命令与结果截图复制粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下。

启动集群,在master上启动hdfs,slave1上启动yarn

root@master:sbin/start-dfs.sh
root@slave1:sbin/start-yarn.sh



任务二:HBase 分布式部署



1、 确认是否完成 Hadoop 和 ZooKeeper 的分布式安装部署,若没有请进行安装部署并启动。完成部署后在三个节点分别使用 jps 命令,并将结果分别截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

将zookeeper解压至/opt/module目录下

tar zxvf /opt/software/apache-zookeeper-3.5.7-bin.tar.gz -C /opt/module/

配置zookeeper环境变量

export ZOOKEEPER_HOME=/opt/module/zookeeper-3.5.7
export PATH=$PATH:$ZOOKEEPER_HOME/bin

在zookeeper目录下创建data和logs

mkdir data logs

配置conf文件,进入conf目录

复制配置文件

cp zoo_sample.cfg zoo.cfg 
vim zoo.cfg
加入以下
dataDir=/opt/module/zookeeper-3.5.7/data/
在最后一行加入
dataLogDir=/opt/module/zookeeper-3.5.7/logs
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

分发zookeeper

scp -r /opt/module/zookeeper-3.5.7/ root@slave2:/opt/module/

在三台集群中zookeeper的data目录中创建myid,分别输入1,2,3并保存

在master,slave1,slave2启动,启动命令:

zkServer.sh start



2、 将容器 Master 节点 HBase 安装包解压到/opt/module 目录下,将解压命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

tar -zxvf /opt/software/hbase-2.2.3-bin.tar.gz -C /opt/module/



3、 用 scp 命令并使用绝对路径从 master 复制 HBase 解压后的包分发至 slave1、slave2 中,并修改相关配置,配置好环境变量,在容器 Master 节点中运行命令 hbase version,将全部复制命令复制并将 hbase version 命令的结果截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

配置HBASE环境变量

export HBASE_HOME=/opt/module/hbase-2.2.3
export PATH=$PATH:$HBASE_HOME/bin

进入HBase配置文件目录

cd /opt/module/hbase-2.2.3/conf

vim hbase-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_212
export HBASE_MANAGES_ZK=false

vim hbase-site.xml

		<property>
                <name>hbase.rootdir</name>
                <value>hdfs://master:8020/hbase</value>
        </property>
        <property>
                <name>hbase.cluster.distributed</name>
                <value>true</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
        </property>
        <property>
                <name>hbase.zookeeper.property.clientPort</name>
                <value>2181</value>
        </property>
        <property>
                <name>hbase.zookeeper.property.dataDir</name>
                <value>/opt/module/zookeeper-3.5.7/data</value>
        </property>
        <property>
                <name>hbase.zookeeper.quorum</name>
                <value>master,slave1,slave2</value>
        </property>
        <property>
                <name>hbase.unsafe.stream.capability.enforce</name>
                <value>false</value>
        </property>



4、 启动 HBase 后在三个节点分别使用 jps 命令查看,并将结果分别截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;正常启动后在 hbase shell 中查看命名空间,将查看命名空间的结果截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下。

启动HBASE命令:

start-hbase.sh

查看命名空间

hbase shell
list_namespace;



任务三:ClickHouse 单机部署



1、 将容器 Master 节点 ClickHouse 相关安装包解压到/opt/module/clickhouse目录下(若路径不存在,则需新建),将全部解压命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

tar -zxvf /opt/software/clickhouse-client-21.9.4.35.tgz -C /opt/module/clickhouse/

tar -zxvf /opt/software/clickhouse-common-static-21.9.4.35.tgz -C /opt/module/clickhouse/

tar -zxvf /opt/software/clickhouse-common-static-dbg-21.9.4.35.tgz -C /opt/module/clickhouse/

tar -zxvf /opt/software/clickhouse-server-21.9.4.35.tgz -C /opt/module/clickhouse/



2、 执行启动各个相关脚本,将全部启动命令复制并将执行结果(截取结果最后倒数 15 行即可)截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

/opt/module/clickhouse/clickhouse-client-21.9.4.35/install/doinst.sh

/opt/module/clickhouse/clickhouse-common-static-21.9.4.35/install/doinst.sh

/opt/module/clickhouse/clickhouse-common-static-dbg-21.9.4.35/install/doinst.sh

/opt/module/clickhouse/clickhouse-server-21.9.4.35/install/doinst.sh



3、 设置远程访问并移除默认监听文件(listen.xml),同时由于 9000 端口被Hadoop 占用,需要将 clickhouse 的端口更改为 9001,将上述要求的设置远程访问配置文件配置截图、端口更改后配置文件配置复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;

进入clickhouse配置目录

cd /etc/clickhouse-server/

编辑配置文件

vim config.xml

取消掉listen_host的注释并将9000端口更改为9001



4、 启动 clickhouse,启动后查看 clickhouse 运行状态,并将启动命令复制、查看运行状态命令复制并将执行结果截图粘贴至客户端桌面【Release\模块A 提交结果.docx】中对应的任务序号下。

启动命令

systemctl start clickhouse-server

查看运行状态

systemctl status clickhouse-server



版权声明:本文为weixin_63649475原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。