此文章为2023年陕西省高等职业院校技能大赛”大数据应用开发”赛项赛题的平台搭建任务的所有操作步骤,不包含截图。如有错误的地方请帮忙指出,所有内容仅供参考,希望能帮助到你
任务一:Hadoop 完全分布式安装配置
1、将容器 Master 节点 JDK 安装包解压并移动到/opt/module 路径中(若路径不存在,则需新建),将命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
tar -zxvf /opt/software/jdk-8u212-linux-x64.tar.gz -C /opt/module
2、修改/etc/profile 文件,设置 JDK 环境变量,配置完毕后在 master 节点分别执行“java -version”和“javac”命令,将命令行执行结果分别截图并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
vim /etc/profile
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
3、 请完成 host 相关配置,将三个节点分别命名为 master、slave1、slave2,并做免密登录,用 scp 命令并使用绝对路径从 master 复制 JDK 解压后的安装文件到 slave1、slave2 节点(若路径不存在,则需新建),并配置 slave1、slave2 相关环境变量,将全部复制命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
三台节点分别命名(比赛时节点已完成命名):
hostnamectl set-hostname mater
hostnamectl set-hostname slave1
hostnamectl set-hostname slave2
更改hosts文件:
masterip master
slave1ip slave1
slave2ip slave2
配置免密登录(三台节点):
cd .ssh/
ssh-keygen
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2
scp 命令并使用绝对路径从 master 复制 JDK 解压后的安
装文件和环境变量文件到 slave1、slave2 节点
scp -r /opt/module/jdk1.8.0_212/ root@slave1:/opt/module/
scp -r /opt/module/jdk1.8.0_212/ root@slave2:/opt/module/
scp -r /etc/profile root@slave1:/etc
scp -r /etc/profile root@slave1:/etc
4、 在容器 Master 将 Hadoop 解压到/opt/module(若路径不存在,则需新建)目录下,并将解压包分发至 slave1、slave2 中,其中 master、slave1、slave2节点均作为 datanode,配置好相关环境,初始化 Hadoop 环境 namenode,将初始化命令及初始化结果截图(截取初始化结果结束倒数 20 行即可)复制粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
将hadoop解压到/opt/module
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module
并将解压包分发至slave1、slave2中(为提高效率可以先不分发,配置完毕后再分发)
scp -r /opt/module/hadoop-3.1.3/ root@bigdata2:/opt/module/
scp -r /opt/module/hadoop-3.1.3/ root@bigdata3:/opt/module/
配置hadoop环境变量(配置完成source /etc/profile):
export HADOOP_HOME=/opt/ module/ hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
进入需要修改hadoop配置文件的目录:
cd $HADOOP_HOME/etc/hadoop
vim hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_212
vim core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
vim hdfs-site.xml
<property>
<name>dfs.namenode.http-address</name>
<value>master:9870</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>slave2:9868</value>
</property>
vim yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slave1</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,
HADOOP_COMMON_HOME,
HADOOP_HDFS_HOME,
HADOOP_CONF_DIR,
CLASSPATH_PREPEND_DISTCACHE,
HADOOP_YARN_HOME,
HADOOP_MAPRED_HOME
</value>
</property>
vim mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
vim workers
master
slave1
slave2
编辑完以上配置文件将hadoop与/etc/profile文件复制到slave1和slave2
scp -r /opt/module/hadoop-3.1.3/ root@bigdata2:/opt/module/
scp -r /opt/module/hadoop-3.1.3/ root@bigdata3:/opt/module/
scp -r /etc/profile root@slave1:/etc
scp -r /etc/profile root@slave1:/etc
格式化Namenode命令
hdfs namenode -format
5、 启动 Hadoop 集群(包括 hdfs 和 yarn),使用 jps 命令查看 master 节点与slave1 节点的 java 进程,将 jps 命令与结果截图复制粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下。
启动集群,在master上启动hdfs,slave1上启动yarn
root@master:sbin/start-dfs.sh
root@slave1:sbin/start-yarn.sh
任务二:HBase 分布式部署
1、 确认是否完成 Hadoop 和 ZooKeeper 的分布式安装部署,若没有请进行安装部署并启动。完成部署后在三个节点分别使用 jps 命令,并将结果分别截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
将zookeeper解压至/opt/module目录下
tar zxvf /opt/software/apache-zookeeper-3.5.7-bin.tar.gz -C /opt/module/
配置zookeeper环境变量
export ZOOKEEPER_HOME=/opt/module/zookeeper-3.5.7
export PATH=$PATH:$ZOOKEEPER_HOME/bin
在zookeeper目录下创建data和logs
mkdir data logs
配置conf文件,进入conf目录
复制配置文件
cp zoo_sample.cfg zoo.cfg
vim zoo.cfg
加入以下
dataDir=/opt/module/zookeeper-3.5.7/data/
在最后一行加入
dataLogDir=/opt/module/zookeeper-3.5.7/logs
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888
分发zookeeper
scp -r /opt/module/zookeeper-3.5.7/ root@slave2:/opt/module/
在三台集群中zookeeper的data目录中创建myid,分别输入1,2,3并保存
在master,slave1,slave2启动,启动命令:
zkServer.sh start
2、 将容器 Master 节点 HBase 安装包解压到/opt/module 目录下,将解压命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
tar -zxvf /opt/software/hbase-2.2.3-bin.tar.gz -C /opt/module/
3、 用 scp 命令并使用绝对路径从 master 复制 HBase 解压后的包分发至 slave1、slave2 中,并修改相关配置,配置好环境变量,在容器 Master 节点中运行命令 hbase version,将全部复制命令复制并将 hbase version 命令的结果截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
配置HBASE环境变量
export HBASE_HOME=/opt/module/hbase-2.2.3
export PATH=$PATH:$HBASE_HOME/bin
进入HBase配置文件目录
cd /opt/module/hbase-2.2.3/conf
vim hbase-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_212
export HBASE_MANAGES_ZK=false
vim hbase-site.xml
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:8020/hbase</value>
</property>
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>hbase.zookeeper.property.clientPort</name>
<value>2181</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/opt/module/zookeeper-3.5.7/data</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>master,slave1,slave2</value>
</property>
<property>
<name>hbase.unsafe.stream.capability.enforce</name>
<value>false</value>
</property>
4、 启动 HBase 后在三个节点分别使用 jps 命令查看,并将结果分别截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;正常启动后在 hbase shell 中查看命名空间,将查看命名空间的结果截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下。
启动HBASE命令:
start-hbase.sh
查看命名空间
hbase shell
list_namespace;
任务三:ClickHouse 单机部署
1、 将容器 Master 节点 ClickHouse 相关安装包解压到/opt/module/clickhouse目录下(若路径不存在,则需新建),将全部解压命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
tar -zxvf /opt/software/clickhouse-client-21.9.4.35.tgz -C /opt/module/clickhouse/
tar -zxvf /opt/software/clickhouse-common-static-21.9.4.35.tgz -C /opt/module/clickhouse/
tar -zxvf /opt/software/clickhouse-common-static-dbg-21.9.4.35.tgz -C /opt/module/clickhouse/
tar -zxvf /opt/software/clickhouse-server-21.9.4.35.tgz -C /opt/module/clickhouse/
2、 执行启动各个相关脚本,将全部启动命令复制并将执行结果(截取结果最后倒数 15 行即可)截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
/opt/module/clickhouse/clickhouse-client-21.9.4.35/install/doinst.sh
/opt/module/clickhouse/clickhouse-common-static-21.9.4.35/install/doinst.sh
/opt/module/clickhouse/clickhouse-common-static-dbg-21.9.4.35/install/doinst.sh
/opt/module/clickhouse/clickhouse-server-21.9.4.35/install/doinst.sh
3、 设置远程访问并移除默认监听文件(listen.xml),同时由于 9000 端口被Hadoop 占用,需要将 clickhouse 的端口更改为 9001,将上述要求的设置远程访问配置文件配置截图、端口更改后配置文件配置复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下;
进入clickhouse配置目录
cd /etc/clickhouse-server/
编辑配置文件
vim config.xml
取消掉listen_host的注释并将9000端口更改为9001
4、 启动 clickhouse,启动后查看 clickhouse 运行状态,并将启动命令复制、查看运行状态命令复制并将执行结果截图粘贴至客户端桌面【Release\模块A 提交结果.docx】中对应的任务序号下。
启动命令
systemctl start clickhouse-server
查看运行状态
systemctl status clickhouse-server