2021-08-22

Post author:xfxia
Post published:2023年9月22日
Post category:其他

大数据项目设计及实战

第一章

1.系统架构图设计

在这里插入图片描述

2.系统数据流程设计

在这里插入图片描述

3.集群资源规划设计

在这里插入图片描述

第二章 linux环境准备与设置

1.Linux系统常规设置

2.克隆虚拟机并进行相关的配置

3.对集群中的机器进行基本的配置

1.Linux系统常规设置

1、设置ip地址

2、创建用户

adduser lyc
passwd 123456

exit

3、文件中设置主机名

vi /etc/sysconfig/network

4、主机名映射

vi /etc/hosts
IP地址 xyxy11 xyxy12

5、关闭防火墙

systemctl stop firewalld (本次服务关闭)

systemctl disable firewalld(禁用防火墙) 永久

6.root用户下设置无密码用户切换

ls -l /etc/sudoers
vi /etc/sudoers
加一行
lyc ALL=(root)NOPASSWD:ALL

7.验证机器的防火墙是不是关了

service iptables status
service ipables start
service ipables stop

2.克隆虚拟机并进行相关的配置

1.创建我们需要的目录

mkdir /opt/softwares
mkdir /opt/modules
mkdir /opt/tools
mkdir /opt/datas

2.将root用户的目录改变成lyc用户所属的目录

chown -R lyc:lyc /opt/*

3.将JDK安装包通过工具上传到opt/softwares目录下

4.更改文件的权限

chmod u+x /opt/softwares/*

5.安装JDK

tar -zxvf jdk-linux-x64.tar.gz -C /opt/modules/

6.安装JDK-配置Java环境变量

vi etc/profile 进入文件末尾添加数据
export JAVA_HOME=/opt/modules/jdk 1.8.0
export PATH=$PATH:$JAVA_HOME/bin
保存文件

7.修改虚拟机大小

8.修改虚拟机名称

3.对集群中的机器进行基本配置

1.配置IP地址

2.配置IP地址映射

第三章：Hadoop2.x分布式集群部署

1.hadoop2.x版本下载及安装

2.hadoop2.x分布式集群配置

3.分发到各个机器节点

4.HDFS启动集群运行测试

5.YARN集群运行ManReduce程序测试

6.配置集群中主节点到各个机器的SSH无秘钥登录

7.配置集群内机器时间同步（使用Linux ntp进行）

1.hadoop2.x版本下载及安装

官网下载

https://archive.apache.org/dist

http://archive.cloudera.com/cdh5/

2.hadoop2.x分布式集群配置

HDFS分布式部署

hadoop-env.sh

core-site.xml

Hdfs-site.xml

在这里插入图片描述

在这里插入图片描述

slave

yarn分布式部署

2.MapReduce部署

mapreduce部署

mapred-env.sh

mapred-site.xml

在这里插入图片描述

3.分发到各个节点

scp -r hadoop-2.5.0/ xyxy129:/opt/modules xyxy130: /opt/modules

scp -r hadoop-2.5.0/ xyxy129:/opt/modules xyxy131: /opt/modules

4.HDFS启动集群运行测试

hdfs namenode -format
启动各个节点机器服务：
Namenode
Datanode
Resourcemanager
Nodemanager

5.YARN集群运行ManReduce程序测试

hadoop jar /usr/tools/hadoop-2.6.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input/data.txt /user/root/data/1

6.配置集群中节点到各个机器的SSH无秘钥登录

主机1：

清空.shh目录

主节点NameNode

1)生成一对公钥与秘钥

ssh-keygen -t rsa

2)拷贝公钥到各个机器上

ssh-copy-id xyxy11
ssh-copy-id xyxy12
ssh-copy-id xyxy13

3)测试ssh连接

ssh xyxy11
ssh xyxy12
ssh xyxy13

4)测试HDFS

stop-dfs.sh

yarn ssh无秘钥登录

主机2：

主节点 Resourcemanager

1)生成一对公钥与秘钥

ssh-keygen -t rsa

2)拷贝公钥到各个机器上

ssh-copy-id xyxy11
ssh-copy-id xyxy12
ssh-copy-id xyxy13

3)测试ssh连接

ssh xyxy11
ssh xyxy12
ssh xyxy13

4)测试HDFS

stop-dfs.sh

7.配置集群内机器时间同步（使用Linux ntp进行）

找一代机器作为时间服务器 xyxy11

原文链接：https://blog.csdn.net/qq_43391653/article/details/119849806

大数据项目设计及实战

第一章

1.系统架构图设计

2.系统数据流程设计

3.集群资源规划设计

第二章 linux环境准备与设置

1.Linux系统常规设置

2.克隆虚拟机并进行相关的配置

3.对集群中的机器进行基本的配置

1.Linux系统常规设置

2.克隆虚拟机并进行相关的配置

3.对集群中的机器进行基本配置

第三章：Hadoop2.x分布式集群部署

1.hadoop2.x版本下载及安装

2.hadoop2.x分布式集群配置

3.分发到各个机器节点

4.HDFS启动集群运行测试

5.YARN集群运行ManReduce程序测试

6.配置集群中主节点到各个机器的SSH无秘钥登录

7.配置集群内机器时间同步（使用Linux ntp进行）

1.hadoop2.x版本下载及安装

2.MapReduce部署

3.分发到各个节点

4.HDFS启动集群运行测试

5.YARN集群运行ManReduce程序测试

6.配置集群中节点到各个机器的SSH无秘钥登录

7.配置集群内机器时间同步（使用Linux ntp进行）

你可能也喜欢