2021-08-22

  • Post author:
  • Post category:其他




大数据项目设计及实战



第一章



1.系统架构图设计

在这里插入图片描述



2.系统数据流程设计

在这里插入图片描述



3.集群资源规划设计

在这里插入图片描述



第二章 linux环境准备与设置



1.Linux系统常规设置


2.克隆虚拟机并进行相关的配置


3.对集群中的机器进行基本的配置


1.Linux系统常规设置

1、设置ip地址

2、创建用户

adduser lyc
passwd 123456

exit

3、文件中设置主机名

vi /etc/sysconfig/network

4、主机名映射

vi /etc/hosts
IP地址 xyxy11 xyxy12

5、关闭防火墙

systemctl stop firewalld (本次服务关闭)
systemctl disable firewalld(禁用防火墙) 永久

6.root用户下设置无密码用户切换

ls -l /etc/sudoers
vi /etc/sudoers
加一行
lyc ALL=(root)NOPASSWD:ALL

7.验证机器的防火墙是不是关了

service iptables status
service ipables start
service ipables stop


2.克隆虚拟机并进行相关的配置

1.创建我们需要的目录

mkdir /opt/softwares
mkdir /opt/modules
mkdir /opt/tools
mkdir /opt/datas

2.将root用户的目录改变成lyc用户所属的目录

chown -R lyc:lyc /opt/*

3.将JDK安装包通过工具上传到opt/softwares目录下

4.更改文件的权限

chmod u+x /opt/softwares/*

5.安装JDK

tar -zxvf jdk-linux-x64.tar.gz -C /opt/modules/

6.安装JDK-配置Java环境变量

vi etc/profile 进入文件末尾添加数据
export JAVA_HOME=/opt/modules/jdk 1.8.0
export PATH=$PATH:$JAVA_HOME/bin
保存文件

7.修改虚拟机大小

8.修改虚拟机名称



3.对集群中的机器进行基本配置

1.配置IP地址

2.配置IP地址映射



第三章:Hadoop2.x分布式集群部署



1.hadoop2.x版本下载及安装


2.hadoop2.x分布式集群配置


3.分发到各个机器节点


4.HDFS启动集群运行测试


5.YARN集群运行ManReduce程序测试


6.配置集群中主节点到各个机器的SSH无秘钥登录


7.配置集群内机器时间同步(使用Linux ntp进行)


1.hadoop2.x版本下载及安装

官网下载

https://archive.apache.org/dist

http://archive.cloudera.com/cdh5/

2.hadoop2.x分布式集群配置

HDFS分布式部署

hadoop-env.sh

core-site.xml

Hdfs-site.xml

在这里插入图片描述

在这里插入图片描述

slave

在这里插入图片描述

yarn分布式部署

在这里插入图片描述



2.MapReduce部署

mapreduce部署

mapred-env.sh

mapred-site.xml

在这里插入图片描述



3.分发到各个节点
scp -r hadoop-2.5.0/ xyxy129:/opt/modules xyxy130: /opt/modules
scp -r hadoop-2.5.0/ xyxy129:/opt/modules xyxy131: /opt/modules


4.HDFS启动集群运行测试
hdfs namenode -format
启动各个节点机器服务:
Namenode
Datanode
Resourcemanager
Nodemanager



5.YARN集群运行ManReduce程序测试
hadoop jar /usr/tools/hadoop-2.6.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input/data.txt /user/root/data/1


6.配置集群中节点到各个机器的SSH无秘钥登录

主机1:

清空.shh目录

主节点NameNode

1)生成一对公钥与秘钥

ssh-keygen -t rsa

2)拷贝公钥到各个机器上

ssh-copy-id xyxy11
ssh-copy-id xyxy12
ssh-copy-id xyxy13

3)测试ssh连接

ssh xyxy11
ssh xyxy12
ssh xyxy13

4)测试HDFS

stop-dfs.sh

yarn ssh无秘钥登录

主机2:

主节点 Resourcemanager

1)生成一对公钥与秘钥

ssh-keygen -t rsa

2)拷贝公钥到各个机器上

ssh-copy-id xyxy11
ssh-copy-id xyxy12
ssh-copy-id xyxy13

3)测试ssh连接

ssh xyxy11
ssh xyxy12
ssh xyxy13

4)测试HDFS

stop-dfs.sh


7.配置集群内机器时间同步(使用Linux ntp进行)

找一代机器作为时间服务器 xyxy11



版权声明:本文为qq_43391653原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。