Hadoop简介

一、Hadoop是什么
二、Hadoop的核心
三、Hadoop架构
四、数据读取与写入
五、Hadoop特点
六、总结
七、附录

一、Hadoop是什么

Hadoop 是一个分布式系统,由Apache基金会用java开发。在这个数据爆炸的年代，单设备难以存储海量的数据，如是有了Hadoop。Hadoop可以使用廉价的机器来存储我们的数据，大大减少了成本。

二、Hadoop的核心

1.HDFS: Hadoop Distributed File System 分布式文件系统

2.YARN: Yet Another Resource Negotiator 分布式资源调度

3.Mapreduce：分布式计算框架

三、Hadoop架构

Hadoop架构图

1、HDFS（分布式文件系统）

HDFS是一个高度容错性的分布式文件系统，可以被广泛的部署于廉价的PC上。

HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个，负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组Datanode上。Namenode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。

Hadoop集群中的机器分别运行一个DataNode实例，在HDFS中，NameNode节点被称为名称节点，DataNode节点被称为数据节点。DataNode节点通过心跳机制（TCP）与NameNode节点进行定时的通信。

1.1、NameNode

NameNode可以看作是分布式文件系统中的管理者，存储文件系统的meta-data，主要负责管理文件系统的命名空间，集群配置信息，存储块的复制。他维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表，接收用户的操作请求等。

1.2、DataNode

DataNode是文件存储的基本单元。它存储文件块在本地文件系统中，保存了文件块的meta-data，同时周期性的发送所有存在的文件块的报告给NameNode。

DataNode中文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block，HDFS默认Block大小是128MB。这里要注意小文件数量太多会影响HDFS查询效率，可以定期做小文件合并。

2、Mapreduce（分布式计算框架）

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念”Map（映射）“和”Reduce（化简）”，是它们的主要思想，采用分而治之思想，先把任务分发到集群多个节点上，并行计算，然后再把计算结果合并，从而得到最终计算结果。多节点计算，所涉及的任务调度、负载均衡、容错处理等，都由MapReduce框架完成，不需要编程人员关心这些内容。

3、YARN（分布式资源调度）

YARN是Hadoop2.0新引入的资源管理系统，直接从MRv1演化而来，分别由ResourceManager和ApplicationMaster进程实现

ResourceManager：负责整个集群的资源管理和调度

ApplicationMaster：负责应用程序相关的事务，比如任务调度、任务监控、容错等

YARN的引入，使得多个计算框架可运行在一个集群中

1、每个应用程序对应一个ApplicationMater

2、目前多个计算框架可以运行在YARN上，比如，MapReduce、Spark、Storm等

ResourceManager负责资源管理，只有一个，ApplicationMaster有多个，每个datanode上都会有一个

MapReduce on YARN

1、将MapReduce作业直接运行在YARN上，而不是由JobTracker和TaskTracker构建的MRv1系统中

2、基本功能模块

YARN:负责资源管理和调度

MRAppMaster：负责任务切分、任务调度、任务监控和容错等

MapTask/ReduceTask:任务驱动引擎、与MRv1一致

3、每个MapReduce作业对应一个MRAppMaster

MRappMater任务调度

YARN将资源分配给MRAppMaster

MRAppMaster进一步将资源分配给内部的任务

4、MRAppMaster容错

失败后，由YARN重新启动

任务失败后，MRAppMaster重新申请资源

四、数据读取与写入

如上Hadoop架构图

数据写入：

Client向MapReduce发起调到请求
MapReduce提交到YARN，YARN为其分配资源
MapReduce向NameNode发起文件写入的请求
NameNode根据文件大小和文件块配置情况，返回给MapReduce它所管理部分DataNode的信息
MapReduce将文件划分为多个文件块，根据DataNode的地址信息，按顺序写入到每一个DataNode块中

数据读取：

Client向MapReduce发起调到请求
MapReduce提交到YARN，YARN为其分配资源
MapReduce向NameNode发起文件读取的请求
NameNode返回文件存储的DataNode的信息
MapReduce读取文件信息

五、Hadoop特点

Hadoop优点：

1、成本低，可以使用廉价机器存储数据

2、扩容能力强

3、高效率，通过MapReduce并行计算，能快速处理数据

4、可靠性，hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署计算任务。

Hadoop缺点：

1、 Hadoop该框架设计的初衷是针对海量数据的运算处理的问题。因此对于一些数据量很小的处理没有任何优势可言，甚至还不如单机串行的效果，性能也完全体现不出来。

2、高时延，只适合离线处理数据。

3、Hadoop不能高效存储大量小文件

4、Hadoop系统设计的前提是一次写入多次读取的情况，因此无法修改某条详细的数据，只能overwrite全部的数据，或者是在文件末尾追加数据。

六、总结

谈谈个人对Hadoop理解。Hadoop是一个非常优秀分布式系统，其分布式存储系统+分布式计算框架(并计算做得非常好)+分布式资源调度管理，三个核心组件的完美组合，缺一不可。根据Hadoop的特点，它适合存储业务系统海量数据（如：系统日志、用户行为、埋点等数据），对这些数据做离线数据统计分析，不适合做实时的业务需求。

七、附录

hadoop常用命令

1.ls

hadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件

hadoop fs -ls -R / 列出hdfs文件系统所有的目录和文件

2.put

hadoop fs -put < local file > < hdfs file > hdfs file的父目录一定要存在，否则命令不会执行

hadoop fs -put < local file or dir >…< hdfs dir >

hdfs dir 一定要存在，否则命令不会执行

hadoop fs -put – < hdsf file>

从键盘读取输入到hdfs file中，按Ctrl+D结束输入，hdfs file不能存在，否则命令不会执行

2.1.moveFromLocal

hadoop fs -moveFromLocal < local src > … < hdfs dst >

与put相类似，命令执行后源文件 local src 被删除，也可以从从键盘读取输入到hdfs file中

2.2.copyFromLocal

hadoop fs -copyFromLocal < local src > … < hdfs dst >

与put相类似，也可以从从键盘读取输入到hdfs file中

3.get

hadoop fs -get < hdfs file > < local file or dir>

local file不能和 hdfs file名字不能相同，否则会提示文件已存在，没有重名的文件会复制到本地

hadoop fs -get < hdfs file or dir > … < local dir >

拷贝多个文件或目录到本地时，本地要为文件夹路径

注意：如果用户不是root， local 路径要为用户文件夹下的路径，否则会出现权限问题，

3.1.moveToLocal

当前版本中还未实现此命令

3.2.copyToLocal

hadoop fs -copyToLocal < local src > … < hdfs dst >

与get相类似

4.rm

hadoop fs -rm < hdfs file > …

hadoop fs -rm -r < hdfs dir>…

每次可以删除多个文件或目录

5.mkdir

hadoop fs -mkdir < hdfs path>

只能一级一级的建目录，父目录不存在的话使用这个命令会报错

hadoop fs -mkdir -p < hdfs path>

所创建的目录如果父目录不存在就创建该父目录

6.getmerge

hadoop fs -getmerge < hdfs dir > < local file >

将hdfs指定目录下所有文件排序后合并到local指定的文件中，文件不存在时会自动创建，文件存在时会覆盖里面的内容

hadoop fs -getmerge -nl < hdfs dir > < local file >

加上nl后，合并到local file中的hdfs文件之间会空出一行

7.cp

hadoop fs -cp < hdfs file > < hdfs file >

目标文件不能存在，否则命令不能执行，相当于给文件重命名并保存，源文件还存在

hadoop fs -cp < hdfs file or dir >… < hdfs dir >

目标文件夹要存在，否则命令不能执行

8.mv

hadoop fs -mv < hdfs file > < hdfs file >

目标文件不能存在，否则命令不能执行，相当于给文件重命名并保存，源文件不存在

hadoop fs -mv < hdfs file or dir >… < hdfs dir >

源路径有多个时，目标路径必须为目录，且必须存在。

注意：跨文件系统的移动（local到hdfs或者反过来）都是不允许的

9.count

hadoop fs -count < hdfs path >

统计hdfs对应路径下的目录个数，文件个数，文件总计大小

显示为目录个数，文件个数，文件总计大小，输入路径

10.du

hadoop fs -du < hdsf path>

显示hdfs对应路径下每个文件夹和文件的大小

hadoop fs -du -s < hdsf path>

显示hdfs对应路径下所有文件和的大小

hadoop fs -du – h < hdsf path>

显示hdfs对应路径下每个文件夹和文件的大小,文件的大小用方便阅读的形式表示，例如用64M代替67108864

11.text

hadoop fs -text < hdsf file>

将文本文件或某些格式的非文本文件通过文本格式输出

12.setrep

hadoop fs -setrep -R 3 < hdfs path >

改变一个文件在hdfs中的副本个数，上述命令中数字3为所设置的副本个数，-R选项可以对一个人目录下的所有目录+文件递归执行改变副本个数的操作

13.stat

hdoop fs -stat [format] < hdfs path >

返回对应路径的状态信息

[format]可选参数有：%b（文件大小），%o（Block大小），%n（文件名），%r（副本个数），%y（最后一次修改日期和时间）

可以这样书写hadoop fs -stat %b%o%n < hdfs path >，不过不建议，这样每个字符输出的结果不是太容易分清楚

14.tail

hadoop fs -tail < hdfs file >

在标准输出中显示文件末尾的1KB数据

15.archive

hadoop archive -archiveName name.har -p < hdfs parent dir > < src >* < hdfs dst >

命令中参数name：压缩文件名，自己任意取；< hdfs parent dir > ：压缩文件所在的父目录；< src >：要压缩的文件名；< hdfs dst >：压缩文件存放路径

*示例：hadoop archive -archiveName hadoop.har -p /user 1.txt 2.txt /des

示例中将hdfs中/user目录下的文件1.txt，2.txt压缩成一个名叫hadoop.har的文件存放在hdfs中/des目录下，如果1.txt，2.txt不写就是将/user目录下所有的目录和文件压缩成一个名叫hadoop.har的文件存放在hdfs中/des目录下

显示har的内容可以用如下命令：

hadoop fs -ls /des/hadoop.jar

显示har压缩的是那些文件可以用如下命令

hadoop fs -ls -R har:///des/hadoop.har

注意：har文件不能进行二次压缩。如果想给.har加文件，只能找到原来的文件，重新创建一个。har文件中原来文件的数据并没有变化，har文件真正的作用是减少NameNode和DataNode过多的空间浪费。

16.balancer

hdfs balancer

如果管理员发现某些DataNode保存数据过多，某些DataNode保存数据相对较少，可以使用上述命令手动启动内部的均衡过程

17.dfsadmin

hdfs dfsadmin -help

管理员可以通过dfsadmin管理HDFS，用法可以通过上述命令查看

hdfs dfsadmin -report

显示文件系统的基本数据

hdfs dfsadmin -safemode < enter | leave | get | wait >

enter：进入安全模式；leave：离开安全模式；get：获知是否开启安全模式；

wait：等待离开安全模式

18.distcp

用来在两个HDFS之间拷贝数据

Hadoop命令其实与linux文件操作命令类似，前面多了hadoop fs

命令参考https://blog.csdn.net/helloxiaozhe/article/details/81235398

文章内容参考

https://www.jianshu.com/p/9cf41d655869

https://blog.csdn.net/zl834205311/article/details/80334346

Hadoop更多知识可以参考中文文档：

http://hadoop.apache.org/docs/r1.0.4/cn/

原文链接：https://blog.csdn.net/m0_37767351/article/details/114445555