hadoop简述集群搭建

  • Post author:
  • Post category:其他


Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

  • 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
  • Hadoop实现了一个分布式文件系统(Hadoop Distributed File

    System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high

    throughput)来访问应用程序的数据,适合那些有着超大数据集(large data

    set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
  • Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

还有一个组件非常好用就是yarn,我们可以将hdfs,mapreduce部署在yarn上运行。yarn可以管理集群的资源(cpu,核数,内存等)。


hadoop有三种部署模式:本地模式,伪分布式,分布式。

  • 我们现在简单的部署下伪分布式,先利用vm建议一台虚拟机,然后安装jdk,配置环境,创建用户,修改主机名,修改ip映射(/etc/hosts),将hadoop安装包上传至虚拟机上。

    在这里插入图片描述

  • 将安装包解压到安装目录 /opt/modules

  • 修改配置文件

    hdfs:

    hdfs-site.xml

    <property>
     	<name>dfs.namenode.secondary.http-address</name>
     	<value>zhiqiang3.com:50090</value>
     </property>
    

core-site.xml

    <property>
		<name>fs.defaultFS</name>
		<value>hdfs://zhiqiang.com:8020</value>
	</property>
	
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/app/hadoop-2.5.0-cdh5.3.6/data/tmp</value>
	</property>
	
	<property>
		<name>fs.trash.interval</name>
		<value>420</value>
	</property>


hadoop-env.sh

 export JAVA_HOME=/opt/modules/jdk1.7.0_79

yarn:


yarn-env.sh

 export JAVA_HOME=/opt/modules/jdk1.7.0_79

yarn-site.xml

  <property>
		<name>yarn.resourcemanager.hostname</name>
		<value>zhiqiang2.com</value>
	</property>

<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

<property>
	<name>yarn.nodemanager.resource.memory-mb</name>
	<value>4096</value>
</property>

<property>
	<name>yarn.nodemanager.resource.cpu-vcores</name>
	<value>4</value>
</property>

<property>
	<name>yarn.log-aggregation-enable</name>
	<value>true</value>
</property>

<property>
	<name>yarn.log-aggregation.retain-seconds</name>
	<value>640800</value>
</property>

mapreduce:


mapred-env.sh

 export JAVA_HOME=/opt/modules/jdk1.7.0_79

mapred-site.xml

    <property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
	
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>zhiqiang.com:10020</value>
	</property>
	
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>zhiqiang.com:19888</value>
	</property>
  • 启动hdfs:

    1、sbin/start-dfs.sh start
  • 启动yarn

    2、 sbin/start-yarn.sh start



版权声明:本文为CSDNWeiZhiQiang原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。