MapReduce概述和体系结构—-学习笔记

Post author:xfxia
Post published:2023年10月9日
Post category:其他

传统并行计算框架和MapReduce对比：

高度抽象为两个函数：map函数和Reduce函数；

策略：分而治之（即：任务结果不依赖其他计算结果）；

理念：计算向数据靠拢，而不是数据向计算靠拢；因为：大数据传输开销巨大；

Split（分片）：一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可以被多个Map任务并行处理；

架构：Master/Slave架构；Master上运行JobTracker，Slave上运行TaskTracker；

Hadoop框架是用Java实现的，但是，MapReduce应用程序则不一定要用Java来写；

体系结构：Client、JobTracker、TaskTracker、Task；

Client：

用户编写的MapReduce程序通过Client提交到JobTracker端；

用户可通过Client提供的一些借口查看作业运行状态；

JobTracker：

JobTracker负责资源监控和作业调度；

JobTracker监控所有TaskTracker与Job的监看状况，一旦发现失败，就讲相应的任务转移到其他节点上；

JobTracker会跟踪任务的执行进度、资源使用量的等信息，并将这些信息告诉任务调度器（TaskScheduler），而调度器会在资源出现空闲时，选择合适的任务去使用这些资源；

TaskTracker：

TaskTracker 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）；

TaskTracker 使用“slot”等量划分本节点上的资源量（CPU、内存等）。一个Task 获取到一个slot 后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot 分为Map slot 和Reduce slot 两种，分别供MapTask 和Reduce Task 使用（slot为单位资源，1.0不可互用，2.0有修改）

Task：

Task 分为Map Task 和Reduce Task 两种，均由TaskTracker 启动；

原文链接：https://blog.csdn.net/PeixinYe/article/details/79582624

Tags: map

你可能也喜欢