1.MapReduce和Yarn基本介绍

1）MapReduce概述

MapReduce函数分为Map函数与Reduce函数，程序员只需编写Map和Reduce函数来实现功能；
与Hadoop集群中的其他组件相同，MapReduce同样可支持水平拓展的能力；

2）Yarn概述
Hadoop1.0时只有一个资源协调器，位于MapReduce上；随着后续Spark等组件的出现，同时也是防止资源的隔阂，便引用了Yarn组件为整个集群的计算框架提供资源分配；
Yarn组件与HDFS都是使用Hadoop集群所必需的；

RM为Yarn组件中的一部分；
分片（Split）：MapReduce默认将一个数据块（Block）作为一个分片；
前半部分可理解为：MapReduce向Yarn提交Job后，由Yarn来分配cpu、内存等资源；
完成Map计算后，对于溢出数据会进行分区（）、排序（Sort）、组合（Combine）、合并（Spill）操作，生成MOF文件落到磁盘上，对于MapS生成MOF文件落盘的过程被称为Map Shuffle；
对溢出数据的4步操作是完成落盘所需要进行的，但并非每步都会进行，且通过规定Map输出的格式，落盘时会自动完成格式的调整；
Copy到Sort/Merge的过程称为Reduce Shuffle，是为了获取Map输出文件，并调整文件格式满足Reduce操作输入的格式；
2）Shuffle机制

3）典型程序举例：WordCount
a.总体流程
1.任务开始前确保所需数据是存储在HDFS中的，且为分布式存储；
2.HDFS与Yarn组件搭配使用；
3.Map操作；
4.Reduce操作；
b.实现内容

c.具体实现过程

Yarn组件中包括的重要角色有client、RM(Resource Manager)、NM(Node Manager)、Container、AM(App Mstr)。同一集群中可有多个Client，1个RM，多个NM；
大部分Hadoop组件都采取主仆模式：master—slave，这一点Yarn与HDFS类似； | | master | slave | | —- | —- | —- | | HDFS | 一个active的NN(NameNode) | 多个工作的DN(DataNode) | | Yarn | 一个活跃的RM | 多个工作的NM |
App Mstr是Yarn做资源调度时启用的一个进程、实例，详细功能见“流程”；
Container作为容器对cpu、内存等资源进行封装；

2）任务流程
1：Client接收到MapReduce申请资源的请求，将MapReduce应用提交到Resource Manager中，在RM中创建Job；
RM中的Applications Manager模块用来任务管理，Resource Scheduler模块用来资源调度；
2、3：RM根据集群的资源调用情况，在空闲的Node Manager上启动App Mstr；
4：App Mstr用来评估某应用需耗费的cpu、内存，并将应用所需的资源统计反馈给RM；
5：知会各个空闲的Name Mstr启动Container；
6：各个NM启动Container将应用分发下去（即task），Container使用相应的cpu、内存来执行Map或Reduce task；
7：各个Container将task的执行情况统一反馈给原先的AM；
8：AM将最终的结果反馈给RM；
最后由RM关闭所有连接，释放资源；

3）关键特性

a.HA
与HDFS高可靠性类似，Yarn HA同样由Zookeeper来实现Resource Manager主备的管理；

b.容错机制