MapReduce的运行机制详情 - 《大数据》

1、MapTask的工作机制
2、ReduceTask和Shuffle的工作机制
3、Reduce 端实现 JOIN
4、Map端实现 JOIN
5、求共同好友

mapreduce.pdf
MapReduce工作机制-全流程图：

其中Map阶段分为MapTask阶段和Map的shuffle阶段：
MapTask：主要就是对输入的原文件进行分析读取，得到K1和V1，由自己编写规则
Map的shuffle阶段：主要就是分区、排序、规约（分组是属于Reduce的shuffle阶段）

1、MapTask的工作机制

2、ReduceTask和Shuffle的工作机制

3、Reduce 端实现 JOIN

reduce端join操作存在的问题：

如果数据很大，会将数据一起通过网络传输给reduce端进行join操作，这样大量数据经过网络传输不仅会影响效率，还会产生数据倾斜，将大量的数据都传输给了reduce端。

4、Map端实现 JOIN

适用于关联表中有小表的情形，使用map端的join就不用在写reduce了，就是在mapper中需要重写一个方法setup，在启动的时候只调用一次。

5、求共同好友

该功能的实现需要两个mapreduce