简述mr的运行流程

1>输入分片(input split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组,输入分片(input split)往往和hdfs的block(块)关系很密切,假如我们设定hdfs的块的大小是64mb,如果我们输入有三个文件,大小分别是3mb、65mb和127mb,那么mapreduce会把3mb文件分为一个输入分片(input split),65mb则是两个输入分片(input split)而127mb也是两个输入分片(input split),换句话说我们如果在map计算前做输入分片调整,例如合并小文件,那么就会有5个map任务将执行,而且每个map执行的数据大小不均,这个也是mapreduce优化计算的一个关键点。
2>map阶段:就是我们写的map函数,map函数效率相对好控制,而且一般map操作都是本地化操作也就是在数据存储节点上进行;map函数每次处理一行数据,map主要用于数据的分组,为下一步reduce的运算做数据准备,map的输出就是reduce的输入。
3>combiner阶段:combiner阶段是可选的,combiner是一个本地化的reduce操作,它是map运算的后续操作,主要是在map计算出中间文件前做一个简单的合并重复key值的操作,使传入reduce的文件变小,这样就提高了宽带的传输效率,毕竟hadoop计算力宽带资源往往是计算的瓶颈也是最为宝贵的资源,但是combiner操作是有风险的,使用它的原则是combiner的输入不会影响到reduce计算的最终输入,例如:如果计算只是求总数,最大值,最小值可以使用combiner,但是做平均值计算使用combiner的话,最终的reduce计算结果就会出错。
4>Partitioner阶段,一个Partitioner对应一个reduce作业,如果我们mapreduce操作只有一个reduce操作,那么Partitioner就只有一个,Partitioner因此就是reduce的输入分片,这个我们可以编程控制,主要是根据实际key和value的值,根据实际业务类型或者为了更好的reduce负载均衡要求进行,这是提高reduce效率的一个关键所在。
5>reduce阶段:我们编写的reduce函数,reduce的输入是map的输出,reduce是主要的逻辑运算阶段,我们绝大部分业务逻辑都是在reduce阶段完成的,并把最终结果存储在hdfs上的。

map的split

首先split是MapReduce中的概念,而block是hdfs中切块的大小
block块的值小于split分片的最小值,split的值就是split分片的大小
block块的值位于split分片的最小值和最大值之间,block的大小就是就是split分片的大小
block块的值大于split分片的最da值,split的最大值就是split分片的大小
map个数:由任务切片split决定的,默认情况下一个split的大小就是block,由参加任务的文件个数决定的