排序

排序是MapReduce框架中最重要的操作之一.MapTask和Reduce Task均会对数据(按照key)进行排序.该操作属于hadoop的默认行为.任何应用程序的数据都会被排序,不管逻辑上是否需要.

对应Map task,它会将处理的结果暂时放到一个缓冲区,当缓冲区使用率达到一定阈值后,再对缓冲区的数据进行一次排序,并将这些有序数据写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行一次合并,以将这些文件合并成一个大的有序文件

对于Reduce Task,他从每个Map Task上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则放到磁盘上,否则放到内存中.如果磁盘上文件数目达到一定阈值,则进行一次合并以生成一个更大文件.如果内存中文件大小或数目超过一定阈值,则进行一次合并将数据写到磁盘上.当所有数据拷贝完毕后,Reduce Task统一对内存和磁盘上的所有数据进行一次合并

排序的分类

部分排序

MapReduce根据输入记录的键对数据集排序.保证输出的每个文件内部排序

全排序

如何用hadoop产生一个全局排序的文件?最简单的方法是使用一个分区.但该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了MapReduce所提供的并行架构

替代方案
首先创建一系列排好序的文件.其次,串联这些文件.最后生成一个全局排序的文件.
主要思路是使用一个分区来描述输出的全局排序.

例如:可以为上述文件创建3个分区,在第一个分区中,记录的单词首字母a-g,第二分区记录单词首字母h-n,第三分区记录单词首字母o-z

辅助排序(GroupingComparator分组)

MapReduce框架在记录到达reduce之前按键对记录排序,但键所对应的值并没有排序,甚至在不同的执行轮次中.这些值的排序也不固定,因为它们来自不同的map任务且这些map任务而且这些map任务在不同轮次中完成时间各不相同

一般来说,大多数MapReduce程序会避免让reduce函数依赖于值的排序.但是,有时也需要通过特定的方法对键进行排序和分组等以实现对值的排序

二次排序

在自定义排序过程中,如果compareTo中的判断条件为两个即为二次排序