1、输入数据接口:InputFormat

默认使用的实现类:TextInputFormat

2、逻辑处理接口:Mapper

根据业务需求实现其中3个方法:
map()
setup()
cleanup()

3、partitioner分区

默认实现HashPartitioner
如果业务上有特别的需求,可以自定义分区

4、Comparable排序

WritableComparable接口,重写compareTo方法
排序分类:
部分排序、全排序、二次排序(joinreduce)

5、Combiner合并

从缓冲区出来的时候对结果进行合并,节省io流。

6、逻辑处理接口:Reducer

根据业务需求实现其中3个方法:
reduce()
setup()
cleanup()

7、输出数据接口:OutputFormat