1、输入数据接口:InputFormat
默认使用的实现类:TextInputFormat
2、逻辑处理接口:Mapper
根据业务需求实现其中3个方法:
map()
setup()
cleanup()
3、partitioner分区
默认实现HashPartitioner
如果业务上有特别的需求,可以自定义分区
4、Comparable排序
WritableComparable接口,重写compareTo方法
排序分类:
部分排序、全排序、二次排序(joinreduce)
5、Combiner合并
从缓冲区出来的时候对结果进行合并,节省io流。
6、逻辑处理接口:Reducer
根据业务需求实现其中3个方法:
reduce()
setup()
cleanup()