一、combiner基本介绍

  • combiner类本质也是reduce聚合,combiner类继承了Reducer父类。
  • combiner是运行在map端的,对map task内部的结果进行聚合。
  • 而reduce是将来自不同的map task的数据做聚合。
  • 作用:
    • combiner可以减少map task落盘向reduce task传输的数据量
  • 是否可以做map端的combine:
    • 并非所有的mapreduce job都适合combine。
    • 原则:无论使用不使用combine,都不能对最终结果造成影响;比如求平均值的例子,就不适用combine。