MapReduce的MapTask源码 - 《大数据》

MapTask 类执行调度Map 方法的整体流程[包含input]:
Map流程中的output源码

MapTask 类执行调度Map 方法的整体流程[包含input]:

未命名文件 (1).png

Map流程中的output源码

// Map阶段的输出实体类[环形缓冲区, 设置比例进行分批次溢写到磁盘]
output = NewOutputCollector()
// 执行获取
collector = org.apache.hadoop.mapred.MapTask#createSortingCollector
// 拿到分区数
partitions = jobContext.getNumReduceTasks();
// 分区大于1, 获取分区器
if (partitions > 1) {
    // 默认的分区器: HashPartitioner.class
    partitioner = (org.apache.hadoop.mapreduce.Partitioner<K,V>)
        ReflectionUtils.newInstance(jobContext.getPartitionerClass(), job);
}