一、MapReduce Mapper
- 1. Mapper源码类
- 2. 源码类解析

一、MapReduce Mapper

1. Mapper源码类

//  Hadoop mapreduce Mapper 类源码
package org.apache.hadoop.mapreduce;
import java.io.IOException;
import org.apache.hadoop.classification.InterfaceAudience.Public;
import org.apache.hadoop.classification.InterfaceStability.Stable;
@Public
@Stable
public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {
    public Mapper() {
    }
    protected void setup(Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>.Context context) throws IOException, InterruptedException {
    }
    protected void map(KEYIN key, VALUEIN value, Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>.Context context) throws IOException, InterruptedException {
        context.write(key, value);
    }
    protected void cleanup(Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>.Context context) throws IOException, InterruptedException {
    }
    public void run(Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>.Context context) throws IOException, InterruptedException {
        this.setup(context);
        try {
            while(context.nextKeyValue()) {
                this.map(context.getCurrentKey(), context.getCurrentValue(), context);
            }
        } finally {
            this.cleanup(context);
        }
    }
    public abstract class Context implements MapContext<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {
        public Context() {
        }
    }
}

2. 源码类解析

从源码中我们可以看出，Mapper类总共包含四个方法，一个抽象类

setup() 方法 —- 一般作为map()方法的准备工作,进行相关配置文件的读取、参数的传递
cleanup() 方法 —- 用来做一些收尾工作，如关闭文件，key-value的分发；
map() 方法 ——是真正的程序逻辑部分,如对一行文本的split、filter 处理之后,将数据以key-Value的形式写入context;
run()方法—是驱动整个Mapper执行的一个方法，按照run()>>setup()>>map()>>cleanup()顺序执行；
Context抽象类—是Mapper里的一个内部抽象类，主要是为了在Map任务或者Reduce任务中跟踪task的相关状态和数据的存放。如Context可以存储一些jobConf有关的信息，在setup()方法中，就可以用context读取相关的配置信息，以及作为key-Value数据的载体。（Context比较复杂，以后可以单独介绍）

大数据

MapReduce 源码

一、MapReduce Mapper

1. Mapper源码类

2. 源码类解析