数据清洗（ETL）

ETL：是Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程。

ETL较常用于数据仓库，但其对象并不限于数据仓库。

在运行核心业务MapReduce之前，往往需要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，而不需要运行Reducer程序。

例如，我们需要对文本文件中，过滤掉字段数量不足的数据行。
可以在Mapper中获取一行数据，split切割后判断字段数量是否满足要求，不满足要求就不再交给context。
因为这些步骤都在Mapper中，所以我们可以设置ReduceTask数量为0。
常见的匹配规则：

匹配首尾空白字符（空格、制表符、换页符等）：^s|s$

String str = "";  // 要判断的字符串
String reg = ""; // 正则表达式
if(str.matches(reg)) {
  // .....
}

大数据Hadoop