数据清洗（ETL）

ETL：是Extract-Transform-Load的缩写，用来描述将数据从来源端经过 抽取（Extract）、转换（Transform）、加载（Load） 至目的端的过程。

ETL较常用于数据仓库，但其对象并不限于数据仓库。

在运行核心业务MapReduce之前，往往需要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，而不需要运行Reducer程序。

例如，我们需要对文本文件中，过滤掉字段数量不足的数据行。

可以在Mapper中获取一行数据，split切割后判断字段数量是否满足要求，不满足要求就不再交给context。

因为这些步骤都在Mapper中，所以我们可以设置ReduceTask数量为0。

常见的匹配规则：

String str = "";  // 要判断的字符串
String reg = ""; // 正则表达式
if(str.matches(reg)) {
    // .....
}

大数据技术