3.1 InputFormat 数据输入
根据文件,进行 MapTask 任务的分发
比如:1T的文件输入,分成若干的小文件,分别起 MapTask 任务进行处理
3.1.1 切片与 MapTask 并行度决定机制
1)问题引出
MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。
思考:1G 的数据,启动 8 个 MapTask,可以提高集群的并发处理能力。那么 1K 的数据,也启动 8 个 MapTask,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?
2)MapTask 并行度决定机制
数据块
- Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。
数据切片:
- 数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。
- 数据切片是 MapReduce 程序计算输入数据的单位,一个切片会对应启动一个 MapTask。
切片大小的设置
- 切片为一个逻辑的概念,只是用于确定起多少个MapTask,理论上设置成多少都可以
- 但HDFS上的文件为分布式存储,一个文件分成多个Block散布在各个机器上,一个Block一般设置为 128M
- 如果切片大小不为 Block 的大小,就会出现将一个Block 切分,分发给不同的机器进行计算,浪费资源
- 因此,切片通常为Block 的大小
3.1.2 Job 提交流程源码和切片源码详解
3.1.2.1 Job 提交流程源码详解
- 提交 Job 的过程中,主要提交了三样东西
- job.xml
- job.split ( 切片信息 )
- jar包
waitForCompletion()
submit();
// 1 建立连接
connect();
// 1)创建提交 Job 的代理
new Cluster(getConfiguration());
// (1)判断是本地运行环境还是 yarn 集群运行环境
initialize(jobTrackAddr, conf);
// 2 提交 job
submitter.submitJobInternal(Job.this, cluster)
// 1)创建给集群提交数据的 Stag 路径
Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
// 2)获取 jobid ,并创建 Job 路径
JobID jobId = submitClient.getNewJobID();
// 3)拷贝 jar 包到集群
copyAndConfigureFiles(job, submitJobDir);
rUploader.uploadFiles(job, jobSubmitDir);
// 4)计算切片,生成切片规划文件
writeSplits(job, submitJobDir);
maps = writeNewSplits(job, jobSubmitDir);
input.getSplits(job);
// 5)向 Stag 路径写 XML 配置文件
writeConf(conf, submitJobFile);
conf.writeXml(out);
// 6)提交 Job,返回提交状态
status = submitClient.submitJob(jobId, submitJobDir.toString(),
job.getCredentials());
3.1.2.2 FileInputFormat 切片源码解析(input.getSplits(job))
- 程序先找到你数据存储的目录。
- 开始遍历处理(规划切片)目录下的每一个文件
- 遍历第一个文件ss.txt
- 获取文件大小
fs.sizeOf(ss.txt)
- 计算切片大小
computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))
,默认 splitsize = blocksize = 128M- minSize 默认为 1,如果要调大切片, 则改 minSize 为期待的大小
- maxSize 默认为 Long.MaxValue, 如果要调小切片, 则改 maxSize 为期待的大小
- 默认情况下,切片大小=blocksize
- 开始切 (每次切片时,都要判断切完剩下的部分是否大于块的1.1倍(避免切割出特别小的块,浪费算力),不大于1.1倍就划分一块切片)
- 第1个切片 ss.txt— 0:128M
- 第2个切片 ss.txt— 128:256M
- 第3个切片 ss.txt— 256M:300M
- 将切片信息写到一个切片规划文件中 (job.split)
- 整个切片的核心过程在
getSplit()
方法中完成 - InputSplit 只记录了切片的元数据信息,比如起始位置、长度以及所在的节点列表等。
- 获取文件大小
- 提交切片规划文件到YARN上,YARN上的 MrAppMaster 就可以根据切片规划文件计算开启MapTask个数。
3.1.3 FileInputFormat 切片机制
切片机制
- 简单地按照文件的内容长度进行切片
- 切片大小,默认为Block大小
- 切片时,不考虑数据集整体,而是逐个针对每一个文件单独切片
切片实例分析
- 输入数据有两个文件
- 经过 FileInputFormat 的切片机制运算后,形成的切片信息如下
FileInputFormat 切片大小的参数配置
- 源码中计算切片大小的公式
Math.max(minSize, Math.min(maxSize, blockSize));
mapreduce.input.fileinputformat.split.minsize=1 默认值为1
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue 默认值Long.MAXValue
- 因此,默认情况下,切片大小=blocksize
- 切片大小设置
- maxsize(切片最大值):参数如果调得比blockSize小,则会让切片变小,而且就等于配置的这个参数的值。
- minsize(切片最小值):参数调的比blockSize大,则可以让切片变得比blockSize还大。
- 获取切片信息API
// 获取切片的文件名称
String name = inputSplit.getPath().getName();
// 根据文件类型获取切片信息
FileSplit inputSplit = (FileSplit) context.getInputSplit();
3.1.4 TextInputFormat
3.1.4.0 FileInputFormat 抽象类
思考:在运行 MapReduce 程序时,输入的文件格式包括:基于行的日志文件、二进制格式文件、数据库表等。
那么,针对不同的数据类型,MapReduce 是如何读取这些数据的FileInputFormat
常见的接口实现类包括:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat 和自定义 InputFormat 等。3.1.4.1 TextInputFormat 实现类
TextInputFormat 是默认的 FileInputFormat 实现类。
切片机制
- 按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个 MapTask
- 存在小文件问题:如果有大量小文件,就会产生大量的MapTask,处理效率极其低下
内容读取机制:按行读取每条记录
- 键是存储该行在整个文件中的起始字节偏移量, LongWritable 类型
- 值是这行的内容,不包括任何行终止符(换行符和回车符),Text 类型
以下是一个示例,比如,一个分片包含了如下 4 条文本记录
Rich learning form Intelligent learning engine Learning more convenient From the real demand for more close to the enterprise
每条记录表示为以下键/值对:
(0,Rich learning form) (20,Intelligent learning engine) (49,Learning more convenient) (74,From the real demand for more close to the enterprise)
3.1.4.2 CombineTextInputFormat 实现类
CombineTextInputFormat 是 FileInputFormat 实现类,其提供了虚拟存储切片功能来解决TextInputFormat 的小文件问题
切片机制:
- 按文件规划切片,但对于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个 MapTask 处理
- 切片过程:虚拟存储过程和切片过程二部分
- 虚拟存储过程:将所有文件的大小控制在 setMaxInputSplitSize 两倍之下
- 将输入目录下所有文件大小,依次和设置的 setMaxInputSplitSize 值比较,
- 如果不大于设置的最大值,逻辑上划分一个块。
- 如果输入文件大于设置的最大值且大于两倍
- 以最大值切割一块;
- 剩余数据大小超过设置的最大值且不大于最大值 2 倍,此时将文件均分成均等的2个虚拟存储块(防止出现太小切片)。
- 例如 setMaxInputSplitSize 值为 4M,输入文件大小为 8.02M,则先逻辑上分成一个4M。剩余的大小为 4.02M,如果按照 4M 逻辑划分,就会出现 0.02M 的小的虚拟存储文件,所以将剩余的 4.02M 文件切分成(2.01M 和 2.01M)两个文件。
- 将输入目录下所有文件大小,依次和设置的 setMaxInputSplitSize 值比较,
- 切片过程:
- 判断虚拟存储的文件大小是否大于 setMaxInputSplitSize 值,大于等于则单独形成一个切片。
- 如果不大于则跟下一个虚拟存储文件进行合并,共同形成一个切片。
- 测试举例:有 4 个小文件大小分别为 1.7M、5.1M、3.4M 以及 6.8M 这四个小文件,则虚拟存储之后形成 6 个文件块,大小分别为:1.7M,(2.55M、2.55M),3.4M 以及(3.4M、3.4M)最终会形成 3 个切片,大小分别为:(1.7+2.55)M,(2.55+3.4)M,(3.4+3.4)M
- 虚拟存储过程:将所有文件的大小控制在 setMaxInputSplitSize 两倍之下
- 虚拟存储切片最大值设置
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4m
- 注意:虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。
内容读取机制:按行读取每条记录
• 键是存储该行在整个文件中的起始字节偏移量, LongWritable 类型
• 值是这行的内容,不包括任何行终止符(换行符和回车符),Text 类型
3.1.5 CombineTextInputFormat 案例实操
将输入的大量小文件合并成一个切片统一处理。
实现过程
- 不做任何处理,运行 WordCount 案例程序,观察切片个数为 4。
number of splits:4
在 WordcountDriver 中增加如下代码,运行程序,并观察运行的切片个数为 3
驱动类(Driver)中添加代码如下:
// 如果不设置 InputFormat,它默认用的是 TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置 4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);
运行结果为 3 个切片。
number of splits:3
在 WordcountDriver 中增加如下代码,运行程序,并观察运行的切片个数为 1。
驱动中添加代码如下:
// 如果不设置 InputFormat,它默认用的是 TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置 20m
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);
运行结果为 1 个切片
3.2 MapReduce 工作流程
上面的流程是整个 MapReduce 最全工作流程,但是 Shuffle 过程只是从第 7 步开始到第16 步结束,具体 Shuffle 过程详解,如下:
- MapTask 收集我们的 map() 方法输出的 kv 对,放到内存缓冲区中
- 从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件
- 多个溢出文件会被合并成大的溢出文件
- 在溢出过程及合并的过程中,都要调用 Partitioner 进行分区和针对 key 进行排序
- ReduceTask 根据自己的分区号,去各个 MapTask 机器上取相应的结果分区数据
- ReduceTask 会抓取到同一个分区的来自不同 MapTask 的结果文件,ReduceTask 会将这些文件再进行合并(归并排序)
- 合并成大文件后,Shuffle 的过程也就结束了,后面进入 ReduceTask 的逻辑运算过程(从文件中取出一个一个的键值对 Group,调用用户自定义的 reduce()方法)
注意:
- Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率,原则上说,缓冲区越大,磁盘 io 的次数越少,执行速度就越快。
缓冲区的大小可以通过参数调整,参数:mapreduce.task.io.sort.mb 默认 100M。
3.3 Shuffle 机制
3.3.1 Shuffle 机制
Map() 方法之后,Reduce() 方法之前的数据处理过程称之为 Shuffle。
3.3.2 Partition 分区
问题引出
- 要求将统计结果按照条件输出到不同文件中(分区)。
- 比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)
默认Partitioner分区
- 默认分区是根据key的hashCode对ReduceTasks个数取模得到的。
- 用户没法控制哪个key存储到哪个分区。
public class HashPartitioner<K, V> extends Partitioner<K, V> {
public int getPartition(K key, V value, int numReduceTasks) {
// hashCode 与 Integer 做与,可防止 hashCode 溢出
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}
}
自定义Partitioner步骤
自定义类继承Partitioner,重写 getPartition() 方法
public class CustomPartitioner extends Partitioner<Text, FlowBean> {
@Override
public int getPartition(Text key, FlowBean value, int numPartitions) {
// 控制分区代码逻辑
… …
return partition;
}
}
在 Job 驱动中,设置自定义 Partitioner
job.setPartitionerClass(CustomPartitioner.class);
- 自定义 Partition 后,要根据自定义Partitioner的逻辑设置相应数量的ReduceTask
job.setNumReduceTasks(5);
- 分区总结
- 如果
**ReduceTask的数量 > getPartition的结果数**
,则会多产生几个空的输出文件part-r-000xx; - 如果
**1 < ReduceTask的数量 < getPartition的结果数**
,则有一部分分区数据无处安放,会抛出 Exception; - 如果
**ReduceTask的数量 = 1**
,则不管MapTask端输出多少个分区文件,最终结果都交给这一个ReduceTask,最终也就只会产生一个结果文件 part-r-00000; - 分区号必须从零开始,逐一累加。
- 如果
- 案例分析
例如:假设自定义分区数为 5,则
job.setNumReduceTasks(1)
:会正常运行,只不过会产生一个输出文件- 压根不走自定义分区,而是使用默认的HashCode分区器
job.setNumReduceTasks(2)
:会报错job.setNumReduceTasks(6)
:大于5,程序会正常运行,会产生空文件3.3.3 Partition 分区案例实操
将统计结果按照手机归属地不同省份输出到不同文件中(分区)
输入文件
期望输出数据
- 手机号 136、137、138、139 开头都分别放到一个独立的 4 个文件中,其他开头的放到一个文件中。
需求分析
- 增加一个自定义分区器,
- 在 Driver 指定使用自定义分区器,指定相对应 reduceTask 的数量
自定义分区器
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;
public class ProvincePartitioner extends Partitioner<Text, FlowBean> {
@Override
public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
//获取手机号前三位 prePhone
String phone = text.toString();
String prePhone = phone.substring(0, 3);
//定义一个分区号变量 partition,根据 prePhone 设置分区号
int partition;
if("136".equals(prePhone)){
partition = 0;
}else if("137".equals(prePhone)){
partition = 1;
}else if("138".equals(prePhone)){
partition = 2;
}else if("139".equals(prePhone)){
partition = 3;
}else {
partition = 4;
}
//最后返回分区号 partition
return partition;
}
}
在驱动函数中增加自定义数据分区设置和 ReduceTask 设置
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class FlowDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
//1 获取 job 对象
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
//2 关联本 Driver 类
job.setJarByClass(FlowDriver.class);
//3 关联 Mapper 和 Reducer
job.setMapperClass(FlowMapper.class);
job.setReducerClass(FlowReducer.class);
//4 设置 Map 端输出数据的 KV 类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(FlowBean.class);
//5 设置程序最终输出的 KV 类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(FlowBean.class);
//8 指定自定义分区器
job.setPartitionerClass(ProvincePartitioner.class);
//9 同时指定相应数量的 ReduceTask
job.setNumReduceTasks(5);
//6 设置输入输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\inputflow"));
FileOutputFormat.setOutputPath(job, new Path("D\\partitionout"));
//7 提交 Job
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
3.3.4 WritableComparable 排序
排序概述
- 排序是MapReduce框架中最重要的操作之一。(开发、面试重点)
- MapTask 和 ReduceTask 均会对数据按 照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。
- 默认排序是按照字典顺序排序,且实现该排序的方法是快速排序
对于 MapTask 排序
- 它会将处理的结果暂时放到环形缓冲区中
- 当环形缓冲区使用率达到一定阈值后(80%),会对缓冲区中的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行归并排序
- 并不是来一条数据就排序一次,而是到了阈值才会对缓冲区的数据进行排序
- 溢写会发生多次:一个切片对应一个 mapTask,因此一个切片为 128M,而环形缓冲区为 100M,且有效存储据的区域为 50%,因此一定会发生多次溢写,生成多个溢写文件
- 多文件内容的排序:使用归并算法
对于 ReduceTask 排序
- 它从每个 MapTask 上远程拷贝相应的数据文件(主动)
- MapTask 的输出不是已经在环形缓冲区排序过了吗,为什么还要排序???
- 如果文件大小超过一定阈值,则溢写磁盘上,否则存储在内存中。
- 如果磁盘上文件数目达到一定阈值,则进行一次归并排序以生成一个更大文件;
- 如果内存中文件大小或者数目超过一定阈值,则进行一次合并后将数据溢写到磁盘上。
- 当所有数据拷贝完毕后,ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。
排序分类
- 部分排序
- 最终的输出结果为多个文件
- MapReduce 根据输入记录的键对数据集排序。
- 保证输出的每个文件内部有序。也即,每个 Reducer 输出的文件内容都是有序的
- 全排序
- 最终输出结果只有一个文件,且文件内部有序。
- 实现方式是只设置一个 ReduceTask。但该方法在处理大型文件时效率极低,因为一台机器处理所有文件,完全丧失了MapReduce所提供的并行架构。
- 辅助排序:(GroupingComparator分组)
- 在 Reduce 端对 key 进行分组。
- 应用于:在接收的key为bean对象时,想让一个或几个字段相同(全部字段比较不相同)的key进入到同一个reduce 方法时,可以采用分组排序。
- 二次排序
- 在自定义排序过程中,如果排序的字段值相同,指定第二个字段进行排序
- 直接在 comparaTo() 方法中,但第一个字段值相同时,用第二个字段进行比较
- 在自定义排序过程中,如果排序的字段值相同,指定第二个字段进行排序
自定义排序 WritableComparable 原理分析
bean 对象做为 key 传输,需要实现
**WritableComparable**
接口重写**compareTo**
方法,就可以实现排序。- WritableComparable 接口继承了 Writable 和 Comparable 接口,因此可以实现 序列化 和 比较
- 实现二次排序
@Override
public int compareTo(FlowBean bean) {
int result;
// 按照总流量大小,倒序排列
if (this.sumFlow > bean.getSumFlow()) {
result = -1;
}else if (this.sumFlow < bean.getSumFlow()) {
result = 1;
}else {
// 二次排序
if (this.upFlow > bean.upFlow) {
return -1;
} else if (this.upFlow < bean.upFlow) {
return 1;
} else {
return 0;
}
}
return result;
}
3.3.5 WritableComparable 排序案例实操(全排序)
根据案例 2.3 序列化案例产生的结果再次对总流量进行倒序排序。
输入数据
map输出数据
- part-r-00000 —》 只有一个输出文件
期望输出数据
FlowBean实现WritableComparable接口重写compareTo方法
@Override
public int compareTo(FlowBean o) {
// 倒序排列,按照总流量从大到小
return this.sumFlow > o.getSumFlow() ? -1 : 1;
}
Mapper 类
输出时,以 bean 为 key,在shuffer 时就会进行排序
context.write(bean,手机号)
Reducer 类
因为是以 bean 为key, 所以当 bean 的字段值都相同时,会被合并,但其 value (手机号)会被合并为一个迭代器,因此需要进行遍历输出
//遍历 values 集合,循环写出,避免总流量相同的情况
for (Text value : values) {
//调换 KV 位置,反向写出
context.write(value,key);
}
3.3.6 WritableComparable 排序案例实操(区内排序)
案例实操
- bean 实现 WritableComparable 接口
增加自定义分区类
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;
public class ProvincePartitioner2 extends Partitioner<FlowBean, Text> {
@Override
public int getPartition(FlowBean flowBean, Text text, int numPartitions) {
//获取手机号前三位
String phone = text.toString();
String prePhone = phone.substring(0, 3);
//定义一个分区号变量 partition,根据 prePhone 设置分区号
int partition;
if("136".equals(prePhone)){
partition = 0;
}else if("137".equals(prePhone)){
partition = 1;
}else if("138".equals(prePhone)){
partition = 2;
}else if("139".equals(prePhone)){
partition = 3;
}else {
partition = 4;
}
//最后返回分区号 partition
return partition;
}
}
在驱动类中添加分区类
// 设置自定义分区器
job.setPartitionerClass(ProvincePartitioner2.class);
// 设置对应的 ReduceTask 的个数
job.setNumReduceTasks(5);
3.3.7 Combiner 合并 (一种优化手段)
Combiner 作用
- 预聚合单个 MapTask 的输出,减少 Mapper 到 Reducer 的网络传输量
Combiner 概念
- Combiner是 MR 程序中 Mapper 和 Reducer 之外的一种组件。
- Combiner组件的父类就是Reducer。
- Combiner 和 Reducer 的区别在于运行的位置
- Combiner 是在每一个 MapTask 所在的节点运行; —》 同节点运行
- Reducer是接收全局所有Mapper的输出结果
- Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量。
- Combiner 能够应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出 kv 应该跟 Reducer 的输入 kv 类型要对应起来。
- 不能瞎合并,用之前必须反复验证
- 反例:求平均值
自定义 Combiner 实现步骤
自定义一个 Combiner 继承 Reducer,重写 Reduce 方法
public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable> {
private IntWritable outV = new IntWritable();
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable value : values) {
sum += value.get();
}
outV.set(sum);
context.write(key,outV);
}
}
-
3.3.8 Combiner 合并案例实操
需求
- 统计过程中对每一个 MapTask 的输出进行局部汇总,以减小网络传输量即采用 Combiner 功能
实现效果
方案一
- 增加一个WordcountCombiner类继承Reducer
- 在WordcountCombiner中
- 统计单词汇总
- 将统计结果输出
- 在 WordcountDriver驱动类中指定
job.setCombinerClass(WordcountCombiner.class);
方案二
- 将 WordcountReducer作为Combiner
- 直接把 reducer 作为 combiner,进行预聚合
- 在 WordcountDriver驱动类中指定
job.setCombinerClass(WordcountReducer.class);
实例操作
- 方案一
- 增加一个 WordCountCombiner 类继承 Reducer
```java
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
public class WordCountCombiner extends Reducer
{ private IntWritable outV = new IntWritable(); @Override protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {
} }int sum = 0;
for (IntWritable value : values) {
sum += value.get();
}
//封装 outKV
outV.set(sum);
//写出 outKV
context.write(key,outV);
- 增加一个 WordCountCombiner 类继承 Reducer
```java
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
public class WordCountCombiner extends Reducer
- 在 WordcountDriver 驱动类中指定 Combiner
```java
// 指定需要使用 combiner,以及用哪个类作为 combiner 的逻辑
job.setCombinerClass(WordCountCombiner.class);
- 方案二
- OutputFormat实现类
- 默认输出格式TextOutputFormat
- 自定义OutputFormat
- 过滤输入的 log 日志,包含 atguigu 的网站输出到 e:/atguigu.log,不包含 atguigu 的网站
实现方式
- Map 和 Reducer 都不做任何的逻辑处理
- 最后在 OutputFormat 阶段,使用自定义的 OutputFormat,判断文本,输出到不同的文件中
案例实操
编写 LogMapper 类
- 只读取,啥也不干
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class LogMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//不做任何处理,直接写出一行 log 数据
context.write(value,NullWritable.get());
}
}
- 只读取,啥也不干
编写 LogReducer 类
- 只读 map 过来的信息,啥也不干
```java
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
public class LogReducer extends Reducer
{ @Override protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException { // 防止有相同的数据,迭代写出 for (NullWritable value : values) {
} } }context.write(key,NullWritable.get());
- 只读 map 过来的信息,啥也不干
```java
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
public class LogReducer extends Reducer
3. 自定义一个 LogOutputFormat 类
- 获取 自定义的 RecordWriter
```java
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {
@Override
public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {
//创建一个自定义的 RecordWriter 返回
LogRecordWriter logRecordWriter = new LogRecordWriter(job);
return logRecordWriter;
}
}
编写 LogRecordWriter 类
- 开流
- 输出
关流 ```java import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.RecordWriter; import org.apache.hadoop.mapreduce.TaskAttemptContext; import java.io.IOException; public class LogRecordWriter extends RecordWriter
{ private FSDataOutputStream atguiguOut; private FSDataOutputStream otherOut;
public LogRecordWriter(TaskAttemptContext job) { try { //获取文件系统对象 FileSystem fs = FileSystem.get(job.getConfiguration()); //用文件系统对象创建两个输出流对应不同的目录
atguiguOut = fs.create(new Path("d:/hadoop/atguigu.log"));
otherOut = fs.create(new Path("d:/hadoop/other.log"));
} catch (IOException e) {
e.printStackTrace();
} } @Override public void write(Text key, NullWritable value) throws IOException, InterruptedException { String log = key.toString(); //根据一行的 log 数据是否包含 atguigu,判断两条输出流输出的内容 if (log.contains(“atguigu”)) {
atguiguOut.writeBytes(log + "\n");
} else {
otherOut.writeBytes(log + "\n");
} } @Override public void close(TaskAttemptContext context) throws IOException, InterruptedException { //关流 IOUtils.closeStream(atguiguOut); IOUtils.closeStream(otherOut); } }
5. 编写 LogDriver 类
1. 设置自定义的 outputformat
1. fileoutputformat 指定输出的目录
```java
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class LogDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(LogDriver.class);
job.setMapperClass(LogMapper.class);
job.setReducerClass(LogReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
//设置自定义的 outputformat
job.setOutputFormatClass(LogOutputFormat.class);
FileInputFormat.setInputPaths(job, new Path("D:\\input"));
// 虽 然 我 们 自 定 义 了 outputformat , 但 是 因 为 我 们 的 outputformat 继承自fileoutputformat
//而 fileoutputformat 要输出一个_SUCCESS 文件,所以在这还得指定一个输出目录
FileOutputFormat.setOutputPath(job, new Path("D:\\logoutput"));
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
3.5 MapReduce 内核源码解析
3.5.1 MapTask 工作机制
MapTask 分为五个阶段
- Read 阶段、Map 阶段、Collect 阶段、Spill 阶段、Merge 阶段
- 其中 collect - 分区、spill - 缓冲、merge - 合并磁盘小文件 是写入磁盘的三个动作
Read 阶段
- MapTask 通过
**InputFormat**
获得的**RecordReader**
,从输入**InputSplit**
中解析出一个个 key/value - TextInputFormat 和 CombineTextInputFormat 都是按行读取,区别在于数据切片时对小文件的处理
Map 阶段
- 该节点主要是将解析出的 key/value 交给用户编写
**map()**
函数处理,并产生一系列新的 key/value。
Collect 阶段
- 在用户编写 map() 函数中,当数据处理完成后,一般会调用
**OutputCollector.collect()**
输出结果。 - 在该函数内部,它会将生成的 key/value 分区(调用 Partitioner),并写入一个环形内存缓冲区中。
Spill 阶段
- 即“溢写”,当环形缓冲区满后,MapReduce 会将数据写到本地磁盘上,生成一个个临时文件。
- 需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。
- 溢写阶段详情
- 步骤 1:利用快速排序算法对缓存区内的数据进行排序,排序方式是,先按照分区编号Partition 进行排序,然后按照 key 进行排序。这样,经过排序后,数据以分区为单位聚集在一起,且同一分区内所有数据按照 key 有序。
- 步骤 2:按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件 output/spillN.out(N 表示当前溢写次数)中。如果用户设置了 Combiner,则写入文件之前,对每个分区中的数据进行一次聚集操作。
- 步骤 3:将分区数据的元信息写到内存索引数据结构 SpillRecord 中,其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过 1MB,则将内存索引写到文件 output/spillN.out.index 中。
Merge 阶段
- 当所有数据处理完成后,MapTask 对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。
- 保存到文件 output/file.out 中,同时生成相应的索引文件 output/file.out.index。
- 在进行文件合并过程中,MapTask 以分区为单位进行合并。对于某个分区,它将采用多轮递归合并的方式。
- 每轮合并
mapreduce.task.io.sort.factor
(默认 10)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。 - 让每个 MapTask 最终只生成一个数据文件,可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。
3.5.2 ReduceTask 工作机制
ReduceTask 分为三个阶段
- Copy 阶段、Sort 阶段、Reduce 阶段
Copy 阶段
- ReduceTask 从各个 MapTask 上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写到磁盘上,否则直接放到内存中。
Sort 阶段
- 在远程拷贝数据的同时,ReduceTask 启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多。
- 按照 MapReduce 语义,用户编写 reduce() 函数输入数据是按 key 进行聚集的一组数据。
- 为了将 key 相同的数据聚在一起,Hadoop 采用了基于排序的策略。
- 由于各个 MapTask 已经实现对自己的处理结果进行了局部排序,因此,ReduceTask 只需对所有数据进行一次归并排序即可。
Reduce 阶段
设置 ReduceTask 并行度(个数)
- ReduceTask 的并行度同样影响整个 Job 的执行并发度和执行效率,但与 MapTask 的并发数由切片数决定不同,ReduceTask 数量的决定是可以直接手动设置
ReduceTask 的个数不是越多越好,当数据量小,而ReduceTask 个数多时,启动ReduceTask的代价大于计算收益,就会拖慢任务
// 默认值是 1,手动设置为 4
job.setNumReduceTasks(4);
注意事项
ReduceTask=0,表示没有Reduce阶段,输出文件个数和Map个数一致。
- ReduceTask默认值就是1,所以输出文件个数为一个。
- 如果数据分布不均匀,就有可能在Reduce阶段产生数据倾斜
- ReduceTask数量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有1个ReduceTask。
- 具体多少个ReduceTask,需要根据集群性能而定。
如果分区数不是1,但是ReduceTask为1,是否执行分区过程。答案是:不执行分区过程。因为在MapTask的源码中,执行分区的前提是先判断ReduceNum个数是否大于1。不大于1肯定不执行,因为压根不走分区的方法
3.5.4 MapTask & ReduceTask 源码解析
MapTask 源码解析流程
=================== MapTask ===================context.write(k, NullWritable.get()); //自定义的 map 方法的写出,进入
output.write(key, value);
//MapTask727 行,收集方法,进入两次
collector.collect(key, value,partitioner.getPartition(key, value, partitions));
HashPartitioner(); //默认分区器
collect() //MapTask1082 行 map 端所有的 kv 全部写出后会走下面的 close 方法
close() //MapTask732 行
collector.flush() // 溢出刷写方法,MapTask735 行,提前打个断点,进入
sortAndSpill() //溢写排序,MapTask1505 行,进入
sorter.sort() QuickSort //溢写排序方法,MapTask1625 行,进入
mergeParts(); //合并文件,MapTask1527 行,进入
collector.close(); //MapTask739 行,收集器关闭,即将进入 ReduceTask
ReduceTask 源码解析流程
=================== ReduceTask ===================if (isMapOrReduce()) //reduceTask324 行,提前打断点
initialize() // reduceTask333 行,进入
init(shuffleContext); // reduceTask375 行,走到这需要先给下面的打断点
totalMaps = job.getNumMapTasks(); // ShuffleSchedulerImpl 第 120 行,提前打断点
merger = createMergeManager(context); //合并方法,Shuffle 第 80 行
// MergeManagerImpl 第 232 235 行,提前打断点
this.inMemoryMerger = createInMemoryMerger(); //内存合并
this.onDiskMerger = new OnDiskMerger(this); //磁盘合并
rIter = shuffleConsumerPlugin.run();
eventFetcher.start(); //开始抓取数据,Shuffle 第 107 行,提前打断点
eventFetcher.shutDown(); //抓取结束,Shuffle 第 141 行,提前打断点
copyPhase.complete(); //copy 阶段完成,Shuffle 第 151 行
taskStatus.setPhase(TaskStatus.Phase.SORT); //开始排序阶段,Shuffle 第 152 行
sortPhase.complete(); //排序阶段完成,即将进入 reduce 阶段 reduceTask382 行
reduce(); //reduce 阶段调用的就是我们自定义的 reduce 方法,会被调用多次
cleanup(context); //reduce 完成之前,会最后调用一次 Reducer 里面的 cleanup 方法
3.6 Join 应用
3.6.1 Reduce Join
原理
使用TextInputFormat,分别读取两张表文件(产品表,订单表),既起两个MapTask分别读取两个文件(此时没有关联关系)
- 两张表的字段做成一个宽表类,同时设置一个字段区分是哪张表
- 以 关联键(如产品Id) 作为 mapTask 的输出的 keyOut,宽表对象为输出的 ValueOut
- 这样相同关联 key 的宽表bean就会被放到一起,以
> 输入reduce,在reduce中,对这个相同 关联键 的bean 进行 join - 注意:Hadoop 迭代器中使用了对象重用机制,避免了大数据量下,频繁拷贝数据的代价
- 迭代时,values 迭代器在for循环里的 value 始终指向同一个内存地址(指针),改变的是这个指针指向的对象地址
- 所以,如果循环将value存进一个list里,则最后list里只有一个对象,存的是最后一个对象 —> value 始终是一个指针,每次存进list都是覆盖操作
缺点
- 当数据量特别大时,比如2亿订单,此时可能一个关联键的key,其迭代器内就有2kw的bean需要join,都交给一个ReduceTask是十分低效的
解决方案
-
3.6.2 Reduce Join 案例实操
需求分析
通过将关联条件作为 Map 输出的 key,将两表满足 Join 条件的数据并携带数据所来源的文件信息,发往同一个 ReduceTask,在 Reduce 中进行数据的串联
代码实现
创建商品和订单合并后的 TableBean 类
为两个 join 表的宽表,新增一个字段标识是哪个表
import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
public class TableBean implements Writable {
private String id; //订单 id
private String pid; //产品 id
private int amount; //产品数量
private String pname; //产品名称
private String flag; //判断是 order 表还是 pd 表的标志字段
public TableBean() {
}
// Getter & Setter
@Override
public String toString() {
return id + "\t" + pname + "\t" + amount;
}
@Override
public void write(DataOutput out) throws IOException {
out.writeUTF(id);
out.writeUTF(pid);
out.writeInt(amount);
out.writeUTF(pname);
out.writeUTF(flag);
}
@Override
public void readFields(DataInput in) throws IOException {
this.id = in.readUTF();
this.pid = in.readUTF();
this.amount = in.readInt();
this.pname = in.readUTF();
this.flag = in.readUTF();
}
}
编写 TableMapper 类
- 对于每个mapTask读取的文件,可以在 setup 方法中获取文件的名字,setup 只会在 mapTask 中执行一次
如果放到map方法中,也可以获取,但是就是会每一行都获取一次,十分浪费性能
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import java.io.IOException;
public class TableMapper extends Mapper<LongWritable,Text,Text,TableBean> {
private String filename;
private Text outK = new Text();
private TableBean outV = new TableBean();
@Override
protected void setup(Context context) throws IOException, InterruptedException {
//获取对应文件名称
InputSplit split = context.getInputSplit();
FileSplit fileSplit = (FileSplit) split;
filename = fileSplit.getPath().getName();
}
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//获取一行
String line = value.toString();
//判断是哪个文件,然后针对文件进行不同的操作
if(filename.contains("order")){ //订单表的处理
String[] split = line.split("\t");
//封装 outK
outK.set(split[1]);
//封装 outV
outV.setId(split[0]);
outV.setPid(split[1]);
outV.setAmount(Integer.parseInt(split[2]));
outV.setPname("");
outV.setFlag("order");
}else { //商品表的处理
String[] split = line.split("\t");
//封装 outK
outK.set(split[0]);
//封装 outV
outV.setId("");
outV.setPid(split[0]);
outV.setAmount(0);
outV.setPname(split[1]);
outV.setFlag("pd");
}
//写出 KV
context.write(outK,outV);
}
}
编写 TableReducer 类
- 迭代时,values 迭代器在for循环里的 value 始终指向同一个内存地址(指针),改变的是这个指针指向的对象地址
- 所以,如果循环将value存进一个list里,则最后list里只有一个对象,存的是最后一个对象 —> value 始终是一个指针,每次存进list都是覆盖操作
- 解决方法,每次循环新建一个对象,将 value 指向的对象深拷贝到新建的对象中,存到list里
import org.apache.commons.beanutils.BeanUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
import java.lang.reflect.InvocationTargetException;
import java.util.ArrayList;
public class TableReducer extends Reducer<Text,TableBean,TableBean, NullWritable> {
@Override
protected void reduce(Text key, Iterable<TableBean> values, Context context) throws IOException, InterruptedException {
ArrayList<TableBean> orderBeans = new ArrayList<>();
TableBean pdBean = new TableBean();
for (TableBean value : values) {
//判断数据来自哪个表
if("order".equals(value.getFlag())){ //订单表
//创建一个临时 TableBean 对象接收 value
TableBean tmpOrderBean = new TableBean();
try {
BeanUtils.copyProperties(tmpOrderBean,value);
} catch (Exception e) {
e.printStackTrace();
}
//将临时 TableBean 对象添加到集合 orderBeans
orderBeans.add(tmpOrderBean);
}else { //商品表
try {
BeanUtils.copyProperties(pdBean,value);
} catch (Exception e) {
e.printStackTrace();
}
}
}
//遍历集合 orderBeans,替换掉每个 orderBean 的 pid 为 pname,然后写出
for (TableBean orderBean : orderBeans) {
orderBean.setPname(pdBean.getPname());
//写出修改后的 orderBean 对象
context.write(orderBean,NullWritable.get());
}
}
}
编写 TableDriver 类
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class TableDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Job job = Job.getInstance(new Configuration());
job.setJarByClass(TableDriver.class);
job.setMapperClass(TableMapper.class);
job.setReducerClass(TableReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(TableBean.class);
job.setOutputKeyClass(TableBean.class);
job.setOutputValueClass(NullWritable.class);
FileInputFormat.setInputPaths(job, new Path("D:\\input"));
FileOutputFormat.setOutputPath(job, new Path("D:\\output"));
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
测试
1004 小米 4
1001 小米 1
1005 华为 5
1002 华为 2
1006 格力 6
1003 格力 3
总结
- 缺点:这种方式中,合并的操作是在 Reduce 阶段完成,Reduce 端的处理压力太大,Map节点的运算负载则很低,资源利用率不高,且在 Reduce 阶段极易产生数据倾斜。
解决方案
优点
- 思考:在 Reduce 端处理过多的表,非常容易产生数据倾斜。怎么办?
- 在 Map 端缓存多张表,提前处理业务逻辑,这样增加 Map 端业务,减少 Reduce 端数据的压力,尽可能的减少数据倾斜。
具体办法:采用 DistributedCache
- 在 Mapper 的 setup 阶段,将文件读取到缓存集合中。
在 Driver 驱动类中加载缓存。
//缓存普通文件到 Task 运行节点。
job.addCacheFile(new URI("file:///e:/cache/pd.txt"));
//如果是集群运行,需要设置 HDFS 路径
job.addCacheFile(new URI("hdfs://hadoop102:8020/cache/pd.txt"));
3.6.4 Map Join 案例实操
实现代码
先在 MapJoinDriver 驱动类中添加缓存文件
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
public class MapJoinDriver {
public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
// 1 获取 job 信息
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
// 2 设置加载 jar 包路径
job.setJarByClass(MapJoinDriver.class);
// 3 关联 mapper
job.setMapperClass(MapJoinMapper.class);
// 4 设置 Map 输出 KV 类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
// 5 设置最终输出 KV 类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
// 加载缓存数据
job.addCacheFile(new URI("file:///D:/input/tablecache/pd.txt"));
// Map 端 Join 的逻辑不需要 Reduce 阶段,设置 reduceTask 数量为 0
job.setNumReduceTasks(0);
// 6 设置输入输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\input"));
FileOutputFormat.setOutputPath(job, new Path("D:\\output"));
// 7 提交
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
在 MapJoinMapper 类中的 setup 方法中读取缓存文件
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.Map;
public class MapJoinMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
private Map<String, String> pdMap = new HashMap<>();
private Text text = new Text();
//任务开始前将 pd 数据缓存进 pdMap
@Override
protected void setup(Context context) throws IOException, InterruptedException {
//通过缓存文件得到小表数据 pd.txt
URI[] cacheFiles = context.getCacheFiles();
Path path = new Path(cacheFiles[0]);
//获取文件系统对象,并开流
FileSystem fs = FileSystem.get(context.getConfiguration());
FSDataInputStream fis = fs.open(path);
//通过包装流转换为 reader,方便按行读取
BufferedReader reader = new BufferedReader(new InputStreamReader(fis, "UTF-8"));
//逐行读取,按行处理
String line;
while (StringUtils.isNotEmpty(line = reader.readLine())) {
//切割一行
//01 小米
String[] split = line.split("\t");
pdMap.put(split[0], split[1]);
}
//关流
IOUtils.closeStream(reader);
}
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//读取大表数据
//1001 01 1
String[] fields = value.toString().split("\t");
//通过大表每行数据的 pid,去 pdMap 里面取出 pname
String pname = pdMap.get(fields[1]);
//将大表每行数据的 pid 替换为 pname
text.set(fields[0] + "\t" + pname + "\t" + fields[2]);
//写出
context.write(text,NullWritable.get());
}
}
3.7 数据清洗(ETL)
“ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库
在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。
清理的过程往往只需要运行 Mapper 程序,不需要运行 Reduce 程序。
Driver 程序// 设置 reducetask 个数为 0
job.setNumReduceTasks(0);
3.8 MapReduce 开发总结
输入数据接口:InputFormat
默认使用的实现类是:TextInputFormat
**TextInputFormat**
的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为 value 返回。**CombineTextInputFormat**
可以把多个小文件合并成一个切片处理,提高处理效率。
逻辑处理接口:Mapper
- 用户根据业务需求实现其中三个方法:setup():mapTask 的初始化操作,如读文件名、读缓存; map():用户逻辑; cleanup ():关流
Partitioner 分区
- 有默认实现 HashPartitioner,逻辑是根据 key 的哈希值和 numReduces 来返回一个分区号;
key.hashCode()&Integer.MAXVALUE % numReduces
- 如果业务上有特别的需求,可以自定义分区。
Comparable 排序
- 当我们用自定义的对象作为 key 来输出时,就必须要实现 WritableComparable 接口,重写其中的
compareTo()
方法。 - 部分排序:对最终输出的每一个文件进行内部排序。
- 全排序:对所有数据进行排序,通常只有一个 Reduce。
- 二次排序:排序的条件有两个。
Combiner 合并
- Combiner 合并可以提高程序执行效率,减少 IO 传输。但是使用时必须不能影响原有的业务处理结果。
逻辑处理接口:Reducer
- 用户根据业务需求实现其中三个方法:setup() reduce() cleanup ()
输出数据接口:OutputFormat
- 默认实现类是 TextOutputFormat,功能逻辑是:将每一个 KV 对,向目标文本文件输出一行。
-
第 4 章 Hadoop 数据压缩
4.1 概述
压缩的好处和坏处
压缩的优点:以减少磁盘 IO、减少磁盘存储空间。
- 压缩的缺点:增加 CPU 开销。
压缩原则
压缩格式 | 是否Hadoop自带 | 算法 | 文件扩展名 | 是否可切片 | 换成压缩格式后,原来的程序是否需要修改 |
---|---|---|---|---|---|
DEFLATE | 是,直接使用 | DEFLATE | .deflate | 否 | 和文本处理一样,不需要修改 |
Gzip | 是,直接使用 | DEFLATE | .gz | 否 | 和文本处理一样,不需要修改 |
bzip2 | 是,直接使用 | bzip2 | .bz2 | 是 | 和文本处理一样,不需要修改 |
LZO | 否,需要安装 | LZO | .lzo | 是 | 需要建索引,还需要指定输入格式 |
Snappy | 是,直接使用 | Snappy | .snappy | 否 | 和文本处理一样,不需要修改 |
压缩性能的比较
压缩算法 | 原始文件大小 | 压缩文件大小 | 压缩速度 | 解压速度 |
---|---|---|---|---|
gzip | 8.3GB | 1.8GB | 17.5MB/s | 58MB/s |
bzip2 | 8.3GB | 1.1GB | 2.4MB/s | 9.5MB/s |
LZO | 8.3GB | 2.9GB | 49.3MB/s | 74.6MB/s |
4.3 压缩方式选择
压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。
4.3.1 Gzip压缩
优点:压缩率比较高;
缺点:不支持Split;压缩/解压速度一般;
4.3.2 Bzip2压缩
4.3.3 Lzo压缩
优点:压缩/解压速度比较快;支持Split;
缺点:压缩率一般;想支持切片需要额外创建索引。
4.3.4 Snappy压缩
优点:压缩和解压缩速度快;
缺点:不支持Split;压缩率一般;
4.3.5 压缩位置选择
4.4 压缩参数配置
参数 | 默认值 | 阶段 | 建议 |
---|---|---|---|
io.compression.codecs (在core-site.xml中配置) |
无,这个需要在命令行输入hadoop checknative查看 | 输入压缩 | Hadoop使用文件扩展名判断是否支持某种编解码器 |
mapreduce.map.output.compress (在mapred-site.xml中配置) |
false | mapper输出 | 这个参数设为true启用压缩 |
mapreduce.map.output.compress.codec (在mapred-site.xml中配置) |
org.apache.hadoop.io.compress.DefaultCodec | mapper输出 | 企业多使用LZO或Snappy编解码器在此阶段压缩数据 |
mapreduce.output.fileoutputformat.compress (在mapred-site.xml中配置) |
false | reducer输出 | 这个参数设为true启用压缩 |
mapreduce.output.fileoutputformat.compress.codec (在mapred-site.xml中配置) |
org.apache.hadoop.io.compress.DefaultCodec | reducer输出 | 使用标准工具或者编解码器,如gzip和bzip2 |
4.5 压缩实操案例
4.5.1 Map输出端采用压缩
即使你的MapReduce的输入输出文件都是未压缩的文件,你仍然可以对Map任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能,这些工作只要设置两个属性即可,我们来看下代码怎么设置。
- 给大家提供的Hadoop源码支持的压缩格式有:BZip2Codec、DefaultCodec
基于WordCount案例处理
Driver
- 开启map端输出压缩
- 设置map端输出压缩方式
```java
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.BZip2Codec;
import org.apache.hadoop.io.compress.CompressionCodec; import org.apache.hadoop.io.compress.GzipCodec; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCountDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
// 开启map端输出压缩
conf.setBoolean("mapreduce.map.output.compress", true);
// 设置map端输出压缩方式
conf.setClass("mapreduce.map.output.compress.codec", BZip2Codec.class,CompressionCodec.class);
Job job = Job.getInstance(conf);
job.setJarByClass(WordCountDriver.class);
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordCountReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
boolean result = job.waitForCompletion(true);
System.exit(result ? 0 : 1);
}
}
Mapper 和 Reducer 不变
<a name="eq7pw"></a>
### 4.5.2 Reduce输出端采用压缩
基于WordCount案例处理<br />Driver
- 设置reduce端输出压缩开启
- 设置压缩的方式
```java
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.BZip2Codec;
import org.apache.hadoop.io.compress.DefaultCodec;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.io.compress.Lz4Codec;
import org.apache.hadoop.io.compress.SnappyCodec;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCountDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(WordCountDriver.class);
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordCountReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
// 设置reduce端输出压缩开启
FileOutputFormat.setCompressOutput(job, true);
// 设置压缩的方式
FileOutputFormat.setOutputCompressorClass(job, BZip2Codec.class);
// FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
// FileOutputFormat.setOutputCompressorClass(job, DefaultCodec.class);
boolean result = job.waitForCompletion(true);
System.exit(result?0:1);
}
}
Mapper和Reducer保持不变