ReduceJoin

优点:硬件不好的时候(缓存能力差),可以连接多台廉价服务器,开启多个maptask
缺点:
1、速度慢,多了排序、reduce的过程。
2、容易造成数据倾斜,减少reduce数
reducejoin.xlsx
image.png

MapJoin

优点:速度快,没有数据倾斜的问题
缺点:大文件在内存中占用过多,硬件好可以考虑多用

实现:
先将小文件加载到内存中,
后大表被map()方法按行读取
小表join大表
mapjoin.xlsx

ReduceJoin和MapJoin对比

MapJoin:不能缓存大文件(默认25m),过程少
经历过程:只经历mapper

ReduceJoin:过程复杂,数据倾斜
经历过程:经历了marpper 和reducer

数据清洗(ETL)

计数器应用

利用计数器统计清洗了多少条数据