调整MR的job个数

  1. Map阶段

Map执行时间:map任务启动和初始化的时间+逻辑处理的时间
文件快大小是128M,减少小文件的个数(一个小文件对应y一个map)合理设置文件块的合并大小

  1. set mapred.max.split.size=100000000;
  2. set mapred.min.split.size.per.node=100000000;
  3. set mapred.min.split.size.per.rack=100000000;

前面三个参数确定合并文件块的大小,大于文件块大小128m的,按照128m来分隔,小于128m,大于100m的,按照100m来分隔,把那些小于100m的(包括小文件和分隔大文件剩下的)进行合并。
设置执行前进行小文件合并: