Tez和MapReduce对比

Tez

  1. Tez可以将多个有依赖的作业转换为一个作业(这样只需要写一次HDFS,且中间步骤节点较少),可以大大提升了DAG(有向无环图)作业的性能。
  2. Tez是基于Hadoop Yarn上的DAG(有向无环图)计算框架,它把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组成一个较大的DAG任务,减少了Map/Reduce之间的文件存储。同时合理组成其子过程,也可以减少任务的运行时间

MapReduce

MapReduce是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,非常适合数据密集型计算

在实际应用中如果使用Tez计算是出现内存溢出问题,可以考虑使用MR进行运算,可能会比较慢但是一定会有结果