Hadoop/MapReduce和Spark最适合的都是做离线型的数据分析,但Hadoop特别适合是单次分析的数据量“很⼤”的情景,⽽Spark则适⽤于数据量不是很⼤的情景。
(1)⼀般情况下,对于中⼩互联⽹和企业级的⼤数据应⽤⽽⾔,单次分析的数量都不会“很⼤”,因此可以优先考虑使⽤Spark。
(2)业务通常认为Spark更适⽤于机器学习之类的“迭代式”应⽤,80GB的压缩数据(解压后超过200GB),10个节点的集群规模,跑类似“sum+group-by”的应⽤,MapReduce花了5分钟,⽽spark只需要2分钟。