其它概念 - hadoop和spark使⽤场景？ - 《大数据》

Hadoop/MapReduce和Spark最适合的都是做离线型的数据分析，但Hadoop特别适合是单次分析的数据量“很⼤”的情景，⽽Spark则适⽤于数据量不是很⼤的情景。
(1)⼀般情况下，对于中⼩互联⽹和企业级的⼤数据应⽤⽽⾔，单次分析的数量都不会“很⼤”，因此可以优先考虑使⽤Spark。
(2)业务通常认为Spark更适⽤于机器学习之类的“迭代式”应⽤,80GB的压缩数据（解压后超过200GB），10个节点的集群规模，跑类似“sum+group-by”的应⽤，MapReduce花了5分钟，⽽spark只需要2分钟。