Spark - Spark1和Spark2区别 - 《技术水库》

Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展，及性能的提升
Spark2 Apache Spark 作为编译器: 增加新的引擎 Tungsten 执行引擎，比Spark1快10倍
ML 做了很大的改进，支持协同过滤 http://spark.apache.org/docs/latest/ml-collaborative-filtering.html
spark2 org.apache.spark.sql 加了 SparkSession 把 Spark 的 SQLcontext 和 hiveContext 整合 dataFrame 去掉了，统一采用 dataset

4、Spark2.0 中引入了 SparkSession 的概念，它为用户提供了一个统一的切入点来使用 Spark 的各项功能，统一了旧的 SQLContext 与 HiveContext。用户不但可以使用 DataFrame 和 Dataset 的各种 API，学习 Spark2 的难度也会大大降低。