1. Spark 2.x 基本上是基于 Spark 1.x 进行了更多的功能和模块的扩展,及性能的提升
    2. Spark2 Apache Spark 作为编译器: 增加新的引擎 Tungsten 执行引擎,比Spark1快10倍
    3. ML 做了很大的改进,支持协同过滤 http://spark.apache.org/docs/latest/ml-collaborative-filtering.html
    4. spark2 org.apache.spark.sql 加了 SparkSession 把 Spark 的 SQLcontext 和 hiveContext 整合 dataFrame 去掉了,统一采用 dataset

    4、Spark2.0 中引入了 SparkSession 的概念,它为用户提供了一个统一的切入点来使用 Spark 的各项功能,统一了旧的 SQLContext 与 HiveContext。用户不但可以使用 DataFrame 和 Dataset 的各种 API,学习 Spark2 的难度也会大大降低。