DataSet 是什么

DataSet 是分布式数据集合。提供了RDD 的优势(强类型,使用强大的lambda 函数的能力)以及Spark SQL 优化执行引擎的优点。
DataSet 也可以使用功能性的转换(操作map ,flatMap ,filter 等等)

  • 用样例类来对DataSet 中定义数据的结构信息, 样例类中每个属性的名称直接映射到DataSet 中的字段名称;
  • DataSet 是强类型的。比如可以有DataSet[Car] ,DataSet[Person]。
  • DataFrame 是DataSet 的特列, DataFrame=DataSet[Row] ,所以可以通过as 方法将DataFrame 转换为DataSet。
  • Row 是一个类型, 跟Car、Person 这些的类型一样,所有的表结构信息都用Row 来表示。 获取数据时需要指定顺序