一 DataSet

DataSet 是具有强类型的数据集合,需要提供对应的类型信息。

1. 创建 DataSet

使用样例类序列创建 DataSet

  1. scala> case class Person(name: String, age: Long)
  2. defined class Person
  3. scala> val caseClassDS = Seq(Person("zhangsan",2)).toDS()
  4. caseClassDS: org.apache.spark.sql.Dataset[Person] = [name: string, age: Long]
  5. scala> caseClassDS.show
  6. +---------+---+
  7. | name|age|
  8. +---------+---+
  9. | zhangsan| 2|
  10. +---------+---+

使用基本类型的序列创建 DataSet

  1. scala> val ds = Seq(1,2,3,4,5).toDS
  2. ds: org.apache.spark.sql.Dataset[Int] = [value: int]
  3. scala> ds.show
  4. +-----+
  5. |value|
  6. +-----+
  7. | 1|
  8. | 2|
  9. | 3|
  10. | 4|
  11. | 5|
  12. +-----+

注意:在实际使用的时候,很少用到把序列转换成DataSet,更多的是通过RDD 来得到DataSet