9.1 文件类数据

9.1.1 Text文件

  • 读取:textFile(path: String)
  • 保存:saveAsTextFile(path: String)

    9.1.2 Json文件

  • 解析json所需的包:scala.util.parsing.json.JSON

  • 读取:textFile(path: String)
  • 解析:json.map(JSON.parseFull)

    9.1.3 Sequence文件

    Hadoop用于存储二进制形式的key-value对设计的一种平面文件。

  • 读取:sequenceFileT,U,……

  • 保存:saveAsSequenceFile(path: String)

    9.1.4 对象文件

    使用Java序列化机制保存序列化后的数据。

  • 读取:objectFile(T)

  • 保存:saveAsObjectFile(path: String)

    9.2 文件系统类数据

    9.2.1 HDFS

  • hadoopRDD

  • newHadoopRDD

    9.2.2 MySQL

  • JdbcRDD

    9.2.3 HBase

    hadoop有TableInputFormat可以访问HBase,所以Spark可以使用Hadoop输入格式访问HBase。