9.1 文件类数据
9.1.1 Text文件
- 读取:textFile(path: String)
保存:saveAsTextFile(path: String)
9.1.2 Json文件
解析json所需的包:scala.util.parsing.json.JSON
- 读取:textFile(path: String)
-
9.1.3 Sequence文件
Hadoop用于存储二进制形式的key-value对设计的一种平面文件。
读取:sequenceFileT,U,……
保存:saveAsSequenceFile(path: String)
9.1.4 对象文件
使用Java序列化机制保存序列化后的数据。
读取:objectFile(T)
保存:saveAsObjectFile(path: String)
9.2 文件系统类数据
9.2.1 HDFS
hadoopRDD
-
9.2.2 MySQL
-
9.2.3 HBase
hadoop有TableInputFormat可以访问HBase,所以Spark可以使用Hadoop输入格式访问HBase。