JSON数据源

  1. Spark SQL可以自动推断JSON文件的元数据,并且加载其数据,创建一个DataFrame。可以使用SQLContext.read.json()方法,针对一个元素类型为StringRDD,或者是一个JSON文件。
  2. 但是要注意的是,这里使用的JSON文件与传统意义上的JSON文件是不一样的。每行都必须,也只能包含一个,单独的,自包含的,有效的JSON对象。不能让一个JSON对象分散在多行。否则会报错。
  3. 综合性复杂案例:查询成绩为80分以上的学生的基本信息与成绩信息

案例

  1. /**
  2. * JSON数据源
  3. * @author Administrator
  4. *
  5. */
  6. public class JSONDataSource {
  7. public static void main(String[] args) {
  8. SparkConf conf = new SparkConf()
  9. .setAppName("JSONDataSource");
  10. JavaSparkContext sc = new JavaSparkContext(conf);
  11. SQLContext sqlContext = new SQLContext(sc);
  12. // 针对json文件,创建DataFrame(针对json文件创建DataFrame)
  13. DataFrame studentScoresDF = sqlContext.read().json(
  14. "hdfs://spark1:9000/spark-study/students.json");
  15. // 针对学生成绩信息的DataFrame,注册临时表,查询分数大于80分的学生的姓名
  16. // (注册临时表,针对临时表执行sql语句)
  17. studentScoresDF.registerTempTable("student_scores");
  18. DataFrame goodStudentScoresDF = sqlContext.sql(
  19. "select name,score from student_scores where score>=80");
  20. // (将DataFrame转换为rdd,执行transformation操作)
  21. List<String> goodStudentNames = goodStudentScoresDF.javaRDD().map(
  22. new Function<Row, String>() {
  23. private static final long serialVersionUID = 1L;
  24. @Override
  25. public String call(Row row) throws Exception {
  26. return row.getString(0);
  27. }
  28. }).collect();
  29. // 然后针对JavaRDD<String>,创建DataFrame
  30. // (针对包含json串的JavaRDD,创建DataFrame)
  31. List<String> studentInfoJSONs = new ArrayList<String>();
  32. studentInfoJSONs.add("{\"name\":\"Leo\", \"age\":18}");
  33. studentInfoJSONs.add("{\"name\":\"Marry\", \"age\":17}");
  34. studentInfoJSONs.add("{\"name\":\"Jack\", \"age\":19}");
  35. JavaRDD<String> studentInfoJSONsRDD = sc.parallelize(studentInfoJSONs);
  36. DataFrame studentInfosDF = sqlContext.read().json(studentInfoJSONsRDD);
  37. // 针对学生基本信息DataFrame,注册临时表,然后查询分数大于80分的学生的基本信息
  38. studentInfosDF.registerTempTable("student_infos");
  39. String sql = "select name,age from student_infos where name in (";
  40. for(int i = 0; i < goodStudentNames.size(); i++) {
  41. sql += "'" + goodStudentNames.get(i) + "'";
  42. if(i < goodStudentNames.size() - 1) {
  43. sql += ",";
  44. }
  45. }
  46. sql += ")";
  47. DataFrame goodStudentInfosDF = sqlContext.sql(sql);
  48. // 然后将两份数据的DataFrame,转换为JavaPairRDD,执行join transformation
  49. // (将DataFrame转换为JavaRDD,再map为JavaPairRDD,然后进行join)
  50. JavaPairRDD<String, Tuple2<Integer, Integer>> goodStudentsRDD =
  51. goodStudentScoresDF.javaRDD().mapToPair(new PairFunction<Row, String, Integer>() {
  52. private static final long serialVersionUID = 1L;
  53. @Override
  54. public Tuple2<String, Integer> call(Row row) throws Exception {
  55. return new Tuple2<String, Integer>(row.getString(0),
  56. Integer.valueOf(String.valueOf(row.getLong(1))));
  57. }
  58. }).join(goodStudentInfosDF.javaRDD().mapToPair(new PairFunction<Row, String, Integer>() {
  59. private static final long serialVersionUID = 1L;
  60. @Override
  61. public Tuple2<String, Integer> call(Row row) throws Exception {
  62. return new Tuple2<String, Integer>(row.getString(0),
  63. Integer.valueOf(String.valueOf(row.getLong(1))));
  64. }
  65. }));
  66. // 然后将封装在RDD中的好学生的全部信息,转换为一个JavaRDD<Row>的格式
  67. // (将JavaRDD,转换为DataFrame)
  68. JavaRDD<Row> goodStudentRowsRDD = goodStudentsRDD.map(
  69. new Function<Tuple2<String,Tuple2<Integer,Integer>>, Row>() {
  70. private static final long serialVersionUID = 1L;
  71. @Override
  72. public Row call(
  73. Tuple2<String, Tuple2<Integer, Integer>> tuple)
  74. throws Exception {
  75. return RowFactory.create(tuple._1, tuple._2._1, tuple._2._2);
  76. }
  77. });
  78. // 创建一份元数据,将JavaRDD<Row>转换为DataFrame
  79. List<StructField> structFields = new ArrayList<StructField>();
  80. structFields.add(DataTypes.createStructField("name", DataTypes.StringType, true));
  81. structFields.add(DataTypes.createStructField("score", DataTypes.IntegerType, true));
  82. structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType, true));
  83. StructType structType = DataTypes.createStructType(structFields);
  84. DataFrame goodStudentsDF = sqlContext.createDataFrame(goodStudentRowsRDD, structType);
  85. // 将好学生的全部信息保存到一个json文件中去
  86. // (将DataFrame中的数据保存到外部的json文件中去)
  87. goodStudentsDF.write().format("json").save("hdfs://spark1:9000/spark-study/good-students");
  88. }
  89. }