先有SparkSession

  1. 在Spark-shell中已经自动帮我妈创建了
    2. 在代码中我们手动自己创建

    通过SparkSession去创建一个DataFrame对象

  2. 通过数据源: jdbc 重点
    json测试的时候用
    parquet 看具体的需求
    hive 重点
    scala集合 测试的时候会用
    2. 可以通过RDD转换得到,比如说你在写RDD编程的时候你发现不会写了,那你可以直接在代码里面写SparkSql.

    3. 从Hive中查询得到


    在DataFrame上进行各种操作

  3. SQL风格,只要会写SQL就行了.
    2. dsl风格, 用的不是特别多.