先有SparkSession通过SparkSession去创建一个DataFrame对象在DataFrame上进行各种操作 先有SparkSession 在Spark-shell中已经自动帮我妈创建了2. 在代码中我们手动自己创建 通过SparkSession去创建一个DataFrame对象通过数据源: jdbc 重点json测试的时候用parquet 看具体的需求hive 重点scala集合 测试的时候会用2. 可以通过RDD转换得到,比如说你在写RDD编程的时候你发现不会写了,那你可以直接在代码里面写SparkSql. 3. 从Hive中查询得到 在DataFrame上进行各种操作SQL风格,只要会写SQL就行了.2. dsl风格, 用的不是特别多.