02.DataFrame编程概述

浏览 234 扫码分享 2023-11-13 09:53:25

先有SparkSession
通过SparkSession去创建一个DataFrame对象
在DataFrame上进行各种操作

先有SparkSession

在Spark-shell中已经自动帮我妈创建了
2. 在代码中我们手动自己创建

通过SparkSession去创建一个DataFrame对象
通过数据源: jdbc 重点
json测试的时候用
parquet 看具体的需求
hive 重点
scala集合测试的时候会用
2. 可以通过RDD转换得到,比如说你在写RDD编程的时候你发现不会写了,那你可以直接在代码里面写SparkSql.

3. 从Hive中查询得到

在DataFrame上进行各种操作
SQL风格,只要会写SQL就行了.
2. dsl风格, 用的不是特别多.

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录