关于SparkSql和SparkCore哪个用的多

浏览 264 扫码分享 2023-11-13 09:53:14

主要取决于数据源,如果数据源来源于Hive的话,SparkSql直接读取Hive数据很快,如果数据源来源于日志,那么SparkSql是无法读取的,那么就用SparkCore去读取日志,然后转成DataFrame,再去执行SparkSql.
按官方的指导意见来说数据处理更偏向于用SparkSql.
但是目前情况用DataFrame和RDD的挺多的.