日常趟坑 - 《Spark 内核知识》

spark-sql中特殊字符的问题

spark-sql中特殊字符的问题

当写spark.sql（””）语句时，通过%s传参及同时使用like匹配规则有like ‘关键词%’时，会发生冲突。
需要对like中%替换为%%，第一个%代表转义。
exp:
“””
|with middletable as
|(
| select date_time,case_id,action,data_json from %s
| where case_id != ‘0’ and date_format(date_time,’yyyy-MM-dd’) >= ‘2021-12-02’
|)
|select * from middle_table where action like ‘CASE:to%’
|”””.stripMargin.format(“dwdweb_case_audit_di”)
报错：
java.util.UnknownFormatConversionException: Conversion = ‘’’
解决：
“””
|with middle_table as
|(
| select date_time,case_id,action,data_json from %s
| where case_id != ‘0’ and date_format(date_time,’yyyy-MM-dd’) >= ‘2021-12-02’
|)
|select * from middle_table where action like ‘CASE:to%%’
|”””.stripMargin.format(dwd_web_case_audit_di)

spark-core及spark-sql中的union问题

SparkCore中也有union all ，只不过底层也是调的union。并且在2.0以后废弃了，所以sparkCore中的union是不去重的，因为去重有distinct算子。 SparkSql中则有union和union all，对应去重及不去重。

spark读取mysql中字符集编码为utf8mb4的问题：

mysql118的sentry库中的sentry_user表，表级别编为utf8，但是某列编码位utf8mb4，这时使用spark读取mysql写入hive时，该字段中文为null；

解决方法：
用mysql-jdbc读吧。。

spark-explode空数组时导致该行数据丢失：

当使用explode扁平化拆分数组时，如果数组为空，转换后会删除这行数据，
如果想保留纬度，则可使用explode_outer算子，会将数组置null，其他字段保留。

spark-submit中Executor heartbeat timed out：

设置spark-executor的心跳检测超时时间：
spark.executor.heartbeatInterval = 300s （默认10s）
spark.network.timeout = 360s (默认120s)

spark中想要获取分区字段

设置basePath并使用text读取，即可获取分区字段
spark.read.option(“basePath”,”/user/data/flume/online_offline/offline-bill”).text(“/user/data/flume/online_offline/offline-bill/*/serviceId=POST_RTASR”)

spark任务中邮件中文乱码问题

在submit脚本中添加编码配置：
—conf spark.driver.extraJavaOptions=”-Dfile.encoding=utf-8 -Dsun.jnu.encoding=UTF-8” \
—conf spark.executor.extraJavaOptions=”-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8” \