Group Aggregate优化技巧

1.开启MicroBatch或MiniBatch(提升吞吐)

  1. 1)适用场景<br /> 2)开启方式<br />

2.开启LocalGlobal(解决常见数据热点问题)

  1. 1)适用场景<br /> 2)开启方式<br /> 3)判断是否生效<br />

3.开启PartialFinal(解决COUNT DISTINCT热点问题)

  1. 1)适用场景<br /> 2)开启方式<br /> 3)判断是否生效<br />

4.改写为AGG WITH FILTER语法(提升大量COUNT DISTINCT场景性能)

  1. 1)适用场景<br /> 2)开启方式<br /> 3)判断是否生效 <br />

TopN优化技巧

1.TopN算法

  1. 1)UpdateFastRank :最优算法<br /> 需满足两个条件<br /> 2)UnaryUpdateRank<br /> <br /> 3)RetractRank<br />

2.TopN优化方法

  1. 1)无排名优化<br /> <br /> 2)增加TopNCache大小<br /> <br /> 3)PartitionBy的字段中要有时间类字段<br />

高效去重方案

1.语法

2.Deduplicate Keep FirstRow

3.Deduplicate Keep LastRow

高效的内置函数

1.使用内置函数替换自定义函数

2.KEY VALUE函数使用单字符的分隔符

3.多KEY VALUE场景使用MULTI_KEYVALUE

4.LIKE操作注意事项

5.慎用正则函数(REGEXP)

  1. 网络传输的优化<br /> 1.<br /> <br /> 推荐的优化配置方案<br /> 1.<br />

手动配置调优

1.上下游参数调优

2.作业参数调优

3.资源调优

1)分析过程
2)性能调优
3)资源参数的配置原则和建议

典型的反压场景及优化思路