问题场景

线上部署的用户画像系统中的数据绝大部分是来自于 Kafka 的实时数据。随着数据量越来越多,系统的压力也越来越大,以至于出现了 Flink 背压与 Checkpoint 超时等问题,导致 Flink 提交 Kafka 位移失败,从而影响了数据一致性

解决方式

  • 选择合适的 Checkpoint 存储方式
  • 合理增加算子(Task)并行度
  • 缩短算子链(Operator Chains)长度

  • 算子链合并规则

image.png

参考链接