监控检查点


title: “Monitoring Checkpointing” nav-parent_id: monitoring

nav-pos: 4

概述

Flink的web界面提供了一个标签去监控作业的检查点.统计的结果在作业结束之后也始终可见.用四种不同的标签来展示检查点的相关信息:概述(Overview),历史(History),摘要(Summary)和配置(Configuration).下面的章节将按顺序覆盖这些信息.

监控

概述标签

概述标签列举了以下统计信息。请注意这些统计信息将在作业管理器(JobManager)丢失后失效,并且如果作业管理器(JobManager)发生故障转移统计信息也将会被重置。

  • 检查点统计
    • 已触发: 自作业开始以来已经触发的检查点总量.
    • 进行中: 当前正在进行的检查点数量.
    • 已完成: 自作业开始以来已经成功的检查点总量.
    • 已失败: 自作业开始以来已经失败的检查点总量.
    • 已恢复: 自作业开始以来恢复操作的次数.这也是告诉你作业自提交开始以来已经重启的次数.请注意,使用保存点的初始提交也将作为还原计数,并且如果作业管理器(JobManager)在操作过程中丢失,将会重置计数。
  • 最近完成的检查点: 最近成功完成的检查点。点击更多详情将会给你提供子任务级别的详细统计信息.
  • 最近失败的检查点:最近失败的检查点. 点击更多详情将会给你提供到子任务级别的详细统计信息.
  • 最近的保存点: 利用外部路径存储最新触发的保存点.点击更多详情将会给你提供到子任务级别的详细统计信息.
  • 最新的恢复: 有两种类型的恢复操作.
    • 来自检查点的恢复:从定期检查点进行恢复.
    • 来自保存点的恢复:从保存点进行恢复

历史标签

检查点历史记录了最近触发的和进行中的检查点相关统计信息.

检查点监控: 历史
  • ID: 触发的检查点的ID.每个检查点的ID是递增的,从1开始.
  • 状态: 检查点的当前状态,它可能是 进行中 (), 已完成 (), 或者已失败 (). 如果触发的检查点是一个保存点,你将会看到一个