Flink支持不同的重启策略,可以控制在发生故障时如何重启新启动作业。 默认重启策略是通过Flink的配置文件设置的flink-conf.yaml。配置参数restart-strategy定义采用的策略。
如果未启用检查点,则使用“无重启”策略。如果激活了检查点并且尚未配置重启策略,则固定延迟策略将用于Integer.MAX_VALUE 重启尝试。
重启策略分为:固定延迟重启策略、故障率重启策略、无重启策略、后备重启策略。

1. 固定延迟重启策略

固定延迟重启策略是尝试给定次数重新启动作业。如果超过最大尝试次数,则作业失败。在两次连续重启尝试之间,会有一个固定的延迟等待时间。

  • 通过在flink-conf.yaml中配置参数: ```yaml

    fixed-delay:固定延迟策略

    restart-strategy: fixed-delay

尝试5次,默认Integer.MAX_VALUE

restart-strategy.fixed-delay.attempts: 5

设置延迟时间10s,默认为 akka.ask.timeout时间

restart-strategy.fixed-delay.delay: 10s

  1. <a name="IQM0x"></a>
  2. #### <br />
  3. <a name="Xj6NW"></a>
  4. #### 2. 故障率重启策略
  5. 故障率重启策略在故障后重新作业,当设置的故障率(failure rate)超过每个时间间隔的故障时,作业最终失败。在两次连续重启尝试之间,重启策略延迟等待一段时间。
  6. - 在flink-conf.yaml文件配置
  7. ```yaml
  8. # 设置重启策略为failure-rate
  9. restart-strategy: failure-rate
  10. # 失败作业之前的给定时间间隔内的最大重启次数,默认1
  11. restart-strategy.failure-rate.max-failures-per-interval: 3
  12. # 测量故障率的时间间隔。默认1min
  13. restart-strategy.failure-rate.failure-rate-interval: 5min
  14. # 两次连续重启尝试之间的延迟,默认akka.ask.timeout时间
  15. restart-strategy.failure-rate.delay: 10s
  • 在代码中设置:

    // 3为最大失败次数;5min为测量的故障时间;10s为2次间的延迟时间
    env.setRestartStrategy(
      RestartStrategies.failureRateRestart(
          3,Time.of(5, TimeUnit.MINUTES),Time.of(10, TimeUnit.SECONDS)
      )
    );
    


    3. 无重启策略

    作业直接失败,不尝试重启。

  • 在flink-conf.yaml中配置:.

    restart-strategy: none
    
  • 在代码中实现:

    env.setRestartStrategy(RestartStrategies.noRestart());
    


    4. 后备重启策略

    使用群集定义的重新启动策略。这对于启用检查点的流式传输程序很有帮助。默认情况下,如果没有定义其他重启策略,则选择固定延迟重启策略。


遗留的作业失败调度 <1.9.0 ↓>

LegacyScheduler 是遗留的调度器,该调度器分为 Task Failover作业 Failover
Task 执行错误时,首先会进行 Task Failover ,如果 Task 错误无法恢复到正常状态,最终触发了 Full Restart, 此时作业 Restart 策略将会控制是否需要恢复作业, Flink 提供了 3 种作业具体的重启策略

FixedDelayResatrtStrategy

  • 允许指定次数内的 Execution 失败, 如果超过该次数则导致作业失败
  • FixedDelayResatrtStrategy 重启可以设置一定的延迟,以减少频繁重试对外部系统带来的负载和不需要的错误日志
  • FixedDelayResatrtStrategy 是默认的 ResatrtStrategy

FailureRateResatrtStrategy

  • 允许在指定时间中指定次数内的 Execution 失败
  • 如果超过这个频率则导致作业失败
  • FailureRateResatrtStrategy 可以设置一定的重启延迟

NoResatrtStrategy

  • Execution 失败时直接让作业失败