译者:flink.sojb.cn

Flink的容错机制在出现故障时恢复程序并继续执行它们。此类故障包括机器硬件故障,网络故障,瞬态程序故障等。

批处理容错(DataSet API)

DataSet API中程序的容错能力通过重试失败的执行来实现。Flink在作业声明为失败之前重试执行的时间可通过执行重试参数进行配置。值0有效意味着禁用容错。

要激活容错,请将执行重试次数设置为大于零的值。常见的选择是值为3。

此示例显示如何配置Flink DataSet程序的执行重试。

  1. ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
  2. env.setNumberOfExecutionRetries(3);
  1. val env = ExecutionEnvironment.getExecutionEnvironment()
  2. env.setNumberOfExecutionRetries(3)

您还可以在以下位置定义执行重试次数和重试延迟的默认值flink-conf.yaml

  1. execution-retries.default: 3

重试延迟

执行重试可以配置为延迟。延迟重试意味着在执行失败后,重新执行不会立即开始,而是仅在一定延迟之后。

当程序与外部系统交互时,延迟重试可能会有所帮助,例如,在尝试重新执行之前,连接或挂起的事务应该达到超时。

您可以按如下方式为每个程序设置重试延迟(示例显示DataStream API - DataSet API的工作方式类似):

  1. ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
  2. env.getConfig().setExecutionRetryDelay(5000); // 5000 milliseconds delay
  1. val env = ExecutionEnvironment.getExecutionEnvironment()
  2. env.getConfig.setExecutionRetryDelay(5000) // 5000 milliseconds delay

您还可以在以下位置定义重试延迟的默认值flink-conf.yaml

  1. execution-retries.delay: 10 s