七、Flink状态管理 - 《Flink知识学习》

1. Flink中的状态

1. Flink中的状态

图片.png
manager state : Flink状态管理机制管理起来的一整套状态
raw state: 自定义状态
• 由一个任务维护，并且用来计算某个结果的所有数据，都属于这个任务的状态
• 可以认为状态就是一个本地变量，可以被任务的业务逻辑访问（放在本地内存）
• Flink 会进行状态管理，包括状态一致性、故障处理以及高效存储和访问，以便开发人员可以专注于应用程序的逻辑

• 在 Flink 中，状态始终与特定算子相关联（不能跨任务访问状态）
• 为了使运行时的 Flink 了解算子的状态，算子需要预先注册其状态

➢ 总的说来，有两种类型的状态：
• 算子状态（Operator State）
• 算子状态的作用范围限定为算子任务（跟任务绑定）
• 键控状态（Keyed State）
• 根据输入数据流中定义的键（key）来维护和访问

算子状态（Operator State）
图片.png
• 算子状态的作用范围限定为算子任务，由同一并行任务所处理的所有数据都可以访问到相同的状态
• 状态对于同一子任务而言是共享的
• 算子状态不能由相同或不同算子的另一个子任务访问
算子状态数据结构
图片.png
针对当前分区任务的状态去做维护和访问，和key没有关系
键控状态（Keyed State）

键控状态就是keyby分区后每个key保存一份独立的状态
键控状态数据结构

状态后端（State Backends）
• 每传入一条数据，有状态的算子任务都会读取和更新状态
• 由于有效的状态访问对于处理数据的低延迟至关重要，因此每个并行任务都会在本地维护其状态，以确保快速的状态访问
• 状态的存储、访问以及维护，由一个可插入的组件决定，这个组件就叫做状态后端（state backend）
• 状态后端主要负责两件事：本地的状态管理，以及将检查点（checkpoint）状态写入远程存储
图片.png
状态特别大，会出现OOM，扩不了容，就用RocksDB
访问速度慢，但不会出现OOM问题

配置文件：
state.backend: filesystem
重启策略：(重启一个区域的）
jobmanager.execution.failover-strategy: region