1. Window概念

窗口(Window)
图片.png• 一般真实的流都是无界的,怎样处理无界的数据?
• 可以把无限的数据流进行切分,得到有限的数据集进行处理 —— 也就是得到有界流
• 窗口(window)就是将无限流切割为有限流的一种方式,它会将流数据分发到有限大小的桶(bucket)中进行分析
原来滑动窗口的含义是来一批数据后,根据数据设置一个窗口,同时存在一个窗口,Flink的窗口机制是分成一个个桶,来一个数据直接判断是属于哪个桶。
window 类型
• 时间窗口(Time Window)
➢ 滚动时间窗口
➢ 滑动时间窗口
➢ 会话窗口
• 计数窗口(Count Window)
➢ 滚动计数窗口
➢ 滑动计数窗口
滚动窗口(Tumbling Windows)
图片.png• 将数据依据固定的窗口长度对数据进行切分
• 时间对齐,窗口长度固定,没有重叠
适用场景:适合做 BI 统计等(做每个时间段的聚合计算)。
滑动窗口(Sliding Windows)
图片.png• 滑动窗口是固定窗口的更广义的一种形式,滑动窗口由固定的窗口长度和滑动间隔组成
• 窗口长度固定,可以有重叠(window size / window slide 同时属于最多的窗口个数)
适用场景:对最近一个时间段内的统计(求某接口最近 5min 的失败率来决定是否要报警)。
会话窗口(Session Windows)
图片.png• 由一系列事件组合一个指定时间长度的 timeout 间隙组成,也就是一段时间没有接收到新数据就会生成新的窗口
• 特点:时间无对齐
session gap 是最小的间隔长度

2. Window API

• 窗口分配器 —— window() 方法
➢ 我们可以用 .window() 来定义一个窗口,然后基于这个 window 去做一些聚合或者其它处理操作。注意 window () 方法必须在 keyBy 之后才能用。 之后再做.minBy()。
➢ Flink 提供了更加简单的 .timeWindow 和 .countWindow 方法,用于定义时间窗口和计数窗口。
图片.png
窗口分配器(window assigner)
• window() 方法接收的输入参数是一个 WindowAssigner
• WindowAssigner 负责将每条输入的数据分发到正确的 window 中
• Flink 提供了通用的 WindowAssigner
➢ 滚动窗口(tumbling window)
➢ 滑动窗口(sliding window)
➢ 会话窗口(session window)
➢ 全局窗口(global window)
图片.png
图片.png
具体代码实现,回头再看