Flink是基于流式数据有状态(stateful)的分布式计算引擎。作用于unbounded和bounded数据流。
即既支持流处理也支持批处理。

高吞吐、低延时。

阿里收购了Flink的母公司。

image.png

Unbounded Data无界的,有开始没有结果,数据是一直持续的状态,可以理解为流处理。

Bounded Data有界的,可以理解为批处理。

应用场景

Event-Driven

Data Analytic

Data Pipeline

Layered APIs

有三种:SQL & Table、DataStream和ProcesFunction
Screenshot_20211110_001203.jpg
其中DataStream是最常使用的。

运行模式

可以跑在Yarn、Mesos、K8s和stand-alone集群。

容错性
对于批处理,如果出错了的话重新计算即可;

image.png