1、分布式流处理模型

关注点:

  • 兼顾数据一致性
  • 大规模数据处理
  • 无界乱序数据处理

image.png
分布式流处理模型主要由:数据输入(source)、数据处理(transform)、数据输出(sink)组成

  • 数据源关注跟外部数据系统打通
  • operation关注把接入的数据进行转换的操作
  • 数据输出把计算的结果输出到外部数据系统

image.png

  • 按照并行度拆封成多个算子

image.png

2、DataStream API介绍

image.png

DataStream程序步骤:

  • 设置运行环境:StreamExecutionEnvironment
  • 读取数据源:source
  • 执行转换操作:transform
  • 输出计算结果:sink
  • 执行Flink应用程序:execute()

2.1 StreamExecutionEnvironment

image.png

2.2 数据源

image.png
image.png

  • DatatreamSource是DataStream的子集

image.png

2.3 转换操作

image.png

image.png

KeyedStream
image.png
image.png
物理分组
image.png