1、分布式流处理模型
关注点:
- 兼顾数据一致性
- 大规模数据处理
- 无界乱序数据处理

分布式流处理模型主要由:数据输入(source)、数据处理(transform)、数据输出(sink)组成
- 数据源关注跟外部数据系统打通
- operation关注把接入的数据进行转换的操作
- 数据输出把计算的结果输出到外部数据系统

- 按照并行度拆封成多个算子

2、DataStream API介绍

DataStream程序步骤:
- 设置运行环境:StreamExecutionEnvironment
- 读取数据源:source
- 执行转换操作:transform
- 输出计算结果:sink
- 执行Flink应用程序:execute()
2.1 StreamExecutionEnvironment

2.2 数据源


- DatatreamSource是DataStream的子集

2.3 转换操作


KeyedStream

物理分组
