复习整理

浏览 94 扫码分享 2023-11-23 13:07:38

选择：

将数据均匀分配下游所有任务，能实现计算任务负载均衡的数据交换策略是随机策略
会把每个数据项发送下游算子的全部并行任务的数据交换策略是广播策略
在Dataflow图中，没有输入端的算子称为数据源
在Dataflow图中，没人输出端的算子称为数据汇
在Dataflow图中，算子既可以接收多个数据流或产生多条输出流，也可以通过单流分隔或合并多流来改变Dataflow图的结构
每个TaskManager都有一个用于收发数据的网络缓冲池，缓冲池的默认大小是（32KB）
一个任务节点接收到上游的多个水位线时，选取向下游发送的水位线的策略是选最小的
Flink检查点算法是基于（Chandy-Lamport）算法实现的
Flink保存点和检查点的区别是（保存点手动保存，检查点自动保存）
能够利用一个作用在流中每条输入事件上的布尔条件来决定事件去留的API是（filter）
一下算子中属于滚动聚合算子的是（reduce）
Split算子已被弃用，能够替换该算子的方法是（SideOutput）
在Flink中底层的API是（ProcessFunction）
下列API中属于多流转换算子的是（union）
以下函数能够收集窗口内所有元素，并在执行计算时对它们进行遍历的是（全量窗口函数）
在使用富函数时，对应函数的生命周期可以实现两个额外的方法是（open和close）

判断：

延迟表示处理一个事件所需的时间（√）
吞吐是用来衡量系统处理能力（处理速率）的指标（√）
TaskManager是Flink的工作进程，通常需要启动多个TaskManager。（√）
作为主进程，JobManager控制着单个应用程序的执行。（√）
用户可以设置水位线插入频率及延迟时间（√）
基于数量的滚动窗口定义了在触发计算前集齐多少条事件（√）
在事件模式下，Flink流式应用处理的所有记录都必须包含时间戳（√）
Flink不能将状态存储在本地内存或者嵌入式数据库中。（×）
滑动窗口的滑动间隔决定每隔多久生成一个新的桶（√）

填空：

Flink架构基于谷歌公司提出的（Dataflow）模型设计并实现的。
Flink系统包括（作业管理器，任务管理器，资源管理器，分发器）四个组件。
Flink包括（Event Time（事件发生时间），Processing Time（事件处理时间），Ingestion Time（事件进入Flink的时间））三个时间语义
流计算结果一致性保障有三个级别，分别是at-most-once、at-least-once、exactly-once。
Flink的窗口类型有时间窗口，事件窗口，会话窗口（？）
Flink包含两种基本的状态 Keyed State 和Operator State
Sink端一致性保障的方法主要：幂等性写，事务性写
Flink数据获取部件称为 [填空1] ，数据的输出部件称为 [填空2] （？）
水位线拥有两个几本属性 [填空1] [填空2]（？）

简答：

并行流处理

延迟和吞吐
流上的操作
数据输入输出
转换操作
滚动聚合
窗口操作
时间语义
状态一致性
结果保障
至多一次
至少一次
精确一次

Flink一致性保障
1. checkpoint
2. savepoint

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录