实时计算 - 问题 - 《知识积累》

如何保证 exactly once

supervisor节点以及其他excutor的分配是集群启动时分配好的？如果某supervisor挂掉、supervisor里的worker挂掉如何容错的？

supervisor里的worker挂掉的情况：
Supervisor会对本地的Worker进程进行监控，如果发现状态不正常会尝试杀掉Worker并重启，超过一定次数仍为正常会将此Worker任务交还给Nimbus再次进行分配

反压

wangyi 问到

https://www.jianshu.com/p/c7ecd5683226

1.2 Storm 反压机制

Storm反压机制 Storm 在每一个 Bolt 都会有一个监测反压的线程（Backpressure Thread），这个线程一但检测到 Bolt 里的接收队列（recv queue）出现了严重阻塞就会把这个情况写到 ZooKeeper 里，ZooKeeper 会一直被 Spout 监听，监听到有反压的情况就会停止发送。因此，通过这样的方式匹配上下游的发送接收速率。 Storm 提供的最基本的处理 stream 的原语是 spout 和 bolt。 ①spout 是流的源头。通常 spout 从外部数据源（队列、数据库等）读取数据，然后封装成Tuple形式，之后发送到Stream中。 ② bolt 处理输入的Stream，并产生新的输出Stream。bolt 可以执行Filter、Map、Join等操作。bolt 是一个被动的角色，其接口中有一个execute(Tuple input)方法，在接收到消息之后会调用此函数，用户可以在此方法中执行自己的处理逻辑。

这是不是和“告警引擎里的分发节点单机分发负载高时如何解决” 这一问题类似？知识要有联想和串联

问题

怎么保证监控的稳定性？

分位数算子怎么实现的？

zoom问到

场景：90%的机器cpu小于xxx 则告警
https://lishoubo.github.io/2017/09/20/flink%E5%AE%9E%E6%97%B6%E5%88%86%E6%9E%90%E7%9A%84%E5%87%A0%E7%82%B9%E6%80%BB%E7%BB%93/

如何配置任务并发和调优？

一个场景，分配任务并发度需要什么步骤？
如何调优？

并发的设置（parallelism）（想想，并发是不是就像多线程）

source节点
source节点的个数和上游partition数量相关。例如，source的 shard分区数为16，那么source节点的并发数可以设置为16、8、或4，但不能超过16，最多一比一.（1个节点消费多个上游队列，不能多个节点消费一个队列，浪费，位点的消费点位有没有问题？）

中间节点
中间节点的并发根据qps预估

qps低，中间节点个数可以和source节点一致
qps高，中间节点配置比source并发大，一般为倍数，2倍、3倍这样

sink节点

并发度和下游存储的partition数有关，一般是下游partition数的2-3倍。（多个节点往同一个partition里写）

其他资源设置建议（cpu，内存等）

如何保证 exactly once

实现 Exactly Once 语义，则需要在 At Least Once 的基础上进行状态的存储，用来防止重复发送的数据被重复处理，在 Storm 中使用 Trident API 实现。

Exactly Once 中，消息不丢失、不重复，因此需要在 At Least Once 的基础上保存相应的状态，表示上游的哪些消息已经成功发送到下游，防止同一条消息发送多次给下游的情况。