为什么要学习实时流计算

服务场景：当请求非常多、数据量非常大，并且对请求时延要求非常严格时，比如，必须在毫秒甚至微秒级返回，那么问题就变得复杂了。如：

如果按照传统对数据库增删改查的方法，是无法应对大数据情况下的计算的。因此可用实时流计算方式来解决。

接触实时流计算会遇到的问题

针对以上问题，可以从系统架构和实时算法两个方面来突破。

“流计算”本质上是一种“异步”编程方法。业务数据像“流水”一样，通过“管道”，也就是“队列”，持续不断地流到各个环节的子系统中，然后由各个环节的子系统独立处理。所以，为了更快地处理“流”，可以通过增加管道的数量，来提高流计算系统的并行处理能力。

目前，开源的流计算框架虽然有许多（比如 Storm、Spark Streaming、Samza 和 Flink），但其实这些主流框架背后，都有着一套类似的设计思路和架构模式。它们都涉及流数据状态、流信息状态、反向压力、消息可靠性等概念。

系统架构提供了整体的计算框架，但要实现具体的业务功能，还需要针对“流数据”设计合适的算法。毕竟，与传统“块数据”相比，“流数据”需要连续不断并且实时地进行处理。

对于实时流计算中的算法，最最核心的问题，在于解决“大数据量”和“实时计算”之间的矛盾。数据量一大，几乎所有事情都会变得复杂和缓慢。“大数据量”的问题，集中在四个方面：时间窗口很长、业务请求量很大、内存受限、数据跨网络访问。为了实现“实时计算”的效果，需要你针对算法做非常精心的设计。

实时流计算 - 图1