Kafka 介绍

目前 Kafka 已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性被广泛使用。

kafka 的三大角色

  • 消息系统: Kafka 与传统的消息系统都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时,Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。
  • 存储系统:Kafka 把消息持久化到磁盘中,相比于其他基于内存存储的系统而言,有效的降低了数据的丢失风险。我们可以把 Kafka 做为长期的数据存储系统来用,只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可。
  • 流式处理平台:Kafka 不仅为每个流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作。

    kafka 基本概念

    一个典型的 Kafka 体系架构包括若干 Producer、若干 Broker、若干 Consumer,以及一个ZooKeeper集群,如图1-1所示。其中 ZooKeeper 是 Kafka 用来负责集群元数据的管理、控制器的选举等操作的。Producer将消息发送到Broker,Broker负责将收到的消息存储到磁盘中,而Consumer负责从Broker订阅并消费消息。
    263a9a71978e84ebad8780bd80059fb.jpg
    图1-1 Kafka体系结构

Kafka体系结构中术语:
(1)Producer:生产者,也就是发送消息的一方。生产者负责创建消息,然后将其投递到Kafka中。
(2)Consumer:消费者,也就是接收消息的一方。消费者连接到Kafka上并接收消息,进而进行相应的业务逻辑处理。
(3)Broker:服务代理节点。对于Kafka而言,Broker可以简单地看作一个独立的Kafka服务节点或Kafka服务实例。一个或多个Broker组成了一个Kafka集群。
(4)Topic:主题,是一个逻辑上的概念,Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到Kafka集群中的每一条消息都要指定一个主题),而消费者负责订阅主题并进行消费。
(5)Partition:分区,也是一个逻辑上的概念。Topic 可以细分为多个分区,一个分区只属于单个主题。
(6)offset:偏移量,offset是消息在分区中的唯一标识,Kafka通过它来保证消息在分区内的顺序性,不过offset并不跨越分区,也就是说,Kafka保证的是分区有序而不是主题有序
如图 1-2 所示,主题中有 4 个分区,消息被顺序追加到每个分区日志文件的尾部。一个topic对应多个partition,partition分布在多broker上,多broker一起提供kafka服务。
3915a527f7835da879301cac03c6b5f.jpg
图1-2 消息追加写入
(7) Replica:多副本机制,Kafka 通过增加副本数量可以提升容灾能力。,副本之间是“一主多从”的关系。副本处于不同的broker中。

  • leader 副本:负责处理读写请求
  • follower 副本:负责与leader副本的消息同步

c2d058dcb945a412b66c502fea3c13f.jpg
图1-3 多副本架构
如图1-3所示,Kafka集群中有4个broker,某个主题中有3个分区,且副本因子(即副本个数)也为3,如此每个分区便有1个leader副本和2个follower副本。