kafka减少副本数-分会游戏

钟逸 70 2024-04-23 09:00:10

2020-11-16-Kafka-3(面试题)

谈谈你对Kafka幂等性的理解？Producer的幂等性指的是当发送同一条消息时，数据在Server端只会被持久化一次，数据不丢不重，但是这里的幂等性是有条件的：Kafka是在0.11版本开始引入了事务支持。

深入解析Kafka面试题库，涵盖核心概念、实战技巧与常见问题，助你从容应对面试挑战。核心要点：分区机制与消费状态：理解分区的整数offset，它是Kafka维护消费者消费进度的关键，支持简单重消费。

一）消费者和消费者组消费者：订阅并消费kafka消息，从属于消费者组消费者组：一个群组里的消费者订阅的是同一个主题，每个消费者接受主题一部分分区的消息。

Docker 使用 Dockerfile 中的指令自动构建镜像。我们可以 docker build 用来创建按顺序执行多个命令行指令的自动构建。一些最常用的指令如下：Docker Compose 在继续下一个容器之前不会等待容器准备就绪。

1、kafka是一个分布式的、支持分区的（partition ）、多副本的（replica ），基于 zookeeper 协调的分布式消息系统。

2、kafka在消费端也有着高吞吐量，由于kafka是将数据写入到页缓存中，同时由于读写相间的间隔并不大，很大可能性会在缓存中命中，从而保证高吞吐量。

3、Producer是Kafka中的消息生产者，主要用于生产带有特定Topic的消息，生产者生产的消息通过Topic进行归类，保存在Kafka 集群的Broker上，具体的是保存在指定的partition 的目录下，以Segment的方式（.log文件和.index文件）进行存储。

4、kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition， consumer group 对partition进行consume操作。

5、在 LinkedIn 公司，Kafka 可以有效地处理每天数十亿条消息的指标和用户活动跟踪，其强大的处理能力，已经被业界所认可，并成为大数据流水线的首选技术。

6、kafka 内部提供了两种日志清理策略。按照一定的保留策略直接删除不符合条件的日志分段。我们可以通过 broker 端参数 log.cleanup.policy 来设置日志清理策略，此参数的默认值为“delete”，即采用日志删除的清理策略。

1、kafka在消费端也有着高吞吐量，由于kafka是将数据写入到页缓存中，同时由于读写相间的间隔并不大，很大可能性会在缓存中命中，从而保证高吞吐量。

2、Kafka 的副本机制是多个服务端节点对其他节点的主题分区的日志进行复制。当集群中的某个节点出现故障，访问故障节点的请求会被转移到其他正常节点（这一过程通常叫 Reblance）。

3、Kafka是一个消息系统，原本开发自LinkedIn，用作LinkedIn的活动流数据（ActivityStream）和运营数据处理管道（Pipeline）的基础。现在它已被多家公司作为多种类型的数据管道和消息系统使用。

实际项目中我们可能在创建topic时没有设置好正确的replication-factor，导致kafka集群虽然是高可用的，但是该topic在有broker宕机时，可能发生无法使用的情况。

默认情况下Kafka对应的topic的replica数量为1，即每个partition都有一个唯一的leader，为了确保消息的可靠性，通常应用中将其值（由broker的参数offsets.topic.replication.factor指定）大小设置为大于1，比如3。

kafka 副本设置大于节点数，虽然是高可用的，但是该topic在有broker宕机时，可能发生无法使用的情况。topic一旦使用又不能轻易删除重建，因此动态增加副本因子就成为最终的选择。