卡夫卡能保证秩序吗?——《奇妙的工程》

业务以消息和事件的形式消费和生成大量数据。因此，秩序是必不可少的。它们需要保证以相同的顺序转发和接收消息。缺乏事件排序可能会影响通信，导致操作失败，代价可能非常高昂。幸运的是，Kafka系统通过保证秩序解决了这个挑战。在本文中，我们将学习Kafka如何保证交付订单、消息排序以及它的整体可靠性。让我们深入研究一些你会问自己的问题，卡夫卡是否有能力保证消息的秩序。

Kafka能保证送货单吗?

我们选择卡夫卡来管理不同的原因之一apache Kafka用例数据是其交付订单的保证。Kafka系统分区将允许我们创建一个智能结构，允许记录发生的事件。这样，客户将按照预期的顺序读取事件。

Kafka如何保证交付订单?

Apache Kafka中的分区系统对于创建一个便于事件排序的系统至关重要。Kafka使用的键允许我们根据相同的键对所有事件进行排序。这在交货顺序上很方便。如果不更改现有分区号，交付顺序将保持不变。在对事件进行排序时，我们必须考虑是否希望数据系统进行全局排序，还是必须将顺序划分为更小的位，以承担不同的部分。

例如，如果我们正在运行一个在线销售产品的apache Kafka用例，我们需要一个购物车，允许个人在购买之前添加商品。但是由于系统中的所有购物车都可能携带不相关的产品，我们可以对系统进行分区，以允许每个区域的个人拥有购物车。例如，使用不同的购物车来存放电子产品、食品和服务。Kafka通过它的分区系统来实现这一切。

卡夫卡能传达两次相同的信息吗?

对这个问题的快速回答是否定的。Kafka有一个“精确一次保证”，以确保消息只被处理一次。Apache Kafka进一步引入了Kafka事务特性，以加强避免重复性的需求。当我们正在处理的数据被写入另一个Kafka主题时，Kafka事务特性就变得非常重要。

这里有一个基本的例子。如果我们在Kafka主题上写一个或多个消息，事务将分布在所有主题上。写入时，只有当生产者写入提交标记时，事务才会结束。使用者需要一个提交标记来访问和读取消息。只有当提交标记出现时才会处理这些消息。因此，设置“恰好一次保证”可以启用消费者端的交易特性，同时激活我端的幂等生产者特性。这些特性确保使用者只能读取带有提交标记的消息，从而减少了两面性。

卡夫卡传递的信息会消失吗?

尽管Kafka的可靠性很高，但它也不能避免数据丢失。但许多数据丢失的挑战都归结于实现。如果我们把我的Kafka系统设置得很差，它就不能提供最大的好处来保护我们不受数据丢失的影响。尽管使用了Apache Kafka，仍然可能导致系统丢失数据的一些变量包括数据偏移量以及消费者配置错误。

数据偏移量本质上是指一个给定数据块与另一个数据块相比的位置。它们是我们在使用Apache Kafka时丢失数据的主要原因。如果在使用数据时将当前数据发送给代理，则会出现此问题。在本例中，假设我们有数据Y和Z，两者都在进行并行处理。假设Z的处理是成功的，并且提交了偏移量，但是Y的处理失败，并发生错误。因为Z有一个更大的偏移量，Kafka保存了最新的偏移量，但Y的结果永远不会返回。就这样，Y的数据集就丢失了。

我们在Kafka系统中丢失数据的第二个原因是我们的错误。当系统的执行做得不好时，对系统进行适当配置的失败是很高的。如果我们没有正确地构建系统，或者因为我们用来访问和处理Kafka数据的应用程序存在技术问题，就会出现这种情况。

卡夫卡是否保证它会保留产生事件的顺序?

是的，确实如此。我们喜欢卡夫卡的一个原因是，它可以确保我们所有的事件都按照严格的顺序安排。如果我们必须确保Kafka使用的事件的顺序被保留，我们只需要对系统进行适当的分区。例如，我们必须将与一个主题相关的所有事件排列在一起;我们将使用一个分区。但是为了获得更高的吞吐量，Kafka需要使用多个分区。使用Kafka时，事件的顺序很重要。我们需要以给定的方式对记录进行排序，以避免数据不一致。

卡夫卡能保证信息的顺序吗?

是的，Kafka保证了消息的顺序。要做到这一点，唯一需要注意的是，所涉及的消息应该位于同一个分区中。我们发现保持消息顺序的需求是实体和apache Kafka用例的一个关键方面。例如，如果我们正在从事一个特定的商业项目，其中通信依赖于Kafka，那么正确的顺序消息就变得很重要。跟踪事件的通信和发生顺序变得更加容易。如果消息中没有顺序，那么项目的执行将面临失败的风险。以错误的顺序消费消息可能导致在错误的时间以错误的操作顺序执行项目任务。但是由于Kafka的分区特性，可以很容易地确保以特定顺序从源发送的消息将以相同的顺序到达我，反之亦然。

但重要的是，在处理单个分区时，消息的排序变得容易且可行。如果我们使用三个或更多分区，同样的保证就变得更具挑战性。多分区仍然允许消息排序，但与单分区相比，在配置Kafka保证方面面临更大的挑战。

Kafka是100%可靠的吗?

Kafka已被证明是一个高度可靠的系统，但达到100%是不太可能的。Kafka通过其高可用性和容错性来展示其可靠性。Kafka在分区级复制数据，并将它们存储在不同的代理上。当一个代理脱机或发生故障时，数据仍然可以被消费者访问，因为它有许多副本。这就是我们避免使用单一代理集群的原因。

Kafka的弹性是另一个使其可靠的特性，尤其是对企业而言。计划外停机和数据泄露是企业无法承受的问题。对这些公司来说，收入损失和声誉损失的数额太大了。因此，卡夫卡的适应力使它变得至关重要。存储在这些系统上的数据不会被破坏。

即便如此，Kafka的设计也不能有效地支持云中的高可靠性数据流服务。使用最佳实践在云中部署Kafka可能不会提高其可靠性。系统可能会受到基础设施故障、网络问题和维护活动(如错误修复)引起的错误的阻碍。

如果我们依赖于“最多一次保证”，即消息处理一次或永远不处理，则必须对数据的接收者和我们都进行配置。在发送消息时，使用者必须在处理开始之前提交它。如果使用者没有这样做，系统将丢失所有未处理的消息，因为它们已经从源提交。

Kafka如何处理交付失败?

Kafka主要使用三种方法来处理交付失败:

快速失败——这是处理交付失败的默认方法。Apache Kafka停止并将应用程序标记为不健康。当消息传输被阻塞时，系统会自动检测到故障。快速故障允许应用程序停止并重新启动进程。
忽略——这种处理失败的策略不同于快速失败，因为它允许处理在失败后继续进行。这就好像系统对错误闭上了“眼睛”，并假设没有故障。因此，当一条消息没有被确认时，系统继续处理下一条消息，就好像错误不存在一样。我不能建议您使用这种策略，除非您不需要处理所有消息，或者您的应用程序可以在内部处理该过程。
死信队列——这是Kafka上另一个帮助处理消息处理失败的模式。对于这种策略，系统会将失败的事件发送到另一个Kafka主题进行重新处理。最终，一长串失败事件被存储在给定的目标中。然后管理员查看失效事件，并选择跳过或重试处理它们。

卡夫卡是先进先出还是后进先出?

Apache Kafka系统处理海量消息流。消息流以FIFO (first-in-first-out)格式存储。但我们应该知道，只有在存在分区的情况下，FIFO才能得到保证。

结论

我们必须承认，在分布式环境中对事件进行排序是一个没有人或实体喜欢的挑战。Apache Kafka，通过分区，使这成为一个可行的任务。分区允许按照发送的顺序写入事件和消息。此策略确保接收方将以相同的顺序使用消息。因此，Kafka解决了如果事件顺序被篡改而产生的交流问题。

此外，我们注意到，尽管Kafka的可靠性很高，但它不能确保对数据丢失的100%保护。许多导致数据丢失的技术问题都是由于错误配置问题造成的。即便如此，系统仍使用快速故障、忽略和死信队列方法处理其交付失败。