Kafka 使用java api从指定位移消费（从开头消费/从结尾消费）-爱代码爱编程

2020-12-12 标签: 大数据 Kafka分类: Java 大数据 Kafka

一、auto.offset.reset值详解

在 Kafka 中，每当消费者组内的消费者查找不到所记录的消费位移或发生位移越界时，就会根据消费者客户端参数 auto.offset.reset 的配置来决定从何处开始进行消费，这个参数的默认值为 “latest” 。

auto.offset.reset 的值可以为 earliest、latest 和 none 。关于 earliest 和 latest 的解释，官方描述的太简单，各含义在真实情况如下所示：

earliest ：当各分区下存在已提交的 offset 时，从提交的 offset 开始消费；无提交的 offset 时，从头开始消费。
latest ：当各分区下存在已提交的 offset 时，从提交的 offset 开始消费；无提交的 offset 时，消费该分区下新产生的数据。
none ：topic 各分区都存在已提交的 offset 时，从 offset 后开始消费；只要有一个分区不存在已提交的offset，则抛出异常。

二、seek()方法

到目前为止，我们知道消息的拉取是根据 poll() 方法中的逻辑来处理的，这个 poll() 方法中的逻辑对于普通的开发人员而言是一个黑盒，无法精确地掌控其消费的具体位置。Kafka 提供的 auto.offset.reset 参数也只能在找不到消费位移或位移越界的情况下粗粒度地从开头或末尾开始消费。有的时候，我们需要一种更细粒度的掌控，可以让我们从指定的位移处开始拉取消息，而 KafkaConsumer 中的 seek() 方法正好提供了这个功能，让我们得以追前消费或回溯消费。seek() 方法的具体定义如下：

public void seek(TopicPartition partition, long offset)

seek() 方法中的参数 partition 表示分区，而 offset 参数用来指定从分区的哪个位置开始消费。seek() 方法只能重置消费者分配到的分区的消费位置，而分区的分配是在 poll() 方法的调用过程中实现的，也就是说，在执行 seek() 方法之前需要先执行一次 poll() 方法，等到分配到分区之后才可以重置消费位置。

如果对未分配的分区执行 seek() 方法，那么会报出 IllegalStateException 的异常。类似在调用 subscribe() 方法之后直接调用 seek() 方法，如下所示：

consumer.subscribe(Arrays.asList(TOPIC));
consumer.seek(new TopicPartition(TOPIC, 0), 80);

会报下述错误：
在这里插入图片描述

三、指定offset开始消费

接下来的代码示例讲述了消费各分区 offset 为 80（包括80）之后的消息：

Properties props = initConfig();
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Arrays.asList(TOPIC));

Set<TopicPartition> assignment = new HashSet<>();
// 在poll()方法内部执行分区分配逻辑，该循环确保分区已被分配。
// 当分区消息为0时进入此循环，如果不为0，则说明已经成功分配到了分区。
while (assignment.size() == 0) {
    consumer.poll(100);
    // assignment()方法是用来获取消费者所分配到的分区消息的
    // assignment的值为：topic-demo-3, topic-demo-0, topic-demo-2, topic-demo-1
    assignment = consumer.assignment();
}
System.out.println(assignment);

for (TopicPartition tp : assignment) {
    int offset = 80;
    System.out.println("分区 " + tp + " 从 " + offset + " 开始消费");
    consumer.seek(tp, offset);
}

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(1000);
    // 消费记录
    for (ConsumerRecord<String, String> record : records) {
        System.out.println(record.offset() + ":" + record.value() + ":" + record.partition());
    }
}

**注意：**假如某分区的前 100 条数据由于过期，导致被删除，那么此时如果使用 seek() 方法指定 offset 为 0 进行消费的话，是消费不到数据的。因为前 100 条数据已被删除，所以只能从 offset 为 100 ，来进行消费。

四、从分区开头或末尾开始消费

如果消费者组内的消费者在启动的时候能够找到消费位移，除非发生位移越界，否则 auto.offset.reset 参数不会奏效。此时如果想指定从开头或末尾开始消费，也需要 seek() 方法来实现。

如果按照第三节指定位移消费的话，就需要先获取每个分区的开头或末尾的 offset 了。可以使用 beginningOffsets() 和 endOffsets() 方法。

public Map beginningOffsets(Collection partitions)
public Map beginningOffsets(Collection partitions, long timeout)
public Map endOffsets(Collection partitions)
public Map endOffsets(Collection partitions, long timeout)

其中 partitions 参数表示分区集合，而 timeout 参数用来设置等待获取的超时时间。如果没有指定 timeout 的值，那么 timeout 的值由客户端参数 request.timeout.ms 来设置，默认为 30000 。

接下来通过示例展示如何从分区开头或末尾开始消费：

Set<TopicPartition> assignment = new HashSet<>();
// 在poll()方法内部执行分区分配逻辑，该循环确保分区已被分配。
// 当分区消息为0时进入此循环，如果不为0，则说明已经成功分配到了分区。
while (assignment.size() == 0) {
    consumer.poll(100);
    // assignment()方法是用来获取消费者所分配到的分区消息的
    // assignment的值为：topic-demo-3, topic-demo-0, topic-demo-2, topic-demo-1
    assignment = consumer.assignment();
}

// 指定分区从头消费
Map<TopicPartition, Long> beginOffsets = consumer.beginningOffsets(assignment);
for (TopicPartition tp : assignment) {
    Long offset = beginOffsets.get(tp);
    System.out.println("分区 " + tp + " 从 " + offset + " 开始消费");
    consumer.seek(tp, offset);
}

// 指定分区从末尾消费
Map<TopicPartition, Long> endOffsets = consumer.endOffsets(assignment);
for (TopicPartition tp : assignment) {
    Long offset = endOffsets.get(tp);
    System.out.println("分区 " + tp + " 从 " + offset + " 开始消费");
    consumer.seek(tp, offset);
}

// 再次执行poll()方法，消费拉取到的数据。
// ...(省略)

值得一说的是：

指定分区从头消费时，需要了解：一个分区的起始位置是 0 ，但并不代表每时每刻都为 0 ，因为日志清理的动作会清理旧的数据，所以分区的起始位置会自然而然地增加。
指定分区从末尾消费，需要了解：endOffsets() 方法获取的是将要写入最新消息的位置。

其实，KafkaConsumer 中直接提供了 seekToBeginning() 和 seekToEnd() 方法来实现上述功能。具体定义如下：

public void seekToBeginning(Collection partitions)
public void seekToEnd(Collection partitions)

例如使用

consumer.seekToBeginning(assignment);

直接可以代替

Map<TopicPartition, Long> beginOffsets = consumer.beginningOffsets(assignment);
for (TopicPartition tp : assignment) {
    Long offset = beginOffsets.get(tp);
    System.out.println("分区 " + tp + " 从 " + offset + " 开始消费");
    consumer.seek(tp, offset);
}

五、根据时间戳消费

有时候我并不知道特定的消费位置，却知道一个相关的时间点。比如我想要消费某个时间点之后的消息，这个需求更符合正常的思维逻辑。这时，我们可以用 offsetsForTimes() 方法，来获得符合筛选条件的 offset ，然后再结合 seek() 方法来消费指定数据。offsetsForTimes() 方法如下所示：

public Map<TopicPartition, OffsetAndTimestamp> offsetsForTimes(Map<TopicPartition, Long> timestampsToSearch)

offsetsForTimes() 方法的参数 timestampsToSearch 是一个 Map 类型，其中 key 为待查询的分区，value 为待查询的时间戳，该方法会返回时间戳大于等于查询时间的第一条消息对应的 offset 和 timestamp 。

接下来就以消费当前时间前一天之后的消息为例，代码片段如下所示：

Set<TopicPartition> assignment = new HashSet<>();
// 在poll()方法内部执行分区分配逻辑，该循环确保分区已被分配。
// 当分区消息为0时进入此循环，如果不为0，则说明已经成功分配到了分区。
while (assignment.size() == 0) {
    consumer.poll(100);
    // assignment()方法是用来获取消费者所分配到的分区消息的
    // assignment的值为：topic-demo-3, topic-demo-0, topic-demo-2, topic-demo-1
    assignment = consumer.assignment();
}

Map<TopicPartition, Long> timestampToSearch = new HashMap<>();
for (TopicPartition tp : assignment) {
    // 设置查询分区时间戳的条件：获取当前时间前一天之后的消息
    timestampToSearch.put(tp, System.currentTimeMillis() - 24 * 3600 * 1000);
}

// timestampToSearch的值为{topic-demo-0=1563709541899, topic-demo-2=1563709541899, topic-demo-1=1563709541899}
Map<TopicPartition, OffsetAndTimestamp> offsets = consumer.offsetsForTimes(timestampToSearch);

for(TopicPartition tp: assignment){
    // 获取该分区的offset以及timestamp
    OffsetAndTimestamp offsetAndTimestamp = offsets.get(tp);
    // 如果offsetAndTimestamp不为null，则证明当前分区有符合时间戳条件的消息
    if (offsetAndTimestamp != null) {
        consumer.seek(tp, offsetAndTimestamp.offset());
    }
}

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(1000);

    System.out.println("##############################");
    System.out.println(records.count());

    // 消费记录
    for (ConsumerRecord<String, String> record : records) {
        System.out.println(record.offset() + ":" + record.value() + ":" + record.partition() + ":" + record.timestamp());
    }
}

六、总结
本文内容主要讲解了消费者如何指定位移消费，主要从以下几方面入手：

讲解了 auto.offset.reset 参数值的含义。
如何使用 seek() 方法指定 offset 消费。
接着又介绍了如何从分区开头或末尾消费消息：beginningOffsets()、endOffsets()、seekToBeginning、seekToEnd() 方法。
最后又介绍了如何根据时间戳来消费指定消息，更加务实一些。

即使消息已被提交，但我们依然可以使用 seek() 方法来消费符合一些条件的消息，这样为消息的消费提供了很大的灵活性。

ChaosBlade使用之CPU爆满-爱代码爱编程

2020-12-12 标签: 大数据分类: 混沌工程

场景一：服务器CPU爆满原理 ChaosBlade让自己去占满CPU从而使服务器的CPU爆满准备使用前查看CPU $ top 故障演练 $ ./blade create cpu fullload Note: 把id复制下来验证 $ top 场景恢复：取消CPU爆满 $ ./blade destroy ID

矩阵的卷积操作——卷积神经网络的基础-爱代码爱编程

2020-12-12 标签: python 大数据算法卷积神经网络分类: python

矩阵的卷积操作——卷积神经网络的基础看似高大上的神经网络算法，基础算法其实相当简单！谁都能学会，帮助你理解卷积神经网络！！背景了解 1.卷积指的是两个变量在范围内相乘然后求和的结果。 2.对矩阵进行卷积则是两个矩阵点乘后加和的结果。卷积神经网络 1 . 顾名思义就是加入卷积层的神经网络算法（除此以外还有一个池化层，后续会继续讲解） 2.卷积神

ChaosBlade安装教程-爱代码爱编程

2020-12-12 标签: 大数据分类: 混沌工程

背景知识 ChaosBlade 是阿里巴巴开源的一款遵循混沌工程原理和混沌实验模型的实验注入工具。更多详细内容可访问ChaosBlade官网。 ChaosBlade安装教程 Docker Download image： $ docker pull registry.cn-hangzhou.aliyuncs.com/chaosblade/chaos

闲鱼上哪些商品抢手？Python 分析后告诉你!-爱代码爱编程

2020-12-12 标签: python 人工智能大数据数据分析分类: python

1 目标场景经常看到有朋友在闲鱼卖些小东西又或是自己擅长的一些技能，都能为他们带来不错的睡后收入。闲鱼上大量的商品，很难精准判断哪些受欢迎，哪些好卖；一个个录入数据去做数据分析，浪费时间的同时，效率也极其的低效。本篇文章的目的是利用 Python 自动化来获取某类商品中最好卖的商品以供参考。 ps：本文仅限用于技术交流，请勿用于其

闲鱼上哪些商品抢手？Python 分析后告诉你!-爱代码爱编程

2020-12-12 标签: python 人工智能大数据数据分析分类: python

1 目标场景经常看到有朋友在闲鱼卖些小东西又或是自己擅长的一些技能，都能为他们带来不错的睡后收入。闲鱼上大量的商品，很难精准判断哪些受欢迎，哪些好卖；一个个录入数据去做数据分析，浪费时间的同时，效率也极其的低效。本篇文章的目的是利用 Python 自动化来获取某类商品中最好卖的商品以供参考。 ps：本文仅限用于技术交流，请勿用于其

ChaosBlade使用之指定内存占用-爱代码爱编程

2020-12-12 标签: 大数据分类: 混沌工程

场景一：内存占用原理 Ram 模式采用代码申请内存实现 cache 模式采用 dd、mount 命令实现，挂载 tmpfs 并且进行文件填充。准备使用前查看内存使用情况 $ top 故障演练执行内存占用 50% $./blade c mem load --mode ram --mem-percent 50 查看内存使用 $

kafka原理解析之-高性能内幕-爱代码爱编程

2020-12-12 标签: 网络 apache Kafka 服务器分类: 高并发 Kafka 高性能

一、日志持久化设计 1. partition的持久化队列结构：数据按先后顺序依次追加在文件末尾，读写操作分开，如下图所示。这种结构有如下优势：所有的操作复杂度都是O(1)，读操作不会阻塞写操作，读操作之间也不会互相影响。由于性能和数据大小完全分离开来——服务器现在可以充分利用大量廉价、低转速的1+TB SATA硬盘，通过顺序写的方式追加数据。

kafka原理解析之-整体架构-爱代码爱编程

2020-12-12 标签: Java Kafka分类: 架构分布式

kafka整体架构先上一个整体架构图，如下图。图一：集群整体架构，P代表partition的leader, r代表partition的follower 对各个组件说明如下： Broker： Kafka服务器节点就是被称为Broker，Broker主要负责创建并存储Topic，存储Producer所发布的消息，记录消息处理的过程，现是将消息保存到

从小白的角度讲解kafka并使用java、python_API-爱代码爱编程

2020-12-12 标签: Kafka分类: 大数据

目录 1. 什么是kafka 1.1 基本概述 1.2 深度讲解 2. kafka的安全机制 3. python_API 3.1 作为生产者连接kafka并发送数据 1. 什么是kafka 1.1 基本概述提前说明，以下主要涉及kafka、topic、partition、broker、offset、replica、leader、foll

kafka原理解析之-消息交付语义-爱代码爱编程

2020-12-12 标签: Kafka分类: Kafka 事务

消息交付语义 kafka消息交付语义假设存在完美无缺的 broker，从producer 和 consumer 角度讨论数据保证机制，主要表现重试生产消息或重新消费消息（可能是不同的消费实例）时的情况。 Kafka提供了三种消息交付语义，如下。 At most once——消息可能会丢失但绝不重传。At least once——消息可以重传但绝不丢

windows上安装zookeeper、kafka （问题汇总）-爱代码爱编程

2020-12-12 标签: linux windows zookeeper Kafka分类: 大数据

windows上安装zookeeper、kafka （问题汇总） Yi. Zookeeper启动时端口被占用Er. Kfaka启动报错San. 解决启动zookeeper时Could not find or Load main class org.apache.zookeeper.server.quorum. QuorumPeerMain的报错

MQ学习——解决高可用、消息重复、消息丢失、消息顺序错乱、消息积压问题-爱代码爱编程

2020-12-13 标签: rabbitmq Kafka 消息队列分类: mq学习

本文是最近看儒猿技术窝视频做的一些笔记高可用面试题：如何保证消息队列的高可用？ RabbitMQ的高可用 RabbitMQ有三种模式：单机模式、普通集群模式、镜像集群模式。 kafka的高可用消息重复面试题：如何保证消息不被重复消费（如何保证消息消费时的幂等性）？消息丢失面试题：如何保证消息的可靠性传输（如何处理

Kafka 使用java api从指定位移消费 （从开头消费/从结尾消费）-爱代码爱编程

一、auto.offset.reset值详解

二、seek()方法

三、指定offset开始消费

四、从分区开头或末尾开始消费

五、根据时间戳消费

Kafka 使用java api从指定位移消费（从开头消费/从结尾消费）-爱代码爱编程