代码编织梦想

format,png

点击上方蓝色“大数据实战演练”,选择“设为星标”或“置顶”

回复“资源”领取独家整理的学习资料!

format,png

每一个成功人士的背后,必定曾经做出过勇敢而又孤独的决定。

放弃不难,但坚持很酷~

前言

对于从事大数据相关职位的朋友们来说,使用 kafka 的频率应该不会少。为了解决各位在操作 kafka 时记不住命令参数的痛点,所以我整理了一下在我工作中经常用到的 kafka 实操命令,希望各位看官能够喜欢。

kafka版本:2.11-1.1.0

一、kafka shell 命令行汇总

1、查看当前的集群Topic列表

./bin/kafka-topics.sh --list --zookeeper cdh-worker-1:2181/kafka

2、查看所有的Topic的详细信息

./bin/kafka-topics.sh --describe --zookeeper cdh-worker-1:2181/kafka

如果要查看单个 topic 信息:可在上述命令后面添加 --topic <topicName>

3、创建Topic

./bin/kafka-topics.sh --create --zookeeper cdh-worker-1:2181/kafka --replication-factor 3 --partitions 1 --topic test-topic

4、删除Topic

删除 topic 之前,需要确保配置 delete.topic.enable=true 。

./bin/kafka-topics.sh --delete --zookeeper cdh-worker-1:2181/kafka --topic topic-demo
Topic topic-demo is marked for deletion.
Note: This will have no impact if delete.topic.enable is not set to true.

执行完命令后,查看 log.dirs 指定的文件目录,会发现 topic-demo 的文件夹都被标记为 delete ,如下图所示。

format,png

等一定的时间(根据 log.retention.check.interval.ms 配置而定,hdp 版本默认为 60s)后,被标记为 delete 的文件则会被移除。

5、生产数据

./bin/kafka-console-producer.sh --broker-list kafka-1:9092 --topic test-topic
> This is a messageThis is another message

6、消费数据

./bin/kafka-console-consumer.sh --bootstrap-server kafka-1:9092 --topic test-topic --from-beginning

--from-beginning 表示从最初的未过期的 offset 处开始消费数据。不加该参数,表示从最新 offset 处开始消费数据。

7、查询topic的offect范围

查询offect的最小值:

./bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list kafka-1:9092 -topic test-topic --time -2
# 输出
test-topic:0:0

查询offect的最大值:

./bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list 192.168.78.184:9092 -topic test-topic [--time -1]
# 输出
test-topic:0:655

从上面的输出可以看出 test-topic 只有一个 Partition:0;offset 的范围是【0,655】。

8、增加分区

将分区数增加到 3 个:

./bin/kafka-topics.sh --alter --zookeeper cdh-worker-1:2181/kafka --topic test-topic --partitions 3

如果需要重新分布 kafka 分区以及增加分区副本数,可以参考:《必会 | 教你如何重新分布kafka分区、增加分区副本数》

9、均衡 kafka 的 leader 副本

可以参考我之前写的干货文章:《kafka 如何对 topic 分区 replica leader 进行负载均衡》

10、查看消费组

./bin/kafka-consumer-groups.sh --bootstrap-server kafka-1:9092 --list

查看指定消费组的详情(比如消费进度 LAG ),这里的消费者组名为 console-consumer-3665 :

./bin/kafka-consumer-groups.sh --bootstrap-server kafka-1:9092 --group console-consumer-3665  --describe

11、指定 partition 和 offset 消费

./bin/kafka-console-consumer.sh --bootstrap-server kafka-1:9092 --topic test-topic --partition 0 --offset 1663520

12、从__consumer_offsets主题查找某个group的偏移量

1)计算 group.id 对应的 partition

__consumer_offsets 默认有 50 个 partition ,需要先计算 group.id 对应的 partition ,计算公式如下所示:

# 计算公式
Math.abs(groupid.hashCode()) % numPartitions
# 实例,groupid 为 console-consumer-3665,numPartitions 是 50。
Math.abs("console-consumer-3665".hashCode()) % 50
# 得到的数字,就是你消费者组对应的 partition 。

2)消费分区

找到 partition 后,就可以消费指定分区了:

./bin/kafka-console-consumer.sh \
--bootstrap-server kafka-1:9092 \
--topic __consumer_offsets \
--formatter "kafka.coordinator.group.GroupMetadataManager\$OffsetsMessageFormatter" \
--partition 17 | grep xxx

注意事项

在 kafka 0.11.0.0 版本之前 --formatter 需要使用 kafka.coordinator.GroupMetadataManager\$OffsetsMessageFormatter,0.11.0.0 版本以后(含)使用上面脚本中使用的 Class 。

13、为 topic 设置单独配置

为 test-topic 设置某配置参数。

./bin/kafka-configs.sh --zookeeper cdh-worker-1:2181/kafka  --entity-type topics --entity-name test-topic --alter --add-config max.message.bytes=10485760 

查看这个 topic 设置的参数:

./bin/kafka-configs.sh --zookeeper cdh-worker-1:2181/kafka  --entity-type topics --entity-name test-topic --describe 

14、查看 kafla 数据 xxx.log 日志

./bin/kafka-run-class.sh kafka.tools.DumpLogSegments --files /data/kafka_data/logs/test-0/00000000000001049942.log --print-data-log --deep-iteration > secLog.log

二、小结

上面是我一直以来积累的 kafka 常用命令,挺齐全的了。指定 partition 和 offset 消费数据、查看消费者组消费情况,查看消费者组的提交 offset 信息,增加分区、均衡分区、增加分区副本数、均衡 leader 副本等等。

为了解决各位在操作 kafka 时记不住命令参数的痛点,所以贴心的我整理了一下在我工作中经常用到的 kafka 实操命令,希望各位看官能够喜欢。觉得有用的如果给个点赞好看就再好不过了。

format,png

欢迎大家留言讨论

???? ???? ????

往期推荐

解惑 | kafka集群三节点下,挂掉一个节点,为什么消费者消费不到数据了

kafka 如何对 topic 分区 replica leader 进行负载均衡

必会 | 教你如何重新分布kafka分区、增加分区副本数

解惑 | 为什么我根据时间戳获得的offset为空呢?

实操 | kafka如何手动异步提交offset

两种实现方式 | 如何查看消费者组的消费情况

Kafka基础(二):生产者相关知识汇总

Kafka基础(一):基本概念及生产者、消费者示例

扫一扫,我们的故事就开始了。

format,png

如果这篇文章对你有所启发,点赞、转发都是一种支持!

另外公众号改变了推送规则,大家看文章不要忘记点击最下方的在看,点赞按钮,这样微信自动识别为常看公众号,否则很可能推送的文章可能淹没在别的文章找不到,谢谢大家

让我知道你在看

format,png

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/CREATE_17/article/details/111056108

自动驾驶中车辆的如何使用点云定位?-爱代码爱编程

点云PCL免费知识星球,点云论文速读。 标题:Review on 3D Lidar Localization for Autonomous Driving Cars 作者:Mahdi Elhousni and Xinming Huang 翻译:particle 欢迎各位加入免费知识星球,获取PDF文档,欢迎转发朋友圈,分享快乐。 激光雷达传

这样描述机器学习太实在-爱代码爱编程

当你募集资金的时候,这属于人工智能 当你在招聘时,这属于机器学习 当你执行时,这属于线性回归 调试时,这属于printf() 机器学习与人工智能、深度学习等关系 机器学习一词往往和人工智能与深度学习混用,从这三者提出的时间来看,人工智能(AI,Artificial Intelligence)诞生于二十世纪五十年代,机器学习(ML, Mach

安排,全栈分布式微服务媒资管理系统(视频、代码)-爱代码爱编程

来源: 来自网络,如侵权请告知博主删除????。 仅学习使用,请勿用于其他~  最近有小伙伴管我要分布式这类的项目,还有问我还有没有前后端分离的项目,还有些问我有没有微服务的,今天找的资源一下子都满足了,大家可以自己看目录,代码、讲义、资料、视频都很齐全,从前端到后端渐进式讲解,总之一个字,牛,即使现在不需要也可以收藏起来。 大家需要什么资源可

企业上市关注的股权结构问题-爱代码爱编程

导读:在企业挂牌上市的过程中,关联交易、同业竞争、主体资格、税收等问题是证监会和股转系统关注的重点问题。 而这些问题的共同点在于和公司的股权结构有关系,公司的股权结构决定了这些典型问题会不会成为挂牌上市的拦路虎。 那企业要从哪些方面规划和设计自己的股权结构才能更有利于创始人/控股股东有效的控制公司?哪一种种股权结构更能得到资本市场的认可

一文读懂大数据仓库建设-爱代码爱编程

从传统数仓到大数据平台,MPP数据集市,Hadoop集群,还有混合架构数仓,一直在不断演进,但是万变不离其宗,大框架和方法论终归是那一套。所以本文就来分享数仓建设的方法论,文中针对的例子是大数据环境下的数据仓库建设,从目前互联网行业数据的采集,存储,同步以及任务调度与监控方面阐述了相关技术,还专门针对数据仓库的维度建模技术做了详细的介绍。 先从

2020中国大数据产业发展白皮书 附下载地址-爱代码爱编程

在全球信息化快速发展的大背景下,大数据已成为国家重要的基础性战略资源,正引领新一轮科技创新,推动经济转型发展。紧密围绕数据资源开展的基础设施建设、 数据集聚整合、数据分析处理、数据开放共享和数据安全, 铸就了大数据产业发展的核心要素。 这些要素所构筑的“内层齿轮”的转动直接带动了“外层齿轮”——大数据融合应用的蓬勃发展,衍生出政府大数据、互联网

做科研不得不学习的知识和技术的摇篮-爱代码爱编程

微生物组领域快速发展,同时也涌现出一批高质量的原创分享者,无私地分享宝贵的经验,为同行提供中文学习资源! 通过我近三年来的观察及统计,发现有这些长期保持更新的高质量公众号,在我的朋友圈出镜率最高!他们有着高质量的原创文章,号主也都是经常发表高水平文章的同行佼佼者。今整理出来分享给大家,定能助力您快速增长科研技能,多发表Top Papers!

基于Salmon的转录组批量定量流程和差异分析-爱代码爱编程

继续前文:基于Salmon的转录组定量流程 循环定量多个样品的表达量 整理样本信息表,命名为sampleFile,内容如下: Samp conditions individual untrt_N61311 untrt N61311 untrt_N052611 untrt N052611 untrt_N0806

推荐 5 款好用的REST API工具-爱代码爱编程

点击上方蓝色字体,选择“标星公众号” 优质文章,第一时间送达 关注公众号后台回复pay或mall获取实战项目资料+视频 作者 | Marta Krzyk    译者 | 王强      策划 | 小智 市面上可用的 REST API 工具选项有很多,我们来看看其中一些开发人员最喜欢的工具。 1API 定义 Swagger Editor

H5如何实现电子签名并生成PDF文档的?-爱代码爱编程

作者:coyota666 来源:https://juejin.cn/post/6901273585428463624 前言 电子签名通俗来说就是通过技术手段实现在电子文档上加载电子形式的签名,其作用类似于纸质合同上的手写签名或加盖的公章。虽然电子签名多年来合法性一直遭到质疑,但其在企业工作流审批、请柬、单据保全等场景应用广泛,最近的

你知道我国一共赠送了多少只熊猫给外国吗?来看看这个数据可视化项目-爱代码爱编程

大熊猫是我国的特有物种,1983年以前,大熊猫作为外交友谊的象征被赠送给其他国家。1983年和1991年,我国政府两次修改政策。现在,中国境外的动物园可以将大熊猫成对借出,借期10年。因此,所有外借的大熊猫在外借到期后都需要归还。在借出期间出生的幼仔也属于中国。小熊猫需要在四岁前归还,以便进行繁殖计划,扩大基因库。下面这个数据可视化展现了我国租借给外国动物

关于推特30天地图挑战全部7.6k+图片的颜色可视化-爱代码爱编程

「李子柒130个视频1万图片5万颜色数据可视化的背后,是古柳三年的念念不忘」 上篇文章古柳写了下关于念念不忘三年的颜色可视化的超长文,整个流程涉及: python 爬b站 api 李子柒数据、搭配 you-get 下载视频、ffmpeg 批量视频抽帧、node.js get-image-colors 模块抽图片颜色,d3.js 颜色可视化。 后来发现文