Kafka 的日志清理策略:delete 和 compact

Kafka delete 日志清理策略(日志删除)

  • 原理:按照一定保留策略,直接删除不符合条件的日志分段。Kafka 把 topic 的一个 partition 大文件分成多个小文件段,通过这种方式,能方便地定期清除或删除已消费完的文件,以减少磁盘占用 。
  • 保留策略
    • 按时间删除:设定一个时间阈值,删除修改时间在该时间之前的日志。比如设置log.retention.hours = 1 ,就表示只保存 1 小时内的日志,超出 1 小时的日志分段会被删除。
    • 按大小删除:指定一个数据大小阈值,当日志数据超过这个大小时,执行删除操作,保留最后的指定大小数据。例如log.retention.bytes = 1073741824 (即 1GB ),表示日志数据超过 1GB 时,会删除旧的消息。
  • 相关参数
    • log.cleanup.policy = delete :启用删除策略。
    • log.retention.check.interval.ms :专门的日志删除任务周期性检测的时间间隔,默认 300000ms(5 分钟 ),即每隔 5 分钟检查一次是否有符合删除条件的日志分段 。
    • log.retention.hours :按时间清理时,指定日志保留的小时数 。
    • log.retention.bytes :按大小清理时,指定日志保留的字节数 。需注意log.retention.byteslog.retention.hours任意一个达到要求,都会执行删除操作,且会被 topic 创建时的指定参数覆盖 。

Kafka compact 日志清理策略(日志压缩)

  • 原理:针对每个消息的 key 进行整合,对于有相同 key 的不同 value 值,只保留最后一个版本 。就像在一个记录集合里,相同标识(key )的记录,只留下最新的那条 。比如一个 key 对应的值先后为 “值 1”“值 2”“值 3” ,经过日志压缩后,只会保留 “值 3” 。清理重复 key 后,一些 segment 文件大小会变小,Kafka 会将小文件再合并成大的 segment 文件 。
  • 特殊处理:当某个 key 的最新版本消息没有内容(value 为 null )时,这个 key 将被删除,这类消息被称为 “墓碑消息(tombstone )” 。墓碑消息的存放时间和 broker 的配置log.cleaner.delete.retention.ms有关,默认值是 24 小时 。在执行日志清理时,会删除到期的墓碑消息 。
  • 清理流程
    • 对于每个 Kafka partition 的日志,以 segment 为单位,分为已清理和未清理部分,未清理部分又细分为可清理和不可清理的。
    • 每个日志目录下有cleaner - offset - checkpoint文件记录清理进度。
    • 找出可清理的 segment(active segment 不能清理,根据min.compaction.lag.ms配置判断其他 segment 是否能清理 ,即判断 segment 最后一条记录的插入时间是否超过最小保留时间 )。
    • 构建 SkimpyOffsetMap 对象(key 与 offset 的映射哈希表 ),遍历可清理 segment 的每条日志,将 key 和 offset 存入其中。
    • 再遍历已清理和可清理部分的 segment 日志,根据 SkimpyOffsetMap 判断是否保留日志 。
    • 执行清理操作,将可清理部分的 segment 变为已清理的,同时更新 cleaner checkpoint 记录的 offset 。
  • 相关参数
    • log.cleaner.enable = true :开启日志压缩功能。
    • log.cleanup.policy = compact :启用日志压缩策略 。
    • min.compaction.lag.ms :设置日志段中消息可被压缩的最小时间间隔 ,确保消息存留一定时间后才可能被清理 。
    • log.cleaner.delete.retention.ms :墓碑消息的保留时长 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/81274.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go语言中常量的命名规则详解

1. 常量的基本命名规则 1.1. 命名格式 1. 使用const关键字声明; 2. 命名格式:const 常量名 [类型] 值; 3. 类型可以省略,由编译器推断; 1.2. 命名风格 大小写规则: 1. 首字母大写:导出常…

22、web场景-web开发简介

22、web场景-web开发简介 Web开发是指创建和维护在互联网上运行的网站和应用程序的过程。它涉及多个技术领域,包括前端开发、后端开发和数据库管理,共同实现网站的功能和用户体验。 ### 一、Web开发的基本概念 #### 1. **Web应用程序** - **狭义上**&am…

Structured Query Language(SQL)它到底是什么?

Structured Query Language(SQL) 的中文意思是 “结构化查询语言”,它是一种专门用于管理和操作关系型数据库的标准化编程语言。以下是其核心含义和用途的总结: 1. 核心功能 定义数据:创建、修改数据库结构&#xff08…

ubuntu22.04上运行opentcs6.4版本

1、下载github上的源码: openTCS - Downloads 2、安装java21 我的版本是:java --version java 21.0.6 2025-01-21 LTS Java(TM) SE Runtime Environment (build 21.0.68-LTS-188) Java HotSpot(TM) 64-Bit Server VM (build 21.0.68-LTS-188, mixed mo…

游戏引擎学习第307天:排序组可视化

简短谈谈直播编程的一些好处。 上次结束后,很多人都指出代码中存在一个拼写错误,因此这次我们一开始就知道有一个 bug 等待修复,省去了调试寻找错误的时间。 今天的任务就是修复这个已知 bug,然后继续排查其他潜在的问题。如果短…

基于PyTorch的残差网络图像分类实现指南

以下是一份超过6000字的详细技术文档,介绍如何在Python环境下使用PyTorch框架实现ResNet进行图像分类任务,并部署在服务器环境运行。内容包含完整代码实现、原理分析和工程实践细节。 基于PyTorch的残差网络图像分类实现指南 目录 残差网络理论基础服务…

(27)运动目标检测 之 分类(如YOLO) 数据集自动划分

(27)运动目标检测 之 分类(如YOLO) 数据集自动划分 目标检测场景下有时也会遇到分类需求,比如车牌识别、颜色识别等等本文以手写数字数据集为例,讲述如何将 0~9 10个类别的数据集自动划分,支持调整划分比例手写数字数据集及Python实现代码可在此直接下载:https://downloa…

Ubuntu安装1Panel可视化管理服务器及青龙面板及其依赖安装教程

Ubuntu安装1Panel可视化管理服务器及青龙面板及其依赖安装教程 前言一、准备工作二、操作步骤1、1Panel安装2、青龙面板安装3、青龙面板依赖安装 前言 1Panel 是一款现代化的开源 Linux 服务器管理面板,专注于简化服务器运维操作,提供可视化界面管理 Web…

DataGridView中拖放带有图片的Excel,实现数据批量导入

1、带有DataGridView的窗体,界面如下 2、编写DataGridView支持拖放的代码 Private Sub DataGridView1_DragEnter(ByVal sender As Object, ByVal e As DragEventArgs) Handles DataGridView1.DragEnterIf e.Data.GetDataPresent(DataFormats.FileDrop) ThenDim file…

创新点!贝叶斯优化、CNN与LSTM结合,实现更准预测、更快效率、更高性能!

能源与环境领域的时空数据预测面临特征解析与参数调优双重挑战。CNN-LSTM成为突破口:CNN提取空间特征,LSTM捕捉时序依赖,实现时空数据的深度建模。但混合模型超参数(如卷积核数、LSTM层数)调优复杂,传统方法…

获取点击点所在区域所能容纳最大连续空白矩形面积及顶点坐标需求分析及相关解决方案

近日拿到一个需求,通过分析思考以及查询资料得以解决,趁着不忙记录一下: 需求: 页面上放一个图片控件,载入图片之后,点击图片任何一个白色空间,找出点击点所在区域所能容纳的最大连续空白矩形…

vue-cli 构建打包优化(JeecgBoot-Vue2 配置优化篇)

项目:jeecgboot-Vue2 在项目二次开发后,在本人电脑打包时间为3分35秒左右 webpack5默认优化: Tree Shaking(摇树优化):删除未使用的代码base64 内联: 小于 8KB 的资源(图片等&…

科学养生:解锁现代健康生活新方式

在现代社会,熬夜加班、外卖快餐、久坐不动成了很多人的生活常态,由此引发的亚健康问题日益凸显。其实,遵循科学的养生方式,无需复杂操作,从日常细节调整,就能显著提升健康水平。​ 饮食上,把控…

PostGIS使用小结

文章目录 PostGIS使用小结简介安装配合postgres使用的操作1.python安装gdal PostGIS使用小结 简介 PostGIS 是 PostgreSQL 数据库的地理空间数据扩展,通过为 PostgreSQL数据库增加地理空间数据类型、索引、函数和操作符,使其成为功能强大的空间数据库&…

NNG和DDS

NNG (Nanomsg Next Generation) 和 DDS (Data Distribution Service) 是两种不同的通信协议,各自在不同场景下具有其优势。下面我将对这两种技术进行详细解释,并通过具体的例子来说明它们如何应用在实际场景中。 1. NNG (Nanomsg Next Generation) NNG简…

自制操作系统day7(获取按键编码、FIFO缓冲区、鼠标、键盘控制器(Keyboard Controller, KBC)、PS/2协议)

day7 获取按键编码(hiarib04a) void inthandler21(int *esp) {struct BOOTINFO *binfo (struct BOOTINFO *) ADR_BOOTINFO; // 获取系统启动信息结构体指针unsigned char data, s[4]; // data: 键盘数据缓存&#x…

Javase 基础加强 —— 09 IO流第二弹

本系列为笔者学习Javase的课堂笔记,视频资源为B站黑马程序员出品的《黑马程序员JavaAI智能辅助编程全套视频教程,java零基础入门到大牛一套通关》,章节分布参考视频教程,为同样学习Javase系列课程的同学们提供参考。 01 缓冲字节…

服务器操作系统调优内核参数(方便查询)

fs.aio-max-nr1048576 #此参数限制并发未完成的异步请求数目,应该设置避免I/O子系统故障 fs.file-max1048575 #该参数决定了系统中所允许的文件句柄最大数目,文件句柄设置代表linux系统中可以打开的文件的数量 fs.inotify.max_user_watches8192000 #表…

[Windows] 格式工厂 FormatFactory v5.20.便携版 ——多功能媒体文件转换工具

想要轻松搞定各类媒体文件格式转换?这款 Windows 平台的格式工厂 FormatFactory v5.20 便携版 正是你的不二之选!无需安装,即开即用,为你带来高效便捷的文件处理体验。 全能格式转换,满足多元需求 软件功能覆盖视频、…

[AI]主流大模型、ChatGPTDeepseek、国内免费大模型API服务推荐(支持LangChain.js集成)

主流大模型特色对比表 模型核心优势适用场景局限性DeepSeek- 数学/代码能力卓越(GSM8K准确率82.3%)1- 开源生态完善(支持医疗/金融领域)7- 成本极低(API价格仅为ChatGPT的2%-3%)5科研辅助、代码开发、数据…