Elasticsearch索引机制与Lucene段合并策略深度解析

引言

在现代分布式搜索引擎Elasticsearch中,文档的索引、更新和删除操作不仅是用户交互的核心入口,更是底层存储架构设计的关键挑战。本文围绕以下核心链路展开:

  1. 文档生命周期管理:从客户端请求路由到分片定位,从内存缓冲区(Buffer)到事务日志(Translog)的双重写入机制,揭示数据持久化的完整路径;
  2. 实时性与可靠性平衡:通过剖析Translog同步/异步刷盘策略、内存缓冲区刷新(Refresh)与持久化刷盘(Flush)的触发逻辑,解读搜索可见性与故障恢复的底层保障;
  3. Lucene段合并优化:深入对比分层合并(TieredMergePolicy)、字节大小合并(LogByteSizeMergePolicy)和文档数量合并(LogDocMergePolicy)等策略,探讨如何通过段合并提升查询效率、释放磁盘空间并优化I/O负载。

通过系统性梳理,本文将为开发者提供从API操作到底层存储的全视角技术图谱,助力高性能搜索服务的设计与调优。

索引文档的过程

索引文档:将新的文档添加到索引中或者覆盖已经存在的文档。

并非只有协调节点可能进行数据转发,可以将请求发送到任何一个数据节点,该节点都可以处理请求或将请求转发给适当的节点以完成请求处理。

  1. 客户端向 Node 1 (任意一个节点)发送新建、覆盖请求。
  2. 节点使用文档ID(文档ID可以人工指定,不指定将自动创建唯一值) 确定文档属于分片 0(hash(_id)%number_of_primary_shards) 。请求会被转发到 Node 3,因为分片 0 的主分片目前被分配在 Node 3 上。
  3. Node 3 写入操作不仅保存在内存缓冲区中,同时也被记录到事务日志(Translog)中。Translog是一个位于磁盘上的追加日志,它记录了所有对索引的更改,以确保在发生故障时能够恢复数据。
  4. 当内存缓冲区达到一定大小,或者Translog达到一定大小时。Flush操作会将内存缓冲区中的数据以及Translog中的更改持久化到磁盘上的Lucene索引文件的Segment中,并且会清空旧的Translog。

number_of_primary_shards:索引的主分片数量。

更新和删除文档的过程

  1. 客户端向任意节点发送更新、删除请求,协调节点并根据文档ID确定要更新的分片(Shard),将请求转发到分片的主节点上。
  2. 主分片会创建一个新的文档,保留相同的文档ID和一个更高的版本号。同时在段对应的.del文件中记录旧版本的文档。(更新文档)
  3. 在段对应的.del文件中记录旧版本的文档。(删除文档)
  4. 修改操作不仅保存在内存缓冲区中,同时也被记录到事务日志(Translog)中。Translog是一个位于磁盘上的追加日志,它记录了所有对索引的更改,以确保在发生故障时能够恢复数据。
  5. 当内存缓冲区达到一定大小,或者Translog达到一定大小时。Flush操作会将内存缓冲区中的数据以及Translog中的更改持久化到磁盘上的Lucene索引文件的Segment中,并且会清空旧的Translog。
  6. 废弃的文档由后台线程在段合并阶段进行删除,释放磁盘空间。

Translog刷盘(Flush)时机

Translog的刷盘:是指将Translog内存中的数据写入到Translog日志中(磁盘)。

Translog的刷盘方式有两种:同步(request)和异步(async),index.translog.durability为request表示同步(默认同步),为async表示异步。

同步方式:意味着每次写操作之后会立即将 Translog 刷新到磁盘。

异步方式:可以通过index.translog.sync_interval(默认5s),当达到配置值时触发刷盘。

Lucene中的段(Segment)

Segment是物理日志,而TransLog是逻辑日志,在Lucene中,每当有新的文档被添加时,数据首先写入内存缓冲区(buffer)。当缓冲区达到一定大小或满足特定条件时,数据会被刷新到磁盘,形成一个新的段。这个初始段的大小依赖于缓冲区的大小和写入的文档数量。多个索引的修改都会被分开写入多个段中。

Lucene中的段生成

只有生成Luence段之后,才能被搜索到。

refresh操作:index.refresh_interval(默认1s),可以适当调大例如30s。定时将内存缓冲区数据写入到新的Lucene段文件中,不会清空translog。

flush操作:当translog大小达到index.translog.flush_threshold_size(默认512m),会将translog中的数据写入到磁盘上的 Lucene 段文件中,并创建一个新的 translog 文件,并清空旧的translog。

Lucene中的段合并

段合并的好处

  1. 提高查询效率:多个小段可能导致查询时需要访问多个索引文件,使查询效率降低。合并段可以减少段的数量,从而减少查询过程中需要读取的文件,提高查询速度。
  2. 释放磁盘空间:删除文档不会立即从段中移除,而是标记为已删除。通过段合并,可以彻底清除这些标记为删除的文档,释放磁盘空间。

段合并策略

TieredMergePolicy(分层合并策略)

默认段合并策略,根据段的大小和数量将段分为不同的层级(Tiers),并在合适的时机触发段合并。

通过设置segments_per_tier参数控制每层的最大段数,每层段数超过时触发合并。通过设置max_merge_at_once参数控制一次合并的最大段数。

通过段的大小对段进行分层。具体来说,它会将段按照大小分为不同的层,每一层中的段大小范围不同。层的划分并不是固定的,而是动态调整的。

LogByteSizeMergePolicy(基于字节大小的合并策略)

基于段的字节大小来决定合并。它会尝试将小段合并成较大的段,以控制合并后的段大小。

通过设置min_merge_size参数控制段合并操作的最小段大小(小于min_merge_size优先合并)。max_merge_size参数控制段合并操作的最大段大小,当段的大小超过这个阈值时,不再参与合并。

LogDocMergePolicy(基于文档数量的合并策略)

基于段中的文档数量来决定合并。它会尝试将包含少量文档的段合并成包含更多文档的段。

通过设置min_merge_docs参数控制段合并操作的最小段的文档数量(小于min_merge_docs优先合并)。和max_merge_docs参数控制段合并操作的最大段的文档数量,当段的文档数量超过这个阈值时,不再参与合并。


感谢您的阅读!如果文章中有任何问题或不足之处,欢迎及时指出,您的反馈将帮助我不断改进与完善。期待与您共同探讨技术,共同进步!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/82718.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

git提交更改

第一步:添加改动 git add . 第二步:提交改动 git commit -m “替换了 SerialPort 库文件” 第三步:推送到远程 git push 为什么git 的UI界面做的远不如SVN

WPF的基础控件:布局控件(StackPanel DockPanel)

布局控件(StackPanel & DockPanel) 1 StackPanel的Orientation属性2 DockPanel的LastChildFill3 嵌套布局示例4 性能优化建议5 常见问题排查 在WPF开发中,布局控件是构建用户界面的基石。StackPanel和DockPanel作为两种最基础的布局容器&…

互联网大厂Java求职面试:AI大模型推理服务性能优化与向量数据库分布式检索

互联网大厂Java求职面试:AI大模型推理服务性能优化与向量数据库分布式检索 面试现场:技术总监的连环追问 技术总监:(翻看着简历)郑薪苦,你在上一家公司参与过LLM推理服务的性能优化项目?说说你…

如何解决网站服务器的异常问题?

当网站服务器出现异常情况,导致用户无法正常访问网页信息的时候,该如何解决这一问题呢?小编下面就带领大家共同探讨一下这一问题。 企业在面对网站服务器异常时,首先要对服务器硬件设备进行详细的检查,可以使用硬盘检测…

Day 35

模型可视化与推理 知识点回顾: 三种不同的模型可视化方法:推荐torchinfo打印summary权重分布可视化 进度条功能:手动和自动写法,让打印结果更加美观 推理的写法:评估模式 模型结构可视化 理解一个深度学习网络最重要的…

[yolov11改进系列]基于yolov11引入自注意力与卷积混合模块ACmix提高FPS+检测效率python源码+训练源码

[ACmix的框架原理] 1.1 ACMix的基本原理 ACmix是一种混合模型,结合了自注意力机制和卷积运算的优势。它的核心思想是,传统卷积操作和自注意力模块的大部分计算都可以通过1x1的卷积来实现。ACmix首先使用1x1卷积对输入特征图进行投影,生成一组…

[DS]使用 Python 库中自带的数据集来实现上述 50 个数据分析和数据可视化程序的示例代码

使用 Python 库中自带的数据集来实现上述 50 个数据分析和数据可视化程序的示例代码 摘要:由于 sample_data.csv 是一个占位符文件,用于代表任意数据集,我将使用 Python 库中自带的数据集来实现上述 50 个数据分析和数据可视化程序的示例代码…

【Python 中 lambda、map、filter 和 reduce】详细功能介绍及用法总结

以下是 Python 中 lambda、map、filter 和 reduce 的详细功能介绍及用法总结,涵盖基础语法、高频场景和示例代码。 一、lambda 匿名函数 功能 用于快速定义一次性使用的匿名函数。不需要显式命名,适合简化小规模逻辑。 语法 lambda 参数1, 参数2, ..…

贪心算法——分数背包问题

一、背景介绍 给定𝑛个物品,第𝑖个物品的重量为𝑤𝑔𝑡[𝑖−1]、价值为𝑣𝑎𝑙[𝑖−1],和一个容量为𝑐𝑎&#…

《软件工程》第 5 章 - 需求分析模型的表示

目录 5.1需求分析与验证 5.1.1 顺序图 5.1.2 通信图 5.1.3 状态图 5.1.4 扩充机制 5.2 需求分析的过程模型 5.3 需求优先级分析 5.3.1 确定需求项优先级 5.3.2 排定用例分析的优先顺序 5.4 用例分析 5.4.1 精化领域概念模型 5.4.2 设置分析类 5.4.3 构思分析类之间…

基于MATLAB的大规模MIMO信道仿真

1. 系统模型与参数设置 以下是一个单小区大规模MIMO系统的参数配置示例,适用于多发多收和单发单收场景。 % 参数配置 params.N_cell 1; % 小区数量(单小区仿真) params.cell_radius 500; % 小区半径(米&#xff09…

想查看或修改 MinIO 桶的匿名访问权限(public/private/custom)

在 Ubuntu 下,如果你想查看或修改 MinIO 桶的匿名访问权限(public/private/custom),需要使用 mc anonymous 命令而不是 mc policy。以下是详细操作指南: 1. 查看当前匿名访问权限 mc anonymous get minio/test输出示例…

HarmonyOS:相机选择器

一、概述 相机选择器提供相机拍照与录制的能力。应用可选择媒体类型实现拍照和录制的功能。调用此类接口时,应用必须在界面UIAbility中调用,否则无法启动cameraPicker应用。 说明 本模块首批接口从API version 11开始支持。后续版本的新增接口&#xff0…

牛客AI简历筛选:提升招聘效率的智能解决方案

在竞争激烈的人才市场中,企业HR每天需处理海量简历,面临筛选耗时长、标准不统一、误判率高等痛点。牛客网推出的AI简历筛选工具,以“20分钟处理1000份简历、准确率媲美真人HR”的高效表现,成为企业招聘的智能化利器。本文将深度解…

白杨SEO:做AI搜索优化的DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪?占比是多少?

大家好,我是白杨SEO,专注SEO十年以上,全网SEO流量实战派,AI搜索优化研究者。 在开始写之前,先说个抱歉。 上周在上海客户以及线下聚会AI搜索优化分享说各大AI模型的联网搜索是关闭的,最开始上来确实是的。…

QML与C++交互2

在QML与C的交互中,主要有两种方式:在C中调用QML的方法和在QML中调用C的方法。以下是具体的实现方法。 在C中调用QML的方法 首先,我们需要在QML文件中定义一个函数,然后在C代码中调用它。 示例 //QML main.qml文件 import QtQu…

OpenGL Chan视频学习-8 How I Deal with Shaders in OpenGL

bilibili视频链接: 【最好的OpenGL教程之一】https://www.bilibili.com/video/BV1MJ411u7Bc?p5&vd_source44b77bde056381262ee55e448b9b1973 函数网站: docs.gl 说明: 1.之后就不再整理具体函数了,网站直接翻译会更直观也…

动态防御新纪元:AI如何重构DDoS攻防成本格局

1. 传统高防IP的静态瓶颈与成本困境 传统高防IP依赖预定义规则库,面对SYN Flood、CC攻击等威胁时,常因规则更新滞后导致误封合法流量。例如,某电商平台曾因静态阈值过滤误封20%的订单接口流量,直接影响营收。以下代码模拟传统方案…

如何实现高性能超低延迟的RTSP或RTMP播放器

随着直播行业的快速发展,RTSP和RTMP协议成为了广泛使用的流媒体传输协议,尤其是在实时视频直播领域,如何构建一个高性能超低延迟的直播播放器,已经成为了决定直播平台成功与否的关键因素之一。作为音视频直播SDK技术老兵&#xff…

UE5 编辑器工具蓝图

文章目录 简述使用方法样例自动生成Actor,并根据模型的包围盒设置Actor的大小批量修改场景中Actor的属性,设置Actor的名字,设置Actor到指定的文件夹 简述 使用编辑器工具好处是可以在非运行时可以对资源或场景做一些操作,例如自动…