ES中must与filter的区别

在 Elasticsearch 的布尔查询(bool query)中,mustfilter 是两个核心子句,它们的核心区别在于 是否影响相关性评分,这直接决定了它们在查询性能、使用场景和结果排序上的差异。以下是详细对比:

一、核心区别

二、底层原理

1. must 子句
  • 执行流程

    1. 对每个文档执行查询条件
    2. 计算匹配条件的相关性评分(_score
    3. 合并所有 must 子句的评分(默认相加)
    4. 按总分排序结果
  • 典型应用
{"query": {"bool": {"must": [{ "match": { "title": "elasticsearch" } },  // 全文搜索{ "range": { "price": { "gte": 100 } } }    // 范围条件(但需要影响排序)]}}
}
2. filter 子句
  • 执行流程

    1. 使用倒排索引快速过滤文档(无需计算评分)
    2. 结果集返回匹配文档(不排序)
    3. 若与其他评分查询组合,仅传递过滤后的文档给评分模块
  • 典型应用

{"query": {"bool": {"must": [ { "match": { "title": "elasticsearch" } } ],"filter": [ { "term": { "status": "published" } },      // 精确匹配{ "range": { "publish_date": { "gte": "2023-01-01" } } }]}}
}

三、使用场景对比

1. 必须使用 must 的场景
  • 需求涉及相关性排序: 例如:搜索商品时,关键词匹配度高的结果需要排在前面。
  • 需要组合多个相关性条件: 例如:同时匹配标题和内容的关键词,且两者的匹配度共同影响排序。
2. 必须使用 filter 的场景
  • 精确筛选数据: 例如:过滤出状态为“已发布”、价格在 100-500 元之间的商品。
  • 高频重复查询: 例如:电商平台首页的“促销商品”筛选(同样条件会被多次执行)。
  • 不关心排序的过滤: 例如:审计日志的时间范围过滤,结果按时间倒序即可。

四、性能优化技巧

1. 层级优化原则

将过滤条件尽量放在 filter 中,优先缩小数据集:

{"query": {"bool": {"must": [ { "match": { "content": "性能优化" } } ],"filter": [{ "term": { "category": "技术文档" } },{ "range": { "view_count": { "gte": 1000 } } }]}}
}
2. 强制跳过评分

must 中的非相关性条件使用 constant_score

{"query": {"bool": {"must": [{ "match": { "title": "elasticsearch" } },{ "constant_score": {     // 此条件不贡献评分"filter": { "term": { "version": "7.x" } },"boost": 0   // 评分权重设为0}}]}}
}
3. 缓存验证

通过 _search API 的 profile 参数验证是否命中缓存:

GET /index/_search?request_cache=true
{"query": { "bool": { "filter": [ {...} ] } }
}

五、错误使用案例

1. 误用 must 导致性能下降
// 错误:用 must 处理精确匹配
{"bool": {"must": [{ "term": { "status": "active" } },  // 精确条件应放在 filter{ "range": { "age": { "gte": 18 } } }]}
}
2. 误用 filter 导致排序失效
// 错误:用 filter 处理需要影响排序的条件
{"bool": {"must": [ { "match": { "title": "紧急通知" } } ],"filter": [ { "range": { "priority": { "gte": 5 } } } ]  // priority 应影响排序}
}

六、高级组合用法

1. 混合使用提升性能
{"query": {"bool": {"must": [ { "match": { "text": "error" } } ],"filter": [{ "term": { "service": "gateway" } },{ "range": { "@timestamp": { "gte": "now-1h" } } }]}}
}
2. 嵌套 bool 查询
{"query": {"bool": {"must": [{ "match": { "title": "系统故障" } },{ "bool": { "filter": [    // 嵌套的过滤条件{ "term": { "environment": "prod" } },{ "range": { "severity": { "gte": 3 } } }]}}]}}
}

七、总结

  • must 的本质:贡献相关性评分的条件,适用于需要影响结果排序的场景。
  • filter 的本质:高效的二进制过滤器,适用于精确匹配和高频查询。
  • 黄金法则: 能用 filter 的不要用 must —— 除非明确需要该条件影响评分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/83458.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode实时预览编辑markdown

vscode实时预览编辑markdown 点击vsode界面,实现快捷键如下: 按下快捷键 CtrlShiftV(Windows/Linux)或 CommandShiftV(Mac)即可在侧边栏打开 Markdown 预览。 效果如下:

Android第十一次面试flutter篇

Flutter基础​ 在 Flutter 中,​三棵树(Widget Tree、Element Tree、RenderObject Tree)​​ 是框架的核心设计,它们协同工作以实现高效的 UI 渲染和更新机制。 ​1. Widget Tree(Widget 树)​​ ​是什么…

多线程编程中的数据竞争与内存可见性问题解析

引言 在多线程编程中,看似简单的代码往往隐藏着复杂的并发问题。今天我们来分析一个经典的生产者-消费者场景,看看在多核CPU环境下可能出现的各种"意外"情况。 问题代码分析 让我们先看看这段看似正常的C#代码: using System; u…

Linux 与 Windows:哪个操作系统适合你?

Linux vs Windows:系统选择的关键考量 在数字化转型浪潮中,操作系统作为底层基础设施的重要性日益凸显。Linux与Windows作为主流选择,其差异不仅体现在技术架构上,更深刻影响着开发效率、运维成本与安全性。本文将从​​7个核心维度​​展开对比分析,并提供典型应用场景建…

佰力博科技与您探讨低温介电温谱测试仪的应用领域

低温介电温谱测试应用领域有如下: 一、电子材料: 低温介电温谱测试仪广泛应用于电子材料的性能测试,如陶瓷材料、半导体材料、压电材料等。通过该设备,可以评估材料在高温或低温环境下的介电性能,为材料的优化和应用提…

Windows 下彻底删除 VsCode

彻底删除 VS Code (Visual Studio Code) 意味着不仅要卸载应用程序本身,还要删除所有相关的配置文件、用户数据、插件和缓存。这可以确保你有一个完全干净的状态,方便你重新安装或只是彻底移除它。 重要提示: 在执行以下操作之前&#xff0c…

STM32与GD32标准外设库深度对比

近年来,随着全球芯片短缺和市场价格波动,工程师们开始寻求对常用MCU的替代方案。在STM32因产能受限而频频涨价的背景下,GD32作为国产替代的重要选项,获得了越来越多的关注。尤其是GD32F103系列,由于其在硬件封装、功能特性乃至软件支持上的“高相似度”,成为STM32F103的热…

使用Redis的四个常见问题及其解决方案

Redis 缓存穿透 定义:redis查询一个不存在的数据,导致每次都查询数据库 解决方案: 如果查询的数据为空,在redis对应的key缓存空数据,并设置短TTL。 因为缓存穿透通常是因为被恶意用不存在的查询参数进行压测攻击&…

Java高级 | 【实验一】Spring Boot安装及测试 最新

隶属文章:Java高级 | (二十二)Java常用类库-CSDN博客 目录 一、SpringBoot的特点 二、Spring Boot安装及测试 (一)安装Intellij IDEA (二)安装MySQL (三)安装postma…

Oracle RMAN自动恢复测试脚本

说明 此恢复测试脚本,基于rman备份脚本文章使用的fullbak.sh做的备份。 数据库将被恢复到RESTORE_LO参数设置的位置。 在恢复完成后,执行一个测试sql,确认数据库恢复完成,数据库备份是好的。恢复测试数据库的参数,比如SGA大小都…

从Java的JDK源码中学设计模式之装饰器模式

装饰器模式是一种极具弹性的结构型设计模式,它允许我们通过组合的方式动态扩展对象功能而无需修改原有结构。本文将通过JDK源码中的实际应用和通俗易懂的代码示例,带你深入了解这一强大模式的精髓。 装饰器模式核心原理 装饰器模式的核心思想&#xff…

调教 DeepSeek - 输出精致的 HTML MARKDOWN

【序言】 不知道是不是我闲的蛋疼,对百度AI 和 DeepSeek 的回答都不太满意。 DeepSeek 回答句子的引用链接,始终无法准确定位。有时链接只是一个域名,有时它给的链接是搜索串如: baidu.com/?q"搜索内容"。 百度AI 回答句子的引用…

第1章_数据分析认知_知识点笔记

来自:数据分析自学课程-戴戴戴师兄 逐字稿:【课程4.0】第1章_分析认知_知识点笔记 【课程4.0】第1章 分析认知 知识点总结 一、数据分析的本质认知 数据分析是什么? 不是酷炫看板、复杂模型或升值秘籍,而是认知世界的基础方法。…

【从0-1的HTML】第2篇:HTML标签

文章目录 1.标题标签2.段落标签3.文本标签brbstrongsubsup 4.超链接标签5.图片标签6.表格标签7.列表标签有序列表ol无序列表ul定义列表dl 8.表单标签9.音频标签10.视频标签11.HTML元素分类块级元素内联元素 12.HTML布局13.内联框架13.内联框架 1.标题标签 标题标签&#xff1a…

快速排序(Quick Sort)算法详解(递归与非递归)

引言 在计算机科学中,排序算法是最基础且重要的算法之一。快速排序(Quick Sort)作为一种高效的排序算法,在实际应用中被广泛使用。平均时间复杂度为 (O(n log n)),最坏情况下为 (O(n^2))。本文将详细介绍快速排序算法…

修改 vscode 左侧导航栏的文字大小 (更新版)

新增, 个人常用 按 Ctrl Shift P 打开命令面板 输入并选择 : Developer: Toggle Developer Tools 打开开发者工具。 1. 起因, 目的: 问题: vscode 左侧的文字太小了!!!我最火的一篇文章,写的就是这个…

Kerberos面试内容整理-Kerberos 的配置与排障

正确配置 Kerberos 对其正常工作至关重要。在Linux/Unix环境下,Kerberos配置通常通过编辑配置文件(例如 /etc/krb5.conf)完成。其中指定了Realm名称、KDC和管理员服务器地址、默认域到Realm的映射等参数。管理员需要在KDC端初始化数据库并创建主体(可以使用 kadmin 等工具添…

Windows + CPU也能跑时序预测:TSLib框架快速上手与踩坑避雷

在时序预测领域,选择一个成熟的框架往往能让我们事半功倍。最近接手了一个紧急的时序预测项目,经过一番调研后,我选择了TSLib(Time-Series-Library)这个优秀的开源框架来快速搭建整个预测流程。 由于开发环境限制在Windows平台且没有GPU支持,整个部署过程还是遇到了一些…

从 0 到 1:用 Trae 插件 Builder 模式开发端午包粽子小游戏

​ 前言 Trae插件获取:https://www.trae.com.cn/plugin 在编程的世界里,效率就是生命。我们开发者常常为了一个项目的搭建,重复着创建文件夹、初始化项目配置、编写样板代码等一系列繁琐的操作,耗费了大量的时间和精力。而如今…

React-native之Flexbox

本文总结: 我们学到了 React Native 的 Flexbox 布局,它让写样式变得更方便啦!😊 Flexbox 就像一个有弹性的盒子,有主轴和交叉轴(行或列)。 在 RN 里写样式要用 StyleSheet.create 对象,属性名…