Elasticsearch 深分页限制与解决方案

最近在准备面试,正把平时积累的笔记、项目中遇到的问题与解决方案、对核心原理的理解,以及高频业务场景的应对策略系统梳理一遍,既能加深记忆,也能让知识体系更扎实,供大家参考,欢迎讨论。

在项目中遇到一个问题:之前同事在导出所有 IM 消息时,直接用 分页查询(from + size) 拉全量数据,当数据加起来超过1万条后,Elasticsearch 报错:

Result window is too large, from + size must be less than or equal to: [10000] but was [11000].
See the scroll api for a more efficient way to request large data sets.

这就是 ES 默认的 深分页限制 导致的。

一、问题原因

Elasticsearch 默认的 index.max_result_window 设置为 10000。

查询时,如果 from + size > 10000,就会报错。注意是 from + size 一起不能超过10000条。

默认分页只适合小数据量查询,不适合一次性拉取所有数据。

二、解决方案

1. 临时调整 index.max_result_window

通过修改索引配置提高限制,例如:

PUT 索引名称/_settings?preserve_existing=true
{
“index.max_result_window”: “50000”
}

⚠️ 这种方式会增加 ES 的内存和 CPU 消耗,不建议无限放大。

2. 调整java代码使用 Scroll API

适合批量拉取大量数据,特点:

返回的是快照数据,不随实时更新。

用完要清理 scroll 上下文。

更适合离线导出、批处理。

三、经验总结

分页查询(from+size)只适合小数据量场景,不适合全量查询。

大数据导出 → Scroll API

实时分页展示 → Search After

特殊情况 → 调整 index.max_result_window(需谨慎)。

✅ 这次踩坑,就是因为用分页直接查全量数据,超过了 ES 的默认限制。后续我们改用 Scroll API,顺利解决。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/95607.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/95607.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于偏最小二乘法PLS多输入单输出的回归预测【MATLAB】

基于偏最小二乘法(PLS)多输入单输出的回归预测【MATLAB】 在科学研究和工程实践中,我们常常需要根据多个相关变量来预测一个关键结果。例如,根据气温、湿度、风速等多个气象因素预测空气质量指数,或根据多种原材料成分…

SQL Server核心架构深度解析

SQL Server 的体系结构是一个复杂但设计精密的系统,主要可以分为四大核心组件,它们协同工作以管理数据库、处理查询、确保数据安全与一致性。以下是其体系结构的核心组成部分: 核心组件:协议层 (Protocol Layer) 作用:…

Django REST Framework Serializer 进阶教程

1. 序列化器概述 在 Django REST Framework(DRF)中,序列化器(Serializer)用于将复杂的数据类型(如模型实例)转换为 JSON 格式,以便于 API 返回给客户端。此外,序列化器还…

面试问题详解十四:Qt 多线程同步【QSemaphore】讲解

在多线程开发中,经常需要控制多个线程对共享资源的访问数量。例如限制同时下载文件的数量、控制数据库连接池的连接使用等等。这时候,Qt 提供的 QSemaphore(信号量)就非常派得上用场。一、什么是 QSemaphore? QSemapho…

Spark mapGroups 函数详解与多种用法示例

mapGroups 是 Spark 中一个强大的分组操作函数,它允许你对每个分组应用自定义逻辑并返回一个结果。以下是多个使用简单样例数据的具体用法示例。基础示例数据假设我们有一个简单的学生成绩数据集:// 创建示例DataFrame val studentScores Seq(("Ma…

【图论】Graphs.jl 图数据的读写与生成器

文章目录图数据的读写Graphs.loadgraphGraphs.loadgraphsGraphs.savegraph保存单个图保存图字典Graphs.loadlg_multGraphs.savelgGraphs.savelg_mult图的生成器1. 随机图模型1.1 Erdős–Rnyi 模型1.2 巴拉巴西-阿尔伯特模型 (无标度网络)1.3 小世界网络模型1.4 随机块模型 (SB…

Go指针全解析:从基础到实战

基本概念与定义指针的定义指针是一种特殊的变量类型,它存储的不是实际数据值,而是另一个变量在计算机内存中的地址。在底层实现上,指针本质上是保存内存位置的无符号整数,它直接指向内存中的特定位置,允许程序直接操作…

Oracle 查询有哪些用户 提示用户名密码无效

要查询 Oracle 数据库中的所有用户,可以使用以下 SQL 查询语句。这个查询将返回数据库中所有用户的列表。 [] SELECT username FROM all_users ORDER BY username;如果你有足够的权限(通常是 DBA 权限),你也可以使用 dba_users 视…

小白成长之路-develops -jenkins部署lnmp平台

文章目录一、准备工作1.1两台虚拟机1.2配置文件1.3免密登录二、实战1.构建主item2.测试nginx,php,mysql2.1新建测试项目2.2与正式项目绑定构建后的操作2.3测试2.4导入discuz项目总结一、准备工作 1.1两台虚拟机 服务器:192.168.144.24 客户端:192.168.…

【HarmonyOS 6】仿AI唤起屏幕边缘流光特效

【HarmonyOS 6】仿AI唤起屏幕边缘流光特效 一、前言 最近在做 HarmonyOS 6.0 的适配,发现 Beta1版本里多了个很实用的视效功能——自带背景的双边流光。 之前做屏幕边缘流光特效的时候,要么得自己写渐变动画拼效果,要么就得套好几个组件叠层&…

跟做springboot尚品甄选项目

springbootvue3 【尚硅谷Java项目《尚品甄选》 SpringBootSpringCloud萌新学会企业级java项目】003.后台系统-搭建前端环境(工程创建)_哔哩哔哩_bilibili E:\project\AllProJect\Shangpin Selection\项目材料素材\课件\尚品甄选项目课件 前端套用框架…

【Linux】创建线程

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 文章目录 一、为什么需要线程? 创建线程 示例:计算斐波恩夕法 一、为什么需要线程? 在多核处理器的计算机上,线程可…

HTML应用指南:利用POST请求获取全国九号电动车体验店服务店位置信息

九号公司(Ninebot)作为全球领先的智能短途出行解决方案提供商,始终秉持“智慧移动,愉悦生活”的品牌理念,致力于为个人用户打造安全、智能、时尚的城市出行体验。依托“智能硬件 + 数字服务 + 线下触点”三位一体的战略布局,九号公司已建立起覆盖全国、辐射全球的销售与服…

Kafka面试精讲 Day 4:Consumer消费者模型与消费组

【Kafka面试精讲 Day 4】Consumer消费者模型与消费组 在“Kafka面试精讲”系列的第四天,我们将深入探讨Kafka的核心组件之一——Consumer消费者模型与消费组(Consumer Group)。这是Kafka实现高吞吐、可扩展消息消费的关键机制,也…

使用 Uni-app 打包 外链地址APK 及 iOS 注意事项

本文详细介绍了如何使用 Uni-app 框架将项目打包为 Android APK 和 iOS 应用,重点讲解了 minSdkVersion、targetSdkVersion 和 abiFilters 的配置,以及 iOS 开发的注意事项。文章还包含了您提供的 WebView 示例代码,并提供了关键的注意事项&a…

异常处理小妙招——3.构造函数的安全第一原则:为什么不在构造函数中抛出异常?

文章目录灾难性的生日派对构造函数:对象的出生证明安全第一:严格的出生检查为什么要在构造函数中严格验证?1. 避免"僵尸对象"2. Fail-Fast(快速失败)原则现实世界的实践建议1. 使用工厂方法模式2. 使用Build…

iptables 和 ip route

文章目录iptables原理及常用命令表链链表链表总结iptables 常用命令及参数1. 规则管理命令 (Commands)2. 规则匹配参数 (Rule-Specification - Matches)3. 目标动作参数 (Target)命令示例配置流程示例ip route常用命令iptables和ip route的联系实用命令示例对比iptables原理及常…

RPC和HTTP的区别?

RPC和HTTP是两种不同的通信协议,它们在通信方式、性能效率以及灵活性可扩展性等方面存在区别。以下是具体分析: 通信方式 RPC:RPC是基于远程过程调用的二进制协议,它允许客户端像调用本地函数一样调用远程服务器上的函数或方法[2]…

贝叶斯分类(Bayes Classify)

一. 核心思想贝叶斯分类是一类基于贝叶斯定理(Bayes Theorem)和概率统计的分类算法,核心思想是 “通过已知的先验概率,结合数据的似然性,计算后验概率,最终将样本归为后验概率最高的类别”。它在机器学习、…

怎么熟悉业务,我是做前端的,但对业务了解没有渠道

作为前端开发者,想深入了解业务但“没有渠道”,这是非常普遍的痛点。很多前端同学只接到“切图实现页面”的任务,久而久之就成了“实现工具人”。但业务理解力,恰恰是区分“初级”和“高级”前端的核心分水岭。 好消息是&#xff…