AWS OpenSearch 可观测最佳实践

AWS OpenSearch 介绍

OpenSearch 是一种全面开源搜索和分析引擎,使用案例包括日志分析、实时应用程序监控、点击流分析等。Amazon OpenSearch Service 是一项托管服务,让用户能够在 AWS 云中轻松部署、运行并扩展 OpenSearch 集群。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集器配置

  1. 登陆观测云控制台
  2. 点击【集成】菜单,选择【云账号管理】
  3. 点击【添加云账号】,选择【AWS】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤
  4. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  5. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  6. 点击云账号详情页的【集成】按钮,在未安装列表下,找到AWS OpenSearch,点击【安装】按钮,弹出安装界面安装即可。

关键指标

指标名称描述单位
ClusterStatus_green值为 1 指示将所有索引分片分配给集群中的节点,表示集群处于健康状态Int
ClusterStatus_yellow值为 1 指示将所有索引的主要分片分配给集群中的节点,但是至少有一个索引的分片副本不是如此Int
ClusterStatus_red值为 1 指示至少一个索引的主分片和副本分片未分配给集群中的节点Int
Shards_activePrimary活动主分区数Int
Shards_unassigned未分配给集群中节点的分区数Int
Shards_initializing正在初始化的分区数Int
SearchableDocuments跨集群中所有数据节点的可搜索文档的总数Int
Shards_active活动主分区和副本分区的总数Int
Shards_delayedUnassigned其节点分配因超时设置已延迟的分区数Int
Shards_relocating正在重新定位的分区数Int
DeletedDocuments跨集群的所有数据节点已标记为删除的文档总数Int
NodesOpenSearch 集群中的节点数Int
CPUUtilization集群中数据节点的 CPU 利用率百分比Int
FreeStorageSpace集群中各数据节点的可用空间Int
ClusterUsedSpace集群的已使用空间总量Int
2xx指定的 HTTP 响应代码 2xx 的对域的请求数Int
3xx指定的 HTTP 响应代码 3xx 的对域的请求数Int
4xx指定的 HTTP 响应代码 4xx 的对域的请求数Int
5xx指定的 HTTP 响应代码 5xx 的对域的请求数Int
ThroughputThrottle指示磁盘是否受到节流Int
IopsThrottle指示该域每秒进行读写操作的次数(IOPS)是否已被节流Int
JVMMemoryPressure用于集群中所有数据节点的 Java 堆的最大百分比Int
JVMGCYoungCollectionCount“年轻代”垃圾回收的运行次数Int
JVMGCOldCollectionCount“年老代”垃圾回收的运行次数Int
OldGenJVMMemoryPressure集群中所有数据节点上用于“上一代”的 Java 堆的最大百分比Int
JVMGCYoungCollectionTime集群执行“年轻代”垃圾回收所花费的时间,以毫秒为单位Int
JVMGCOldCollectionTime集群执行“年老代”垃圾回收所花费的时间,以毫秒为单位Int
IndexingLatency节点中所有索引操作所用的总时间差(以毫秒为单位)Int
IndexingRate每分钟的索引操作数Int
SearchLatency节点中所有搜索的总时间差(以毫秒为单位)Int
SearchRate数据节点上所有分片的每分钟搜索请求总数Int
SegmentCount数据节点上的分段数。您拥有的分段越多,每次搜索所花费的时间就越长Int
SysMemoryUtilization使用中的实例内存的百分比。此指标的值较高是正常的,通常不表示集群存在问题Int
ThreadpoolForce_mergeQueue强制合并线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群Int
ThreadpoolForce_mergeRejected强制合并线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群Int
ThreadpoolForce_mergeThreads强制合并线程池的大小Int
ThreadpoolSearchQueue搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群Int
ThreadpoolSearchRejected搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群Int
ThreadpoolSearchThreads搜索线程池的大小Int
Threadpoolsql-workerQueueSQL 搜索线程池中的排队任务数。如果队列大小一直很大,请考虑扩展您的集群Int
Threadpoolsql-workerRejectedSQL 搜索线程池中的已拒绝任务数。如果此数字持续增长,请考虑扩展您的集群Int
Threadpoolsql-workerThreadsSQL 搜索线程池的大小Int
ThreadpoolWriteQueue写入线程池中的排队任务数Int
ThreadpoolWriteRejected写入线程池中的已拒绝任务数Int
ThreadpoolWriteThreads写入线程池的大小Int
CoordinatingWriteRejected由于索引压力而在协调节点上发生的拒绝总数Int
PrimaryWriteRejected由于索引压力而在主分区上发生的拒绝总数Int
ReplicaWriteRejected由于索引压力而在副本分区上发生的拒绝总数Int
ReadLatencyEBS 卷上读取操作的延迟(以秒为单位)Int
WriteLatencyEBS 卷上写入操作的延迟(以秒为单位)Int
ReadThroughputEBS 卷上读取操作的吞吐量(以字节/秒为单位)Int
WriteThroughputEBS 卷上写入操作的吞吐量(以字节/秒为单位)Int
ReadIOPS针对 EBS 卷上的读取操作的每秒输入和输出 (I/O) 操作数Int
WriteIOPS针对 EBS 卷上的写入操作的每秒输入和输出 (I/O) 操作数Int
BurstBalance一个 EBS 卷的可爆发存储桶中剩余输入和输出(I/O)积分的百分比。值为 100 表示该卷积累的积分数量已达最大数量Int
AsynchronousSearchInitializedRate过去 1 分钟内初始化的异步搜索数Int
AsynchronousSearchRunningCurrent当前正在运行的异步搜索数Int
AsynchronousSearchCompletionRate过去 1 分钟内成功完成的异步搜索数Int
AsynchronousSearchFailureRate最后一分钟内完成和失败的异步搜索数Int
AsynchronousSearchPersistRate过去 1 分钟内持续存在的异步搜索数Int
AsynchronousSearchRejected自节点启动时间以来拒绝的异步搜索总数Int
AsynchronousSearchCancelled自节点启动时间以来取消的异步搜索总数Int
SQLRequestCount对 _sql API 的请求数Int
SQLUnhealthy值为 1 表示 SQL 插件将返回 5xx 响应代码或将无效的查询 DSL 传递到 OpenSearch 来响应特定请求。其他请求将继续成功。值为 0 表示最近未失败。如果您看到持续值为 1,请排查您的客户端对插件发出的请求的问题。Int
SQLDefaultCursorRequestCount类似于 SQLRequestCount,但仅统计分页请求Int
SQLFailedRequestCountByCusErr由于客户端问题而失败的对 _sql API 的请求数Int
SQLFailedRequestCountBySysErr由于服务器问题或功能限制而失败的对 _sql API 的请求数Int

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “opensearch”, 选择 “AWS OpenSearch 监控视图”,点击 “确定” 即可添加视图。

监控器(告警)

观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。

登录观测云控制台,点击「监控」 -「新建监控器」,输入 “aws opensearch”, 选择对应的监控器,点击 “确定” 即可添加。

搜索线程池已拒绝任务数突增

ThreadpoolSearchRejected_Average:表示在一定时间内,OpenSearch 集群中搜索线程池中被拒绝的任务数量的平均值。该指标反映了搜索请求由于线程池队列已满而被拒绝的情况。最近 15 分钟被拒绝数大于等于 100 时,发出严重告警。

主分片和副分片分配异常

ClusterStatus_red_Average:表示 OpenSearch 集群处于红色状态的平均时间占比,红色状态意味着集群中至少有一个主分片及其副本未分配给任何节点,值为 0 表示集群运行正常,值大于 0 表示集群有部分时间处于红色状态。当集群完全处于红色状态时发出严重告警。

节点 CPU 使用率过高

CPUUtilization_Average 用于衡量 OpenSearch 集群中节点的平均 CPU 使用率,当节点的 CPU 使用率大于等于 90% 时,发出严重告警,当 CPU 使用率大于等于 80% 小于 90% 时,发出重要告警。

总结

通过将 AWS OpenSearch 的原生监控数据集成到观测云平台,用户可以实现对 OpenSearch 的实时性能监控、资源使用分析以及安全事件的可视化。观测云的高级分析和可视化功能,如实时仪表板、智能告警和根因分析,能够帮助用户快速定位问题、优化成本,并确保数据的高可用性和安全性。这种结合不仅提升了监控的效率和准确性,还通过集中管理的方式简化了运维流程,使用户能够更好地应对复杂的云环境挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/920484.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/920484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML5七夕节网站源码

一,网站概述 本七夕节主题网站采用HTML5、CSS3与JavaScript技术栈构建,响应式设计适配多终端设备,通过模块化开发实现丰富交互体验。以下从架构设计、功能实现和视觉效果三方面概述: 1.1、架构设计 采用单页应用(SPA)架构&…

以技术赋能强化消费者信任,助推餐饮服务质量提质增效的明厨亮灶开源了

AI 视频监控平台简介 AI 视频监控平台是一款兼具强大功能与便捷操作的实时算法视频监控系统。其核心愿景在于打破各大芯片厂商间的技术壁垒,省去冗余重复的适配流程,构建 “芯片 - 算法 - 应用” 的全流程组合体系。这一体系可帮助企业级应用降低约 95%…

【NJU-OS-JYY笔记】操作系统:设计与实现

1. 绪论 1.1. 程序的执行与状态机 在计算机科学中,任何程序都可以被抽象为一个状态机,无论是我们熟知的日常工具(LibreOffice,Chrome)还是开发工具(IDE,GCC,GDB)&#…

GaussDB 修改schema属主时报:must be member of role “dtest“

1 问题现象schema的属主为root,客户需要修改对应的业务用户,在使用root用户登入postgres库时修改schema属主时报:ERROR:dn_6007_6008_6009:must be member of role "dtest"执行命令为:alter schema dtest owner to dtes…

好•真题资源+专业练习平台=高效备赛2025年初中古诗文大会(0829)

2025年初中生古诗文大会的初选11月2日-9日正式开赛,还有两个多月。快来做真题,吃透题目背后的知识点,举一反三不但对比赛有用,对于课内的语文学习也有很大促进。【好消息】2025年古诗文大会阅读专辑的模拟题好真题独家超详细完整解…

Pointer--Learing MOOC-C语言第九周指针

2、指针运算1.指针运算(本节内容详细请登录中国大学MOOC官网查询)指针是可计算的112?指针计算*p指针比较0地址指针的类型用指针来做什么2.动态内存分配输入数据:1.如果输入数据时候,先告诉你个数,然后再输入…

升级DrRacket8.10到8.18版本@Ubuntu24.04

升级DrRacket8.10到8.18版本 安装参考:在FreeBSD、Windows、Ubuntu24三种平台下安装Racket多范式编程语言_racket安装-CSDN博客 Ubuntu24.04里面的版本是8.10,所以无法使用apt upgrade升级,最终是使用下载升级软件,手工升级完成&#xff01…

亚马逊季节性产品运营策略:从传统到智能化的演进

"季节性产品如何在有限销售窗口内实现收益最大化?" "面对剧烈波动的市场需求,广告投放该如何灵活应对?" "如何避免旺季断货或淡季资源浪费的库存难题?" "传统人工运营方式能否跟上季节性产品的…

解析xml文件并录入数据库

主函数:参数处理、信号处理、打开日志、解析参数到结构体、添加进程心跳、处理业务函数业务处理函数:将规则xml加载到结构体(xml文件名、对应表名、更新标志、预先执行语句)、打开源文件夹并匹配10000个xml文件、判断数据库是否开…

mongoDB学习(docker)

docker 命令创建mongoDBdocker pull mongo docker run -d --name my-mongo \-e MONGO_INITDB_ROOT_USERNAMEroot \-e MONGO_INITDB_ROOT_PASSWORD123456 \-v /my/data/mongo:/data/db \-p 27017:27017 \mongodocker run -d --name my-mongo -e MONGO_INITDB_ROOT_USERNAMEroot…

软件测试(四):等价类和判定表

1.等价类划分表例:qq号等价类测试用例:无论有效无效,对应的用例都只举一个数据例子(例子在其对应的用例情况区间任选一个即可)自测案例写完测试用例后执行测试用例验证(借助工具DDSP)实际结果与…

week5-[二维数组]翻转

week5-[二维数组]翻转 题目描述 给定一个 nnn\times nnn 的正方形二维数组,将它旋转 180180180 度后输出。 输入格式 输入共 n1n 1n1 行。 第 111 行 111 个正整数 nnn。 接下来 nnn 行,每行 nnn 个正整数 aija_{ij}aij​ 表示这个二维数组。 输出格式 …

微调大模型并部署服务提供外部调用

微调大模型并部署服务提供外部调用1.背景知识介绍说明LoRA 微调算法LoRA原理:微调常见框架2. 环境搭建下载并使用docker compose部署 LLaMA-Factory3. 微调微调结束之后导出模型4. 本地运行模型5. 服务http调用验证应用到的技术 微调框架( LLama-Factory…

命令行操作:逻辑运算符、重定向与管道

命令行操作:逻辑运算符、重定向与管道前言一、逻辑运算符1.1. 逻辑运算符 && (AND)1.2. 逻辑运算符 || (OR)1.3. 标准文件描述符 (FD)二、重定向2.1 重定向: > 与 >>2.2 重定向错误输出: 2>/ 与 2>>2.3 POSIX 推荐(经常使用)三、管道 (顺…

IDA Pro 逆向安卓 SO 库实战指南:从静态分析到动态调试

IDA Pro 逆向安卓 SO 库是一个系统性的工程。下面我将为你提供一个从环境准备、基础静态分析到高级动态调试的完整实战指南。一、 准备工作与环境搭建 所需工具IDA Pro: 主力逆向工具,建议使用 7.7 或更高版本,对 ARM/ARM64 架构支持更好。目标 APK:…

Python爬虫(47)Python异步爬虫与K8S弹性伸缩:构建百万级并发数据采集引擎

目录一、背景与行业痛点二、核心技术架构解析2.1 异步爬虫引擎设计2.2 K8S弹性伸缩架构三、生产环境实践数据3.1 性能基准测试3.2 成本优化效果四、高级优化技巧4.1 协程级熔断降级4.2 预测式扩容五、总结🌈Python爬虫相关文章(推荐)一、背景…

处理器的双发射是什么?

处理器的双发射是什么? 这是一个处理器微架构层面的概念,对于理解现代高性能CPU(包括一些Cortex-M7/M55/M85等高端MCU内核)如何提升性能至关重要。 核心摘要 双发射 是一种处理器设计技术,允许CPU的译码器在一个时钟周期内,同时解码并派发两条指令到不同的执行单元中去…

麒麟操作系统挂载NAS服务器

前言:因信创整改,需将原服务器的服务全部迁移到信创服务器,在部署完应用后,发现外挂了NAS服务(可用df -h查看挂载文件),于是在信创服务器上需要挂载NAS服务器。在Linux上挂载NAS服务器可以通过多…

qt配置ros2环境,简单版本

因为不同的系统环境会有差异,先把我的环境介绍如下: 系统:Ubuntu22.04 ROS版本:ros2 humble Qt版本:qt-5.14.2 要配置Qt中的ros环境,需要在Qt的系统环境中添加2个变量,一个是编译环境变量、一个…

【基于C# + HALCON的工业视觉系统开发实战】三十六、PCB焊点缺陷检测:0漏检的局部变形匹配技术

摘要:针对PCB焊点检测中虚焊、锡珠、偏移三大核心缺陷,本文提出基于局部变形匹配与黄金模板的工业级解决方案。系统采用"同轴光源+四向可调支架"的硬件布局消除器件阴影,结合HALCON 24.11的局部变形匹配算法适应PCB热膨胀形变。通过多尺度模板库自学习机制实现8秒…