@Pushgateway 数据自动清理

文章目录

  • Pushgateway 数据自动清理
    • 一、Pushgateway 数据清理的必要性
    • 二、自动清理方案
      • 方案1:使用带TTL功能的Pushgateway分支版本
      • 方案2:使用Shell脚本定期清理
      • 方案3:结合Prometheus记录规则自动清理
    • 三、最佳实践建议
    • 四、验证与维护
    • 五、示例
    • 1. 基于时间的自动清理
      • 1.1 使用 Pushgateway 的 API 定期清理
      • 1.2 使用 Pushgateway 的 `--persistence.file` 和 `--persistence.interval` 参数
    • 2. 基于任务的自动清理
      • 2.1 任务完成后自动清理
      • 2.2 使用 Kubernetes Finalizers (如果运行在 K8s 中)
    • 3. 高级自动清理方案
      • 3.1 使用 Pushgateway 的 Admin API (需要启用)
      • 3.2 使用 Prometheus 记录规则标记过期数据
    • 4. 示例最佳实践建议

Pushgateway 数据自动清理

Pushgateway 作为 Prometheus 生态中的一个重要组件,主要用于临时和批处理作业的指标推送。然而,Pushgateway 默认不会自动清理过期指标数据,这可能导致指标堆积、内存占用过高甚至服务崩溃。以下是 Pushgateway 数据自动清理的完整解决方案。

一、Pushgateway 数据清理的必要性

Pushgateway 设计上不会自动删除推送给它的任何指标数据,这带来几个主要问题:

  1. 指标数据会无限期保留,即使相关作业已终止
  2. 随着时间推移,Pushgateway 内存占用会不断增长,可能导致服务崩溃
  3. Prometheus 会持续拉取这些过期数据,影响监控准确性

二、自动清理方案

方案1:使用带TTL功能的Pushgateway分支版本

一个社区维护的Pushgateway分支版本支持TTL(Time-To-Live)功能:

docker run -d -p 9091:9091 dmathai/prom-pushgateway-ttl:latest --metric.timetolive=60s

参数说明:

  • --metric.timetolive:设置指标的存活时间(如60s),超过此时间的指标会自动删除

优点:实现简单,无需额外维护
缺点:非官方版本,可能存在兼容性问题

方案2:使用Shell脚本定期清理

以下脚本可删除超过指定时间(如60秒)未更新的指标:

#!/bin/bash
baseurl=localhost:9091
for uri in $(curl -sS $baseurl/api/v1/metrics | jq -r '.data[].push_time_seconds.metrics[0] |select((now - (.value | tonumber)) > 60) |(.labels as $labels | ["job", "instance"] | map(.+"/"+$labels[.]) | join("/"))
'); docurl -XDELETE $baseurl/metrics/$uri
done

部署步骤

  1. 确保系统已安装jqcurl工具
  2. 将脚本保存为/opt/scripts/pushgateway_clean.sh
  3. 添加执行权限:chmod +x /opt/scripts/pushgateway_clean.sh
  4. 设置crontab定期执行(如每分钟):
*/1 * * * * /bin/bash /opt/scripts/pushgateway_clean.sh >/dev/null 2>&1

注意事项

  • 脚本假设所有Group都包含jobinstance标签
  • 如果Group包含其他标签,需要修改脚本中的标签列表
  • Group Labels有特定顺序,顺序不正确会导致删除失败

方案3:结合Prometheus记录规则自动清理

  1. 首先在Prometheus中创建记录规则,识别过期指标:
# prometheus.yml 中添加
rule_files:- 'pushgateway_rules.yml'
# pushgateway_rules.yml 内容
groups:
- name: pushgateway_cleanuprules:- record: pushgateway:stale_metricsexpr: time() - push_time_seconds > 60
  1. 使用Prometheus API查询过期指标并删除:
#!/bin/bash
STALE_METRICS=$(curl -s 'http://prometheus:9090/api/v1/query?query=pushgateway:stale_metrics' | jq -r '.data.result[].metric.job')for JOB in $STALE_METRICS; docurl -X DELETE "http://pushgateway:9091/metrics/job/$JOB"
done

三、最佳实践建议

  1. 合理设置指标生命周期

    • 短周期作业:设置较短的TTL(如5-10分钟)
    • 长周期作业:设置与作业周期匹配的TTL
  2. 标签设计规范

    • 确保每个作业有唯一的job名称
    • 包含有意义的instance标签
    • 避免使用易变的标签值
  3. 监控Pushgateway自身

    • 监控pushgateway_http_requests_total了解API调用情况
    • 监控pushgateway_metrics_count了解指标数量变化
  4. 持久化配置
    如果需要保留某些关键指标,可以启用持久化:

    docker run -d -p 9091:9091 -v /data:/data prom/pushgateway --persistence.file=/data/pushgateway.data
    

四、验证与维护

  1. 验证自动清理效果

    • 定期检查pushgateway_metrics_count指标
    • 通过Pushgateway Web界面(默认9091端口)查看当前指标
  2. 日志监控

    • 监控清理脚本的执行日志
    • 设置告警规则,当清理失败时通知
  3. 定期审查

    • 每季度审查TTL设置是否仍符合业务需求
    • 根据业务变化调整清理策略

通过实施以上SOP,可以有效管理Pushgateway中的指标数据,避免因数据堆积导致的问题,同时确保监控系统的稳定运行。

五、示例

1. 基于时间的自动清理

1.1 使用 Pushgateway 的 API 定期清理

#!/bin/bash
# cleanup_old_metrics.shPUSHGATEWAY="http://pushgateway.address:9091"
RETENTION_HOURS=24  # 保留24小时内的数据# 获取当前时间戳
CURRENT_TS=$(date +%s)# 获取所有指标组
METRIC_GROUPS=$(curl -s "${PUSHGATEWAY}/api/v1/metrics" | jq -r '.data[].pushTimeUnixSeconds')# 遍历并清理过期数据
for group in $METRIC_GROUPS; doPUSH_TIME=$(echo $group | jq -r '.pushTimeUnixSeconds')AGE_HOURS=$(( (CURRENT_TS - PUSH_TIME) / 3600 ))if [ $AGE_HOURS -gt $RETENTION_HOURS ]; thenJOB_NAME=$(echo $group | jq -r '.labels.job')INSTANCE=$(echo $group | jq -r '.labels.instance')echo "Deleting ${JOB_NAME}/${INSTANCE} (age: ${AGE_HOURS}h)"curl -X DELETE "${PUSHGATEWAY}/metrics/job/${JOB_NAME}/instance/${INSTANCE}"fi
done

设置定时任务

# 每天凌晨1点执行清理
0 1 * * * /path/to/cleanup_old_metrics.sh

1.2 使用 Pushgateway 的 --persistence.file--persistence.interval 参数

启动 Pushgateway 时添加:

./pushgateway \--persistence.file=/tmp/pushgateway \--persistence.interval=5m \--web.enable-admin-api

这样 Pushgateway 会定期将内存中的数据持久化到文件,并在启动时恢复。

2. 基于任务的自动清理

2.1 任务完成后自动清理

#!/bin/bash
# job_script.shJOB_NAME="my_batch_job"
INSTANCE=$(hostname)
PUSHGATEWAY="http://pushgateway.address:9091"# 注册退出时清理的钩子
function cleanup {echo "Cleaning up Pushgateway metrics..."curl -X DELETE "${PUSHGATEWAY}/metrics/job/${JOB_NAME}/instance/${INSTANCE}"
}
trap cleanup EXIT# 推送指标
echo "job_status{state=\"running\"} 1" | curl --data-binary @- "${PUSHGATEWAY}/metrics/job/${JOB_NAME}/instance/${INSTANCE}"# 执行实际任务
your_actual_task_here# 更新最终状态
echo "job_status{state=\"finished\"} 1" | curl --data-binary @- "${PUSHGATEWAY}/metrics/job/${JOB_NAME}/instance/${INSTANCE}"

2.2 使用 Kubernetes Finalizers (如果运行在 K8s 中)

apiVersion: batch/v1
kind: Job
metadata:name: example-job
spec:template:spec:containers:- name: mainimage: your-imagecommand: ["/bin/sh", "-c"]args:- |# 推送指标echo "job_running 1" | curl --data-binary @- http://pushgateway/metrics/job/example-job/instance/${HOSTNAME}# 执行任务your-task-here# 退出前清理curl -X DELETE http://pushgateway/metrics/job/example-job/instance/${HOSTNAME}restartPolicy: Never

3. 高级自动清理方案

3.1 使用 Pushgateway 的 Admin API (需要启用)

启动 Pushgateway 时添加 --web.enable-admin-api 参数,然后可以使用:

# 清理所有指标
curl -X PUT "${PUSHGATEWAY}/api/v1/admin/wipe"

3.2 使用 Prometheus 记录规则标记过期数据

在 Prometheus 配置中添加记录规则:

rule_files:- 'pushgateway_rules.yml'

pushgateway_rules.yml 内容:

groups:
- name: pushgateway_cleanuprules:- record: pushgateway_metric_expiredexpr: |time() - pushgateway_metric_push_time > 86400  # 24小时过期unless ON(job, instance) pushgateway_metric_value

然后可以基于此规则触发清理操作

4. 示例最佳实践建议

  1. 分层清理策略

    • 短期任务:任务完成后立即清理
    • 中期监控:设置24小时保留期
    • 长期数据:考虑直接写入Prometheus或其他TSDB
  2. 监控清理过程

    # 监控Pushgateway指标组数量
    curl -s "${PUSHGATEWAY}/metrics" | grep 'pushgateway_metrics_entries'
    
  3. 避免清理风暴

    • 大规模清理时添加延迟
    • 考虑分批清理
  4. 日志记录

    • 记录所有清理操作
    • 监控清理失败情况

通过以上方案,可以实现Pushgateway数据的自动化生命周期管理,避免无用数据积累。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908024.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QML视图组件ListView、TableView、GridView介绍

1 MVD模型 Model:模型,包含数据及其结构。View:视图,用于显示数据。Delegate:代理,规定数据在视图中的显示方式。2 ListView 以列表形式展示数据。2.1 属性 model:设置或获取列表视图的数据模型delegate:定义了列表中每一项的外观和行为currentIndex:获取或设置当前选…

解决vscode打开一个单片机工程文件(IAR/keil MDK)因无法找到头文件导致的结构体成员不自动补全问题。

最近一直在用vscode安装c/c插件后编辑STM32标准库(keil MDK)项目源文件,因为我感觉vscode在代码编辑方面比keil MDK本身优秀太多。发现打开工程后,结构体变量的成员在输入“.”后不自己弹出的问题,后来查找各方资料&am…

5分钟申请edu邮箱【方案本周有效】

这篇文章主要展示的是成果。如果你是第1次看见我的内容,具体的步骤请翻看往期的两篇作品。先看更正补全,再看下一个。 建议你边看边操作。 【更正补全】edu教育申请通过方案 本周 edu教育邮箱注册可行方案 #edu邮箱 伟大无需多言 我已经验证了四个了…

零知开源——STM32F407VET6驱动ILI9486 TFT显示屏 实现Flappy Bird游戏教程

简介 本教程使用STM32F407VET6零知增强板驱动3.5寸 ILI9486的TFT触摸屏扩展板实现经典Flappy Bird游戏。通过触摸屏控制小鸟跳跃,躲避障碍物柱体,挑战最高分。项目涉及STM32底层驱动、图形库移植、触摸控制和游戏逻辑设计。 目录 简介 一、硬件准备 二…

云台式激光甲烷探测器:守护工业安全的“智慧之眼”

在石油化工、天然气场站、城市燃气管网等场景中,甲烷泄漏的早期监测是保障生产安全的核心防线。云台式激光甲烷探测器凭借高精度、无接触、智能化的技术优势,成为工业安全监测领域的革新者。本文将深度解析其技术原理、核心功能及适用场景,助…

解决 Ubuntu 20.04 虚拟机中 catkin_make 编译卡死问题

完整解决步骤 1. 禁用当前交换文件 sudo swapoff /swapfile 2. 删除旧的交换文件 sudo rm /swapfile 3. 使用更可靠的创建方法 # 使用 dd 命令创建交换文件(更兼容但较慢) sudo dd if/dev/zero of/swapfile bs1M count4096# 或者使用 truncate 命令…

实验设计与分析(第6版,Montgomery)第5章析因设计引导5.7节思考题5.7 R语言解题

本文是实验设计与分析&#xff08;第6版&#xff0c;Montgomery著&#xff0c;傅珏生译) 第5章析因设计引导5.7节思考题5.7 R语言解题。主要涉及方差分析&#xff0c;正态假设检验&#xff0c;残差分析&#xff0c;交互作用图&#xff0c;等值线图。 dataframe <-data.frame…

linux变量的分类

文章目录 bash中的引号linux变量的分类1.环境变量2.本地变量&#xff1a;3.局部变量4.内置变量5. 位置参数变量6. 特殊变量 变量的定义规则8.数组 bash中的引号 双引号"" &#xff1a;会把引号的内容当成整体来看待&#xff0c;允许通过 符号引用其他变量值单引 号 …

逻辑回归知识点

一、逻辑回归概念 逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计方法&#xff0c;尤其适用于二分类问题。 注意: 尽管名称中有"回归"二字&#xff0c;但它实际上是一种分类算法。 解决二分类的问题。 API&#xff1a;sklearn.linear_model.Logis…

GCC内存占用统计使用指南

GCC 的 --print-memory-usage 选项用于在编译链接过程中输出程序的内存占用统计信息&#xff0c;特别适用于嵌入式开发等内存受限的场景。其主要作用和输出内容如下&#xff1a; 核心功能 显示内存分段占用 输出程序在目标设备内存中的分段占用情况&#xff0c;通常包括&#…

Vue3 + Typescript:类型使用记录 / 类型注解 / 积累

一、ReturnType<typeof createApp> ReturnType<typeof createApp> 是一种类型安全的写法&#xff0c;是 TypeScript 中的一个高级类型&#xff0c;它用于获取函数 createApp 的返回类型。 实例&#xff1a; import registerFocus from ./focus // 获取焦点 impo…

SIFT 算法原理详解

SIFT 算法原理详解 SIFT&#xff08;尺度不变特征变换&#xff0c;Scale-Invariant Feature Transform&#xff09;是一种经典的局部特征检测和描述算法&#xff0c;它能够在不同的尺度、旋转和光照变化下稳定地检测图像特征。SIFT 主要包括以下几个步骤&#xff1a;尺度空间极…

2024年认证杯SPSSPRO杯数学建模D题(第二阶段)AI绘画带来的挑战解题全过程文档及程序

2024年认证杯SPSSPRO杯数学建模 D题 AI绘画带来的挑战 原题再现&#xff1a; 2023 年开年&#xff0c;ChatGPT 作为一款聊天型AI工具&#xff0c;成为了超越疫情的热门词条&#xff1b;而在AI的另一个分支——绘图领域&#xff0c;一款名为Midjourney&#xff08;MJ&#xff…

电子电路:全面深入了解晶振的定义、作用及应用

本次了解重点: 1.压电效应的数学描述 2.生产工艺以及关键工序 3.电路设计部分如负阻原理和匹配电容计算 4.失效案例比如冷启动问题 5.新形态晶振技术引入5G和量子计算 6.温补晶振的补偿机制 7故障案例讲解-更换负载电池或增加预热电路 蓝牙音频断续-频偏导致 工控机死机-起振电…

【Java实用工具类】手撸SqlBuilder工具类,优雅拼接动态SQL,MyBatisPlus同款风格!

&#x1f4cc; 正文&#xff1a; 有时候我们项目底层是 JdbcTemplate 查询&#xff0c;没法像 MyBatisPlus 一样用 Wrapper 拼接条件&#xff0c;但我们又不想手撸字符串。那怎么办&#xff1f;我今天就给你整了个 SqlBuilder 工具类&#xff0c;支持 eq、ne、like、in、gt、l…

WEB3——开发者怎么查看自己的合约日志记录

在区块链中查看合约的日志信息&#xff08;也叫事件 logs&#xff09;&#xff0c;主要有以下几种方式&#xff0c;具体方法依赖于你使用的区块链平台&#xff08;如 Ethereum、BSC、Polygon 等&#xff09;和工具&#xff08;如 Etherscan、web3.js、ethers.js、Hardhat 等&am…

Maven-生命周期

目录 1.项目对象模型 2.依赖管理模型 3.仓库&#xff1a;用于存储资源&#xff0c;管理各种jar包 4.本地仓库路径 1.项目对象模型 2.依赖管理模型 3.仓库&#xff1a;用于存储资源&#xff0c;管理各种jar包 4.本地仓库路径

redis数据过期策略

redis数据过期策略有两种方案 1.惰性删除 2.定期删除 首先说惰性删除&#xff0c;对于已经过期的数据&#xff0c;访问这个key的时候判断key是否过期&#xff0c;如果过期则删除&#xff0c;这种方式对cpu友好&#xff0c;只有使用key的时候才会进行过期检查&#xff0c;用不到…

P1040 [NOIP 2003 提高组] 加分二叉树

目录 题目算法标签: 区间 d p dp dp, 动态规划, d f s dfs dfs思路代码 题目 P1040 [NOIP 2003 提高组] 加分二叉树 算法标签: 区间 d p dp dp, 动态规划, d f s dfs dfs 思路 给出的是一颗子树的中序遍历, s c o r e l r r o o t score l \times r root scorelrro…

uni-app学习笔记十七-css和scss的使用

SCSS 和 CSS的异同点 我们可以使用css和scss来设置样式。其中SCSS&#xff08;Sassy CSS&#xff09;是 CSS 预处理器 Sass&#xff08;Syntactically Awesome Stylesheets&#xff09;的一种语法格式&#xff0c;而 CSS&#xff08;Cascading Style Sheets&#xff09;是标准…