阿里云监控及运维常见问题

云监控介绍:

阿里云的云监控服务(CloudMonitor)是一款简单易用、功能强大的监控工具,主要用来帮助用户实时监控阿里 云上的各种资源(比如服务器、数据库、网络等),并在出现问题时及时发出警报,确保业务稳定运行。

1.打开阿里云,找到对应服务

点击立即开通

2.在控制台找到云监控服务

开通云主机监控策略

为需要监控的主机安装Agent,点击自动安装Agent

等待片刻, 重新刷新对应的CPU使用率、内存使用率、磁盘使用率的数据即可出现

系统报警服务配置

云监控中的报警服务规则配置的主要目的是帮助用户实时监控阿里云资源、线下IDC、其他云厂商产品或自定义监 控数据的运行状态,并在监控指标达到预设条件时,自动触发报警通知。通过这种方式,用户可以及时获取异常信息 并 快速采取措施,确保业务系统的稳定性和可靠性。

1:设置报警联系人

报警联系人: 当触发条件后,需要通知相关人员, 这些对应的人员信息需要提前录入

2:设置报警联系组

报警联系组:多个联系人合并为一个组, 不同的类型可以单独设置为组,告警的时候可以直接针对多个用户同时告警

3:设置报警规则

报警规则:帮助用户监控运行状态,并在监控指标达到预设条件时,自动触发报警通知

 

系统运维常见问题

问题一:CPU负载

1: 确认是否存在负载过高使用top或htop命令查看系统的平均负载值。

注意:如果负载值持续高于CPU核心数的0.5倍,则可能存在负载过高问题。如果超过1则负载已经较高了, 当超过2~3倍意味着负载超高,需要立即解决

这三个值即表示CPU分别1分钟、5分钟和15分钟的平均负载情况

2: 排查CPU负载过高的原因

原因具体表现如何解决
异常进程或服务占用大量 CPU 资源单个进程或服务占用大量 CPU 资源,导致整体 CPU 使用率升高。使用 top 或 htop 命令查看具体占用 CPU 资源的进程。
按 Shift+P 按键,按 CPU 使用率排序定位异常进程,然后通过 Kill -9 终止异常进程。
系统资源不足实例的 CPU 性能不足以支撑当前业务需求升级实例规格或者优化业务逻辑
磁盘或网络 I/O 瓶颈CPU 负载高但实际 CPU 使用率较低,可能是磁盘或网络 I/O 瓶颈导致优化磁盘读写,比如升级高性能云盘
优化网络带宽:增加公网带宽或调整内网流量分布
僵尸进程或不可中断的睡眠状态通过 top 命令观察,CPU 使用率不高但负载值较高ps -axjf|grep "D+" 查看是否存在僵尸进程或不可中断的睡眠状态, 如果存在,建议恢复其对应依赖资源或重启系统
系统遭遇病毒或恶意程序攻击CPU 使用率高但无法通过 top 等命令找到异常进程通过云监控监测异常时间点,检查是否存在异常域名或 IP 的网络通信, 如果确认,建议先备份数据,然后回滚实例并进行病毒扫描

 问题二:内存爆满

1: 确认是否存在内存爆满 使用top或htop命令查看,或者直接云监控查看均可。

注意:如果内存使用率持续接近或达到100%,则定义为内存爆满

当Mem行的 free值几乎为0时, 表示剩余内存几乎没有了

2: 排查内存过高的原因

原因具体表现如何解决
异常进程占用大量内存单个进程或程序长时间占用大量内存资源使用 top 或 htop 命令查看具体占用内存资源的进程。
按 M 按键,按内存使用率排序,定位异常进程,然后通过 Kill - 9 终止异常进程。
系统内存不足实例的物理内存不足以支撑当前业务需求升级实例规格或者优化业务逻辑
内存泄漏或代码缺陷应用程序在运行过程中不断消耗内存,导致内存使用率持续升高使用内存分析工具(如 Valgrind、jprofiler、jmap 等)分析应用程序的内存占用情况
根据分析结果优化业务代码,修复内存泄漏问题
已删除未释放的僵尸文件磁盘空间充足,但内存使用率仍然很高lsof|grep deleted 查找已删除但未释放的文件,然后重启相关进程以释放内存
系统缓存或虚拟内存不足系统缓存占用过多内存,或虚拟内存配置不足设置 Swap 分区,增加虚拟内存大小

ECS服务器巡检报告介绍

ECS服务器巡检报告一般是用于评估云服务器ECS实例及其相关资源(如磁盘、网络等)的健康状态和运行性能。 该报告基于对ECS实例的全面检查,包括性能指标、安全风险、配置合规性等多个维度的分析。通过巡检报告可以提高 系统的稳定性、安全性、优化资源配置和支持合规性审计工作

巡检报告主要内容:

内容说明
性能监控数据包括 CPU 使用率、内存使用率、磁盘 I/O、网络流量等关键性能指标
异常问题诊断列出 ECS 实例在运行过程中发现的异常问题,例如高 CPU 利用率、磁盘 I/O 异常、网络连接问题等。
每个异常项需要附带严重等级(如 Info、Warn、Critical)
安全风险评估检查 ECS 实例是否受到 DDoS 攻击或其他安全威胁,并提供防护建议
资源使用与配置分析检查 ECS 实例的资源配置是否合理,例如磁盘空间是否充足、带宽是否满足业务需求,并提供优化建议
事件记录与处理建议监测到云盘性能达到上限或未创建快照备份等风险事件,确保系统的稳定性和数据的安全性

云服务器监控可视化大屏

2:打开自定义大盘,创建大盘

2:根据需求添加对应监测指标

如: 添加CPU使用率(折线图) 其他类似

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/915562.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/915562.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入解析 vLLM 分布式推理与部署策略

在当今人工智能快速发展的时代,大型语言模型(LLM)的推理和部署面临着诸多挑战,尤其是当模型规模日益庞大时,如何高效地利用硬件资源成为关键问题。vLLM 作为一种强大的工具,为分布式推理和部署提供了多种策…

PostgreSQL 终端命令详解及实际应用案例

PostgreSQL 作为一款功能强大的开源关系型数据库,其终端命令是数据库管理员、开发人员日常操作的核心工具。这些命令覆盖数据库连接、对象管理、数据操作、备份恢复、权限控制等多个维度,掌握其实际应用场景能显著提升工作效率。本文结合不同行业的实操案…

步进电机基础

1、ENABLE‾\overline{ENABLE}ENABLE 的意思: ENABLE上面的横线表示这是一个低电平有效的信号:当ENABLE信号为低电平(0V或逻辑0)时,芯片被使能(激活)当ENABLE信号为高电平(VDD或逻辑…

Redis进阶--缓存

目录 一、引言 二、介绍 1.为什么Mysql的速度慢呢? 2.缓存更新策略 1.定期生成 2.实时生成 3.redis的内存淘汰机制 4.注意事项 1.缓存预热 2.缓存穿透 3.缓存击穿 4.缓存雪崩 三、总结 一、引言 本篇文章将介绍Redis其中一个重要的作用,作为…

微软原版系统下载的几个好用网站

“不要因为走得太远,而忘记为什么出发。” 愿每一位Windows用户,都能在这份情怀中找到属于自己的小确幸!满满的情怀! 微软官方渠道 微软官网提供纯净的ISO镜像下载,适用于Windows 10/11等系统。访问Microsoft官网下…

kotlin Flow快速学习2025

其实,第一章节,只是让你了解下Flow的基本情况。我们开发中,基本很少使用这种模式。所以来讲,我们甚至可以直接使用StateFlow和SharedFlow才是正途。这是很多教程没有说明的点。所以第一章随便浏览下即可。日后再补充理解都是可以的…

【人工智能99问】什么是教师强制?(16/99)

文章目录什么是教师强制?教师强制(Teacher Forcing)的定义原比例(Original Proportion)教师强制的举例说明(一)教师强制的举例说明(二)优点和缺点解决曝光偏差的方法什么…

【WPF】WPF 自定义控件之依赖属性

📦 WPF 自定义控件之依赖属性 在开发 WPF 应用时,自定义控件能帮助我们复用逻辑和样式,但我很快会遇到一个问题:在控件内部如何支持数据绑定和属性变更通知?特别是我们继承自 Control 的时候,已经不能再继承…

DOM型XSS破坏

目录 首先 然后 第一种 第二种&#xff08;DOM&#xff09; HTMLCollection HTML Relationships Custom 解 首先 <script>//urlencode解码 //location接口的hash属性是一个字符串&#xff0c;包含一个“#”后跟位置URL的片段标识符。如果URL没有片段标识符&#…

Linux C 多线程基本操作

我们已经了解进程的基本概念&#xff1a;进程是正在执行的程序&#xff0c;并且是系统资源分配的基本单位。当用户需要在一台计算机上去完成多个独立的工作任务时&#xff0c;可以使用多进程的方式&#xff0c;为每个独立的工作任务分配一个进程。多进程的管理则由操作系统负责…

C语言基础:二维数组练习题

1. 一个二维数组赋了初值&#xff0c;用户输入一个数&#xff0c;在该二维数组中查找。找到则返回行列位置&#xff0c;没找到则提示。#include <stdio.h>int main() {int arr[3][3] {{1, 2, 3},{4, 5, 6},{7, 8, 9}};int t;printf("要查找的数&#xff1a;")…

Java面试题034:一文深入了解MySQL(6)

Java面试题029&#xff1a;一文深入了解MySQL&#xff08;1&#xff09; Java面试题030&#xff1a;一文深入了解MySQL&#xff08;2&#xff09; Java面试题031&#xff1a;一文深入了解MySQL&#xff08;3&#xff09; Java面试题032&#xff1a;一文深入了解MySQL&#x…

Java基础教程(011):面向对象中的构造方法

10-面向对象-构造方法 构造方法也叫做构造器、构造函数。 作用&#xff1a;在创建对象的时候给成员变量进行初始化的。 ✅ 一、构造方法的特点特点说明与类同名构造方法的名称必须与类名相同没有返回类型构造方法没有返回值&#xff0c;甚至不能写 void自动调用使用 new 创建对…

Adobe Photoshop:数字图像处理的终极工具指南

Hi&#xff0c;我是布兰妮甜 &#xff01;Adobe Photoshop自1990年问世以来&#xff0c;已经成为数字图像处理领域的标杆和代名词。这款强大的软件不仅彻底改变了摄影、设计和艺术创作的方式&#xff0c;还深刻影响了我们消费和感知视觉内容的文化方式。从专业摄影师到社交媒体…

本期来讲讲什么是LVS集群?

集群和分布式 集群&#xff08;Cluster&#xff09;&#xff0c;解决某个问题将多台计算机组合形成的系统群。 常见的集群类型&#xff1a; 负载均衡(LoadBalancing&#xff0c;简称LB)&#xff1a;由多个相同配置的主机组成&#xff0c;每个主机经过调度承担部分访问&#…

JVM 类加载过程笔记

一、概述 JVM&#xff08;Java Virtual Machine&#xff09;在运行 Java 程序时&#xff0c;需要将 .class 字节码文件加载到内存中&#xff0c;并转换成可以被 JVM 执行的数据结构&#xff0c;这一过程就是 类加载过程&#xff08;Class Loading Process&#xff09;。 JVM 的…

基于爬虫技术的电影数据可视化系统 Python+Django+Vue.js

本文项目编号 25002 &#xff0c;文末自助获取源码 \color{red}{25002&#xff0c;文末自助获取源码} 25002&#xff0c;文末自助获取源码 目录 一、系统介绍二、系统录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状 六、核心代码6.1 查询数据6.2 新…

如何用 LUKS 和 cryptsetup 为 Linux 配置加密

在信息安全愈发重要的今天&#xff0c;为 Linux 系统盘配置全盘加密已经成为很多企业和个人的选择。LUKS&#xff08;Linux Unified Key Setup&#xff09;配合工具 cryptsetup 可以在不牺牲性能的前提下实现高强度加密。本文将通过一个故事化的场景&#xff0c;介绍整个配置过…

VIVADO技巧_BUFGMUX时序优化

1.版本说明日期作者版本说明2025xxxx风释雪初始版本 2.概述 基于VIVADO时序约束&#xff0c;BUFGMUX多路时钟选择原语的设计3.原语介绍 7系列FPGA/UltraSCale/UltraSCaleBUFGMUX_CTRL BUFGMUX_CTRL_inst (.O(O), // 1-bit output: Clock output.I0(I0), // 1-bit input: Cloc…