【IT-Infra】从ITIL到CMDB,配置管理,资产管理,物理机与设备管理(含Infra系列说明)
文章目录
- 序:Infra系列说明
- 1、ITIL 信息技术基础架构库(起源)
- 2、CMDB 配置管理数据库(ITIL最主要部分,运维标准化实践者)
- 3、资产管理、物理机管理、设备管理(例子)
- 结:更多IT Infra
序:Infra系列说明
Infra系列说明
- Infra(Infrastructure)即基础设施,也就是企业里常见的ToB团队,基础架构部门,是为业务提效的通用团队,基本上所有的大型企业都会有。
- 工作中,作为一名基础设施相关的开发者,其实往往是业务需要什么就提供什么,工作内容涵盖开发,运维,甚至客服答疑。领域内容也包括 Cloud-Infra,Game-Infra,AI-Infrra,Data-Infra,甚至IT-Infra。
- 诚然,想要成为一名优秀的Infra,这些都必不可少,哪怕是管理者,也得开发运维客服,但是作为一个普通人,我觉得适当的整理,扩充知识面,尽量做到专精+覆盖面广,有意识有方向的去沉淀一些东西,是个人成长中有意义的一环,是成为架构师乃至高级管理者的基础,从而避免沉浸在低级答疑中沦为高级客服。
Infra系列预告
-
Cloud Infra(云基础设施)
核心定位:云服务提供商(如 AWS、阿里云)为用户提供 IT 资源的底层基础设施,是 “基础设施即服务(IaaS)” 的载体。
核心组成:
硬件:大规模服务器集群、虚拟化层(如 KVM/Xen)、SDN(软件定义网络)、分布式存储(如 Ceph);
软件:云管理平台(OpenStack/VMware vSphere)、弹性伸缩工具、多租户隔离系统;
配套:全球数据中心节点、灾备体系、边缘计算节点。 -
Game Infra(游戏基础设施)
核心定位:支撑游戏开发、运行、运营的端到端基础设施。
核心组成:
开发侧:游戏引擎(Unity/Unreal)的运行环境、版本控制工具(Perforce)、测试服务器集群;
运行侧:游戏服务器(高并发低延迟,如专用物理机或容器化部署)、全球分布式网络(CDN 加速游戏资源)、实时交互引擎(支撑多人联机);
运营侧:用户数据存储(如分布式数据库)、反作弊系统、监控告警平台(针对服务器卡顿、崩溃等问题)。 -
AI Infra(人工智能基础设施)
核心定位:支撑人工智能(训练、推理、部署)全流程的专用基础设施。
核心组成:
硬件:GPU/TPU 等加速芯片(如 NVIDIA A100、谷歌 TPU)、高带宽内存(HBM)、分布式存储(适配大规模数据集);
软件:深度学习框架(TensorFlow/PyTorch)、分布式训练框架(如 Horovod)、模型管理平台(如 MLflow);
架构:算力调度平台(如 Kubernetes+MPI)、数据预处理管道(ETL 工具适配非结构化数据) -
Data Infra(数据基础设施)
核心定位:支撑数据采集、存储、处理、分析全流程的基础设施,是大数据和数据驱动业务的底座。
核心组成:
存储:数据湖(如 HDFS)、数据仓库(如 Snowflake)、时序数据库(如 InfluxDB);
处理:计算引擎(Spark/Flink)、ETL 工具(DataStage)、流处理平台;
管理:元数据管理系统(如 Atlas)、数据质量管理工具、隐私计算框架(如联邦学习平台)。
1、ITIL 信息技术基础架构库(起源)
ITIL 信息技术基础架构库
-
ITIL 即信息技术基础架构库。 1, 2
这个缩写词的于 1980 年代首次使用,当时英国的中央计算机和电信局 (CCTA) 总结并推广了数十条 IT 服务管理领域的最佳实践。然而,ITIL 已不再指代“信息技术基础架构库”,并于 2013 年成为一个独立的术语。 -
ITIL是一套全球公认的IT 服务管理(ITSM) 最佳实践框架。
旨在帮助组织 优化IT 服务交付,提高运营效率,降低成本,并与业务需求保持一致。
ITIL 包含一系列流程和指导方针,涵盖了IT 服务生命周期的各个阶段,如服务战略、服务设计、服务转换、服务运营和持续服务改进。 -
ITIL 框架由 34 项最佳实践组成。
用于管理和改进 IT 支持和服务交付。ITIL 的主要目标是帮助企业通过让 IT 服务与业务目标保持一致,从中获取最大价值。 -
ITIL的未来
随着技术发展(如云计算、DevOps),ITIL 也在迭代(从 ITIL v3 到 ITIL 4)。
早期企业可能为合规性(如金融监管要求)强制员工考 ITIL 认证,但现在更关注 “ITIL 能否解决实际问题”—— 例如,互联网企业可能简化 ITIL 流程,结合 DevOps 实现 “快速变更 + 风险可控”。
“ITIL+CMDB”,“ITIL + 云计算”,“ITIL + 监控工具(如 Prometheus)” 的复合技能更受青睐,因为纯流程理论已无法满足数字化时代的运维需求。
什么是 ITIL 认证?(AXELOS)
- AXELOS介绍
AXELOS 是一家由UK Government Cabinet Office和Capita组成的合资企业。AXELOS 负责维护和发展ITIL和PRINCE2等框架,这些框架被全球数百万专业人士和组织用作指导,以提高效率、质量和业务成果。 - ITIL 证书介绍 1
有效期为三年,到期后需要通过 AXELOS 认可的合作伙伴进行续期。每项 ITIL 考试约为 300 刀。(2019年2月AXELOS发布ITIL4) - ITIL 4 管理专业人员 (ITIL MP) 1 2
ITIL 4 管理专业人员认证由四个模块构成,提供成功运行由 IT 支持的产品和服务的关键技能。
1、创建、交付和支持:此模块包括核心服务管理和服务创建。
2、推动利益相关者价值:此模块适用于希望与利益相关者建立关系,以便共同创造价值的 IT 专业人员。
3、高速 IT:此模块适用于在数字或高度自动化环境中工作,或提供数字产品和服务的 IT 专业人员。
4、指导、计划和改进:此模块适用于需要协调团队目标与组织战略的人员。 - ITIL认证适用人群
IT / 业务经理
信息中心主任
流程经理
资深 IT 人员
IT 支持 / 服务主管
数据中心运维主管
资深 IT 人员
Helpdesk 经理
专业 IT 项目 / 预算经理
做运维工作想往管理岗位发展的学员
其他对 ITIL 感兴趣的 IT 或业务人员
ITIL与市场价值
-
咨询顾问-BCM/ITIL/信息安全 18-30
面向金融/电信/电力/集团公司客户的IT管理层,独立进行ITIL/ISO20000咨询和解决方案售前,需求调研、材料编写、现场交流、咨询方案设计和编写、技术标书编写、投标现场讲解等;
作为项目经理和主咨询师,独立负责ITIL/ISO20000/咨询项目交付;
完成IT服务管理体系的建立与维护;
完成收集、调研、分析和总结对应行业的的咨询和分析方案;
指导客户进行体系落地实施;
带领团队分配项目工作.
5年以上经验,其中2年以上IT服务管理咨询经验,或3年以上甲方IT运维管理经验,有10个以上IT管理咨询项目经验;
有1-3年的IT管理岗位经验、IT审计、风险控制、信息科技管理、安全管理经验或咨询经验,以金融行业领域经验为优先; -
ITSM产品经理 18-26
信息技术服务管理(ITSM) 是指规划、实施、管理和优化端到端信息技术服务的实践,它旨在满足用户需求和达成业务目标。
参与项目的需求收集与需求分析,从项目整体角度完成相关文档的撰写;
负责产品需求分析、文档编写、交互设计;
协同销售、实施、研发团队共同服务客户,推进产品上线;
协同研发团队,进行需求澄清,推进产品迭代优化;
负责产品验收,确保产品保质保量上线; -
资深研发工程师(CMDB方向) 35-65
3-5年,负责基础设施及服务元数据管理平台的设计和研发,制定相关数据规范,推进数据体系化建设,提升数据运营效率和服务质量;
负责 PaaS 平台的建设,包括服务生命周期管理、权限中心、配额管理等相关生态产品的设计和开发;
负责公司级 CMDB 平台及周边生态产品的设计和研发,推动基础设施标准化和体系化建设。
2、CMDB 配置管理数据库(ITIL最主要部分,运维标准化实践者)
CMDB配置管理数据库
-
运维标准化与CMDB 1
标准化的时候,对关键的运维对象做了识别,主要分为两个部分:
1、基础设施层面:IDC 机房、机柜、机架、网络设备、服务器等;
2、应用层面:应用元信息、代码信息、部署信息、脚本信息、日志信息等。
这两部分是整个运维架构的基础部分,运维团队是维护的 Owner,需要投入较大的精力去好好地规划建设。
当我们识别出运维对象和对象间的关系,并形成了统一的标准之后,接下来要做的事情就是将这些标准固化,固化到某个信息管理平台中,也就是我们常说的配置管理,专业一点就叫作 CMDB(Configuration Management DataBase) -
CMDB 起源
CMDB作为运维核心部件,源于ITIL理论体系,但近年才被广泛认知和实施。
传统运维思路下的CMDB以设备为核心进行管理,但随着互联网技术的发展,CMDB的外延发生了变化,将应用作为核心对象进行管理。
互联网运维体系下的CMDB已经不同于传统概念,更广义地纳入了应用及其相关组件的配置管理范畴。 -
CMDB的原理 1
CMDB 的核心目标是建立 IT 环境的 “数字孪生”,通过标准化的数据模型和关系映射,实现对 IT 资源的全生命周期管理。
什么是 配置项(CI):所有对 IT 服务交付有影响的元素都可视为 CI,包括硬件(服务器、网络设备、存储)、软件(操作系统、应用程序、中间件)、文档(配置手册、流程规范)、人员(运维角色、负责人)等。每个 CI 包含基础属性(如名称、型号、IP 地址)、状态属性(如运行中、下线)、关系属性(如 “依赖于”“包含于”)。
CI 之间的关系是 CMDB 的核心价值,
例如:
依赖关系:应用 A 依赖服务器 B、数据库 C;
包含关系:服务器 B 包含网卡 B1、硬盘 B2;
归属关系:服务器 B 属于业务线 D。
关系模型可帮助运维人员快速定位故障影响范围(如 “服务器 B 宕机,会影响哪些应用?”),或评估变更风险(如 “升级数据库 C,需要同步调整哪些依赖组件?”)
知名 CMDB 项目
-
ServiceNow CMDB(商业) 1, 2 3
CMDB市场占有率第一,22%,与 ITSM 流程深度融合,支持多租户和云原生,内置 AI 辅助数据清洗
ServiceNow(世界500强,全球SaaS公司排名第三,市值2000亿USD)旗下的主要产品。
ServiceNow的核心业务是提供一个基于云的平台,使企业能够自动化其日常运营,包括IT服务管理(ITSM)、IT运营管理(ITOM)、客户服务管理(CSM)和人力资源服务交付(HRSD)。 -
国外市场(商业) 1
1、Salesforce 作为一家saas公司,虽然CMDB不是其主要业务,但是可以与之结合,因此也有相关产品。Salesforce (赛富时)是财富世界500强,客户关系管理(CRM)软件服务提供商。常用的产品有营销云、电子商务、服务云和PaaS平台。
2、其他 企业级Saas相关软件服务提供商,如IBM 和甲骨文,各自的业务重点和优势领域不同,它们都有与 CMDB 相关的功能或产品,但在具体实现和应用场景上存在差异。国内360,金山,宝信,用友,拓维等,相对没那么大,也比较少做这个方向的内容。
3、BMC Software:凭借 BMC Atrium CMDB 在传统企业级市场的深厚积累,份额约15%-18%,侧重电信、能源等行业。
4、IBM:通过 Tivoli 系列产品提供 CMDB 解决方案,份额约12%-15%,在混合云管理和大型企业客户中表现突出。
5、Micro Focus:整合 HP 资产后,CMDB 解决方案在运维自动化领域占 8%-10% 份额。 -
国内市场(商业)
阿里云、腾讯云、华为云:依托云服务生态,提供轻量化 CMDB 解决方案,占据 35% 市场份额,但增速放缓至 8%。
用友、金蝶:在企业 ERP 与 CMDB 集成领域表现强劲,份额约15%-20%,重点服务制造业和gov客户。
新兴 SaaS 服务商:如 OneCMDB、CMDBuild 等垂直领域厂商,以年均 45% 的增速抢占细分市场,尤其在金融级容灾管理等领域。 -
代表性开源 CMDB: 2 3
iTop、GLPI、Snipe-IT 等在中小企业和开发者社区中广泛应用,但整体市场份额不足5%,主要因功能深度和技术支持有限。
趋势:开源项目更多作为定制化解决方案的基础,与商业工具结合使用,例如通过 iTop 构建基础架构后,再集成 ServiceNow 的高级功能。
NetBox(18k) NetBox 旨在赋能网络工程师。自 2016 年发布以来,它已成为全球数千家企业用于建模和记录网络基础设施的首选解决方案。 1
腾讯蓝鲸智云配置平台(6k) 1 蓝鲸配置平台提供了全新自定义模型管理,用户不仅可以方便地实现内置模型属性的拓展,同时也能够根据不同的企业需求随时新增模型和关联关系,把网络、中间件、虚拟资源等纳入到CMDB的管理中。 -
自研CMDB基础 1
大型企业,IT 环境高度定制化且技术团队成熟。有专属 IT 开发团队(具备 DevOps、数据库、网络等复合能力);IT 资产规模庞大(如 10 万 + 配置项)、关系复杂(跨地域、跨架构);对 “数据主权” 有强诉求(如监管要求数据不得出境,或需与涉密系统集成)。
企业自研 CMDB 是 “高投入、高适配” 的选择,仅适合 IT 环境复杂、技术团队成熟且有强定制需求的大型企业。对多数企业而言,“采购商业产品 + 适度定制” 或 “基于开源二次开发” 是更性价比的方案。核心逻辑是:CMDB 的价值在于 “数据的准确性和可用性”,而非 “是否自研”—— 即使是自研,若数据混乱、无法支撑 IT 运维和业务决策,也失去了其核心意义。
3、资产管理、物理机管理、设备管理(例子)
CMDB与资产管理系统
- CMDB 是 “IT 服务的关系图谱”,核心是通过配置项关系支撑服务管理流程;
- 资产管理系统是 “资产的财务与实物账本”,核心是控制成本与合规;
- 两者既独立又协同:重叠的资产数据可双向同步,CMDB 在此基础上扩展服务关系,资产管理系统则提供基础的生命周期数据,共同提升 IT 管理的效率与可靠性。
维度 | CMDB | 资产管理系统 |
---|---|---|
核心目标 | 支撑 IT 服务管理(如变更、故障处理),提供配置项关系以降低服务风险 | 控制资产成本、确保合规(如许可、财务)、提升资产利用率 |
管理范围 | 覆盖所有“影响 IT 服务的配置项”(硬件、软件、服务、关系、文档等) | 聚焦“实物资产”和“软件许可”(范围更窄) |
关注重点 | 配置项的“动态关系”和“服务相关性”(如“应用 A 依赖数据库 B”) | 资产的“静态属性”(如采购日期、价格)和“生命周期状态”(如在用/闲置) |
数据时效性 | 需实时更新(如服务器运行状态、应用部署版本变化) | 定期更新即可(如每月更新一次折旧数据) |
用户群体 | 主要服务于 IT 运维、服务台(支撑故障/变更处理) | 主要服务于财务、采购、IT 资产管理员(关注成本与合规) |
CMDB与物理机管理系统
-
CMDB 是 IT 运维的 “全局数据地图”,物理机管理系统是 “物理机的精细操作手册”。
前者负责整合关系、支撑决策,后者负责物理机的日常运维与监控。
两者协同可实现从 “单一硬件管理” 到 “IT 全链路可控” 的升级,尤其适合中大型企业复杂 IT 环境的管理需求。 -
物理机管理系统
是专注于物理服务器(物理机)全生命周期管理的工具,聚焦于物理硬件的日常运维操作与监控。
物理机资产台账管理(型号、序列号、采购日期、供应商、保修期限等);
硬件状态监控(CPU 使用率、内存占用、磁盘 IO、电源状态、温度等实时指标);
部署与维护管理(操作系统安装、驱动升级、硬件故障报修、维修记录);
资源分配管理(如物理机与业务系统的绑定、算力分配记录);
报废与处置流程(退役审批、资产回收、环保处置记录)。 -
物理机管理系统(资产记录+监控指标+部署运维+业务分配+处置管理)
-
一、资产台账管理
- 基础信息记录:存储物理机的核心属性,如型号(如戴尔 PowerEdge R750、华为 FusionServer Pro)、序列号、CPU 型号 / 核心数、内存容量 / 类型、硬盘数量 / 容量 / 接口类型(SATA/SAS/SSD)、网卡数量 / 速率、电源配置(单电源 / 冗余电源)等硬件参数。
- 采购与归属信息:记录采购日期、供应商、采购价格、保修期限、所属部门 / 机房 / 机柜位置(精确到 U 位)、责任人等,形成完整的资产档案。
- 台账可视化:通过列表、看板或地图模式展示物理机分布(如 “北京机房 A 区机柜 12 的 U10-U12 部署了 3 台数据库物理机”),支持按型号、状态、所属业务等维度筛选查询。
-
二、硬件状态监控
- 实时指标采集:通过 Agent 或 IPMI(智能平台管理接口)等方式,实时监控物理机的硬件状态,包括 CPU 使用率、内存占用率、磁盘 IO 读写速度、网络带宽、电源运行状态、主板温度、风扇转速等。
- 告警与预警:当指标超出阈值(如 CPU 持续 90% 以上、磁盘故障预警、温度超过 80℃),系统自动触发告警(邮件、短信、企业微信 / 钉钉通知),并记录告警历史。
- 健康度分析:基于监控数据生成硬件健康评分,识别潜在故障风险(如某块硬盘的坏道数量持续增加,提前预警 “可能 30 天内故障”)。
-
三、部署与维护管理
- 1、装机与配置:支持标准化操作系统部署(如通过 PXE 网络启动自动安装 Linux/Windows Server),记录装机版本、分区方案、驱动程序信息;可预设硬件配置模板(如 “数据库物理机需配置 256GB 内存 + 4TB SSD”),确保部署合规。
- 2、维护记录跟踪:记录硬件维修、部件更换历史(如 “2024 年 5 月更换了冗余电源,供应商上门服务”)、固件 / BIOS 升级记录(如升级至最新版本修复安全漏洞),关联保修服务以避免超期维修费用。
- 3、远程控制集成:部分系统支持集成 IPMI、iDRAC(戴尔远程访问控制器)等远程管理接口,实现远程开关机、重启、硬件配置修改(如调整风扇转速策略),无需现场操作。
-
四、资源分配与业务绑定
- 业务归属管理:记录物理机与业务系统的绑定关系,如 “物理机 A 承载核心交易系统的数据库服务”“物理机 B 作为灾备节点,绑定 CRM 系统的备用数据库”,明确资源用途。
- 算力分配监控:统计物理机的资源分配情况(如 CPU / 内存已分配给哪些虚拟机或直接部署的应用),识别 “资源闲置”(如某物理机内存使用率长期低于 30%)或 “过载”(如 CPU 长期满负荷运行)状态,为资源调整提供依据。
-
五、报废与处置管理
- 退役流程管控:发起物理机报废申请,关联审批流程(如部门负责人、IT 经理审批),审批通过后标记为 “待报废”。
- 处置记录:记录报废原因(如硬件老化、性能不足、故障无法修复)、处置方式(如拆解回收零部件、合规销毁、第三方环保处置),生成报废清单并同步至财务部门完成资产核销。
-
维度 | CMDB | 物理机管理系统 |
---|---|---|
管理范围 | 全IT环境的配置项(物理机、网络设备、软件、应用、业务等) | 仅聚焦物理服务器(硬件层面) |
核心目标 | 构建IT组件的“关系图谱”,支撑决策与流程 | 实现物理机全生命周期的高效运维操作 |
数据重心 | CI属性+关系(如“物理机A→虚拟机B→应用C”) | 物理机自身的属性+状态(如“CPU使用率80%”) |
依赖场景 | 需与ITSM、ITOM等系统集成发挥价值 | 可独立运行,聚焦物理机运维闭环 |
CMDB与设备管理系统
- CMDB(配置管理数据库)与设备管理系统是 IT 运维领域中紧密关联但定位不同的工具,前者侧重 “全 IT 组件关系映射”,后者聚焦 “物理 / 硬件设备的全生命周期管控”。
- 设备管理系统是 “设备的管家”,确保硬件资产的账实一致、状态可控;
CMDB是 “IT 世界的地图”,通过关系映射让设备管理从 “孤立的硬件管控” 升级为 “基于业务上下文的精准管理”。
维度 | CMDB | 设备管理系统 |
---|---|---|
管理范围 | 覆盖全IT组件(设备、软件、虚拟资源、应用等) | 聚焦物理/硬件设备(服务器、网络设备、终端、IoT设备等) |
核心数据 | 配置项属性+关系(如“设备A→依赖网络交换机B”) | 设备属性+全生命周期记录(如“设备A的采购日期、维修记录、位置变更”) |
核心功能 | 关系建模、依赖分析、变更影响评估 | 资产台账、硬件监控、部署维护、报废处置 |
数据颗粒度 | 侧重“组件间的关联逻辑”(如“设备与应用的绑定”) | 侧重“设备自身的细节属性”(如“服务器的CPU型号、硬盘坏道数量”) |
结:更多IT Infra
IT 基础设施(IT Infrastructure,简称 IT Infra)
- 是支撑企业 IT 系统运行的底层硬件、软件、网络及相关服务的总和,其管理涉及多维度的技术、工具和方法论。
- IT 基础设施管理是一个 “硬件 + 软件 + 流程 + 工具” 的综合体:
CMDB是 “信息中枢”,串联所有组件的关系;
ITIL/SRE是 “流程框架”,规范运维动作;
IaC / 自动化工具是 “执行手臂”,提升效率;
监控与安全工具是 “防护网”,保障稳定与合规。 - 硬件是基础,软件是延伸,流程是规范,工具是赋能。四者协同,是保障 IT 系统稳定、高效、安全的核心。
一、硬件:基础设施的物理载体
- 硬件是 IT 基础设施的 “骨架”, 是所有逻辑资源和业务系统的运行基础。核心包括四类物理资源:
- 计算硬件:物理服务器(机架式、刀片式)、小型机、大型机、终端设备,需关注生命周期和资源利用率。
- 存储硬件:本地存储、集中存储(SAN/NAS)、分布式存储、备份设备,需监控容量、性能和可靠性。
- 网络硬件:交换机、路由器、防火墙、负载均衡器等,需关注拓扑、链路状态和端口状态。
- 机房设施:UPS、精密空调、机柜、动环监控设备,需保障硬件运行环境稳定。
二、软件:基础设施的逻辑支撑
- 虚拟化与容器化:
Hypervisor(如 VMware ESXi)实现服务器虚拟化,Docker 和 Kubernetes 支撑容器化部署,提高资源利用率。 - 系统与中间件:
操作系统(Linux、Windows)需管理版本和补丁;数据库、缓存、消息队列等中间件需监控性能和连接数。 - 安全软件:
EDR、防病毒软件保障终端安全;WAF、IDS/IPS 防护网络边界;IAM 和零信任工具控制访问权限。
三、流程:规范管理动作的框架
- ITIL 服务管理:
事件管理明确故障响应机制,变更管理规范配置修改审批,问题管理解决反复出现的故障。 - SRE 可靠性工程:
定义 SLO/SLA 明确可靠性目标,通过错误预算管理平衡稳定性与迭代速度,开展混沌工程验证容错能力。 - DevOps 协作:
CI/CD 流水线实现配置代码的自动化部署,IaC 流程确保配置可版本化和重复部署。
生命周期管理:规范硬件采购和报废流程,关联业务需求与合规要求
四、工具:落地管理的执行载体
- 监控工具:
Zabbix、Prometheus 监控基础设施状态;ELK、Splunk 管理日志;Jaeger、Zipkin 追踪请求链路。 - 配置与资产工具:
CMDB 记录资源属性及关系;资产台账工具管理硬件全生命周期;Terraform、Ansible 实现基础设施即代码。 - 网络与存储工具:
NMS 工具管理网络,存储管理工具监控存储性能。 - 安全与协同工具:
漏洞扫描和合规检查工具保障安全;工单系统和协同平台提升协作效率。