某人寿保险自 2018 年起开始探索基于 SmartX 超融合架构搭建私有云 IaaS 资源池,先后部署了开发测试业务、生产业务和重要生产业务的 Oracle 数据库(含 RAC),并探索了基于海光芯片的信创云搭建,最终以基于超融合架构的榫卯企业云平台*,实现了一套架构对敏态、稳态业务的全面支撑。
* 榫卯企业云平台由 SmartX 全栈超融合方案升级而来,涵盖 SmartX 全栈基础设施能力,一套平台满足企业自建云的各阶段需求。
建云需求:打造弹性、敏捷且强健的基础架构
该人寿保险原有 IT 基础架构以物理服务器/VMware 虚拟化加中高端存储为主,面临架构复杂、项目建设成本高、运行维护复杂、系统故障率高、系统扩展性不足等诸多问题。为了进一步适应市场环境和需求,用户计划对 IT 基础架构进行分布式、云化转型,搭建更加弹性、敏捷且强健的基础架构。
同时在选型过程中,用户希望选择拥有自主研发能力、核心代码自主可控的产品和技术,这样在面对中等以上规模公司复杂的架构设计和软硬件兼容性需求,应用系统特异化存储读写需求等,可以从技术底层解决适配性问题 。
综合以上考虑及实际 POC 情况,用户在基于技术自主研发深度 、性能稳定可靠性、各虚拟化平台兼容性、硬件选型配置灵活性、软件规划配置简洁性、软件系统管理易用性、以及成本等多维度对比优势,最终选定基于 SmartX 超融合软件构建私有云 IaaS 平台,分阶段实现基础架构云化转型。
建云历程:从开发测试到核心生产,逐步演进
在技术落地过程中,用户本着“大胆设想,小心求证”的思路 ,先在开发测试环境部署若超融合干节点并优先使用原生虚拟化 ELF 平台,开发测试环境包含了所有业务的样本环境。在使用一年后充分验证了从 VMware 到 ELF 虚拟化数据迁移的可行性和稳定性,以及产品自身的可靠性、性能等技术指标。随后,用户持续推进多场景应用,从外围生产应用过渡到核心应用,在行业内率先将应用场景扩展到 MySQL 数据库、Oracle 数据库,构建起“能用且好用”的企业私有云。
从开发测试到生产系统
2018 年首次使用超融合架构承载开发测试环境后,集群一直稳定运行至今,平均每个节点承载开发测试虚机数量可达 60+,实现了对开发测试环境进行整合重建的目标。同时在对“团险销管”系统进行容器化改造时,用户发现同样的系统运行在基于超融合架构的测试环境中可以获得数十倍于传统架构的数据库查询性能,明显提升使用者感受。
随后推广到生产系统的过程中,用户首先将生产应用进行拆分,将一部分虚机迁移到超融合架构的生产系统集群,另外一部分保留在传统架构上,前端通过负载均衡进行分流,既能进一步检验超融合架构运行生产应用的实际效果,又能保证在极端情况下生产系统的稳定可靠。
经过半年多的实际验证以及对新架构的熟悉度增加,2019 年起用户开始部署更多生产集群,逐步接替原有传统架构,将生产系统在两个超融合集群间进行负责均衡。目前用户已将几乎全部的生产系统(应用)部署在 基于超融合架构的 SmartX 企业云平台中,包括个险核心、团险核心、个险个则引擎、团险规则引擎等。
从生产系统到核心业务数据库
为了更好地满足核心业务数据库的业务需求,用户计划将数据库业务系统也迁移至基于超融合架构的 SmartX 企业云平台,并进行了充分的性能及稳定性测试。测试工具采用 Swingbench,在长时间(8小时)压力测试中,无论是单库还是 RAC,性能、延时均可保持稳定,通过 SmartX 自带的监控平台观察,在整个压测过程中,CPU、内存负载平稳,存储性能输入平稳,符合预期。在性能测试环节,分别测试 200-500 并发用户情况下的性能表现,无论单库还是 RAC,TPS 均可保持在 19000+~22000+ 范围,延时会随着并发用户数增加略有增长,整体性能表现符合预期。
基于测试结果,用户新建了多套集群,支撑 MySQL DB(全闪架构)和 Oracle DB(包含 RAC),在满足高性能业务需求的同时实现了基础设施能力升级。
从 Intel 到海光平台的信创转型探索
从 2022 年开始,用户开始了基于海光芯片的国产化探索及转型之路。首期仅使用一套基于海光芯片的集群承载开发测试以及生产业务,支持用户初期的办公平台、邮件平台以及部分业务系统的信创改造以及上线工作。后期,用户继续搭建第二套基于海光芯片的集群,实现生产业务与开发测试业务的隔离。在第三期的项目,用户参考之前在 Intel 平台的运行经验,基于海光芯片的全闪服务器部署了一套专门的国产芯片数据库集群,进一步将生产环境的应用系统与数据库进行隔离。
用户收益
- 稳步建云:榫卯企业云平台支持用户采用模块化的建设方式,按需组合多种基础设施能力,自研的分布式存储、基于 KVM 深度研发的虚拟化,以及完善的国产化生态适配,支持用户灵活推进国产化转型。
- 性能提升:相比于服务器+集中存储的传统架构,榫卯企业云平台的 I/O 本地化、SSD 缓存等技术特性带了更多的性能提升;全分布式的部署模式,使得集群 I/O 性能再增加节点后可以获得线性增长。
- 降低总拥有成本:减少空间占用超过 50%,提升服务能源效率超过 30%,实现节能降碳的目标。
- 管理便捷:与 VMware 平台面向资源管理开发不同, SmartX 原生虚拟化 ELF 在兼顾资源管理的同时,大幅增加面向用户的易用性设计,可实现多套集群统一监控、统一调度资源,在线滚动升级、硬件即插即用等,秒级快照创建、秒级数据恢复极大提升数据保护能力,提高系统整体可用性,释放人力成本。