在对云平台进行巡检之前,首先,云服务商要定义巡检人员的角色职责,平台巡检员主要职责包括:为云计算平台户日常巡检及其应急运维提供支持,巡检内容包括物理资源、计算资源、存储资源、网络资源、高级云服务、云监控、日志审计等,接收和处理云平台使用人员提出的问题,对使用人员进行操作培训,配合二级运维开展相关工作。
其次,我们要确定云平台的巡检周期,云平台提供的巡检周期建议可分为每日、每周、每月、每季度、每半年,不同的周期内巡检的内容也不一样。
主机巡检
主机是云平台稳定运行的物理依赖,直接影响着云平台的性能变化与存活状态,主机每日巡检内容为主机状态、CPU、磁盘与内存利用率。
云组件巡检
云组件包括云控制器(CLC)、集群控制器(CC)、节点控制器(NC)、云数据库(MySQL)、BingoFS、Ceph、SDN 控制器。云平台组件的健康状态直接影响云平台的可用性。每日巡检项目为云组件的可用值与可用率。
云服务巡检
每日巡检的云服务包括基础云、负载均衡、云编排服务、云监控、弹性伸缩、关系数据库、简单通知服务、对象存储服务、自助服务平台(SIP)等等。巡检项目为云服务的可用率。
存储设备巡检
存储设备的每日巡检内容包括 BingoFS、本地文件系统、本地逻辑卷、Ceph,巡检项目为存储设备的可用率。
平台警报巡检
平台警报类型分为实例、存储卷、负载均衡、弹性组、云主机、区域、服务,巡检项目为警报类型的数量。
以上是关于云服务器巡检流程文档的介绍,西部数码云服务器强劲稳定,超过1000台云服务器的资源池,完美支持热迁移。技术人员7*24不间断机房现场服务,云服务器产品链接 https://www.west.cn/cloudhost/