日常操作维护
维护项目 | 检查项 | 正常状态 | 维护周期 |
---|---|---|---|
查看系统告警 | Fusion Compute上的告警 | 无新增告警 | 每天 |
检查Fusion Compute健康状态 | 健康检查报告 | 无“不合格”检查项 | 每天 |
检查设备运行状态 | 服务器、交换机和存储设备的指示灯状态 | 指示灯显示正常 | 每天 |
检查设备运行环境 | 温湿度 | 符合运行环境对温度和湿度的要求 | 每周 |
检查设备运行环境 | 空气质量 | 符合运行环境对空气质量的要求 | 每周 |
检查设备运行环境 | 防尘情况 | 无明显尘土附着 | 每周 |
查看预警整改公告 |
” Huawei Enterprise Product & Service Support – Huawei “选择“公告>产品公告>预警公告>IT>云计算数据中心>FusionSphere>FuserionSphere”查看预警整改公告 |
满足预警通知的要求 | 每月 |
-
为保证系统长期正常、稳定的运行,维护工程师需要定期对系统进行检查,并根据检查出的异常结果排除故障。
系统配置(1)
-
管理员可以根据业务需求对Fusion Compute系统配置参数做出调整
-
配置域认证信息
-
更行License
-
修改系统LoGo
-
配置登录超时时间
-
配置资源调度周期
-
配置SNMP管理站
-
VRM单节点扩展为主备部署
-
集群化控制管理
自动化级别:手动、自动
衡量因素:CPU、内存、CPU+内存
阈值:保守、较保守、中等、较激进、激进
阈值根据衡量因素的使用情况迁移虚拟机或主机。
为什么没有默认开启DPM或者DRS?
开启DRS的条件时要开启DPM,主机或虚拟机随时都处于就绪的状态,随时都流量的产生,造成资源浪费,设备的性能会变差。
IMC,屏蔽底层的CPU差异;在虚拟机迁移的过程中,不会因为对端的CPU版本不一致而导致迁移失败,目前只支持INTEL系列
FusionCompute账户
-
FUsionCompute账户分为:本地用户、域用户、接口对接用户。本地用户用于登录、管理系统;在配置域后可用域用户登录系统;接口对接用户用于其他用户对接。
-
Fusion’Compute登录账户如下表:
登录模式 | 默认账户/密码 | 账户权限 |
---|---|---|
普通模式 | admin/lassS@PORTAL-CLOUD8! | 具有系统管理员权限 |
三员分立模式 | 系统管理员:sysadmin/Sysadmin#安全管理员:secadmin/Secadmin#安全审计员:secauditor/Secauditor# | 系统管理员:仅具有系统业务操作维护权限,以及创建、删除用户的权限。安全管理员:仅具有用户、角色的权限管理权,但不能创建用户。安全审计员:仅有日志查看和日志导出权限,用于对其他用户的操作进行审查。 |
备份与恢复策略
-
维护工程师在对系统进行重大操作(如升级、重大数据调整等)前,为了保证Fusion Compute在出现异常或为达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低,需要提前对VRM节点的数据进行备份。Fusion Compute同时支持对关键数据进行自动备份和手工备份。
-
在对系统部件进行重大操作(如升级、重大数据调整等)后,系统可能出现异常或未达到预期结果。此时,需要对其进行回退,回退过程中需要进行数据恢复操作。
主机和集群创建流程
-
Fusion Compute主机和集群的故障处理,可以参考该流程顺序进行检查。
-
主机和集群的故障可能会涉及如下关键故障点
-
站点故障
-
集群故障
-
主机故障
-
系统接口故障
-
主机和集群故障点
-
站点故障:不能使用FusionCompute,不能配置级联
-
集群故障:不能创建、修改、移除集群,集群配置故障
-
主机故障:不能添加、修改、移除主机,主机配置故障
-
系统接口故障:网口绑定异常,业务管理接口异常,存储接口异常
系统接口管理
-
FusionCompute管理如下几类系统接口:
-
绑定网口
-
绑定主机的网口,以提高网络的可靠性
-
一般时两个及以上的业务口做绑定,目的是提升业务可靠性,增加带宽
-
-
存储接口
-
在主机中添加存储接口,实现主机与存储设备对接
-
添加多个存储接口,可以实现存储的多路径传输
-
链接存储网口,使其多路径传输
-
-
业务管理接口
-
承载一些特殊业务流量的系统接口,这些特殊业务包括热迁移虚拟机、虚拟机主机容灾、虚拟化SAN存储悉心跳检测等。
-
是服务器的业务数据访问接口,还是与VRM链接的接口,VRM通过心跳与VM/主机连接
-
-
管理口:mgmt,他是用于管理服务器的接口,相当于管理员
-
存储资源池配置流程
-
Fusion Compute存储池的故障处理,可以参考该流程顺序进行检查。
-
存储池可能会涉及到如下关键故障点
-
存储资源故障
-
存储设备故障
-
数据存储故障
-
虚拟磁盘故障
-
存储资源池故障点
-
存储资源故障:不能添加、修改、删除存储资源
-
不能关联存储资源
-
-
存储设备故障:扫描不到存储设备
-
数据存储故障:添加、修改、移除数据存储异常,关联、解关联主机异常
-
数据存储异常
-
-
虚拟磁盘故障:创建、绑定、解绑定、删除虚拟磁盘异常
-
调整容量异常
-
快照异常
-
迁移异常
-
网络池创建流程
-
FusionCompute网络池的故障处理,可以参考该流程顺序进行检查。
-
网络池肯能会涉及到如下关键故障点:
-
分布式交换机故障
-
上行链路故障
-
VLAN池故障
-
子网故障
-
端口组故障
-
-
因网络池的各个组件关联紧密,可以统一概括成如下故障
-
虚拟机之间通讯故障
-
虚拟机和外部网络通讯故障
-
虚拟机的创建方式
-
创建空虚拟机
-
创建空虚拟机时,可以选择创建在主机或集群上,并可自定义CPU、内存、磁盘、网卡等规格
-
空虚拟机创建完成后,需要在上面安装操作系统
-
-
使用模板创建虚拟机
-
按模板部署虚拟机或模板导入虚拟机时,以下属性继承自模板,其他属性可以自定义。
-
虚拟机的操作系统类型和操作系统版本号
-
虚拟机磁盘的数量和容量
-
虚拟机的网卡数
-
-
使用虚拟机创建虚拟机
-
克隆虚拟机过程中,以下属性继承自原虚拟机,其他属性可自定义。
-
虚拟机的操作系统类型和操作系统版本号
-
虚拟机磁盘的数量和容量
-
虚拟机的网卡数
-
如果有一个要经常克隆的虚拟机,可以将该虚拟机转换为模板
-
虚拟机创建流程
-
选择创建位置
-
集群or主机
-
-
设置虚拟机属性
-
虚拟机名称
-
操作系统类型、版本号
-
硬件规格(CPU/内存/磁盘数/网卡数)
-
虚拟机蓝屏策略
-
-
设置网卡和磁盘
-
网卡所属的分布式交换机和端口组
-
磁盘属性(数据存储、配置模式、容量、是否受快照影响、持久化
-
-
创建虚拟机
-
确认信息
-
-
Fusion Compute三种虚拟机创建方式都需要经过“选择创建位置”、“设置虚拟机属性”、“设置网卡和磁盘”和“创建虚拟机”四个过程
-
虚拟机创建、调整、回收、操作和虚拟机模板转换、管理等故障都可以参考该流程逐一检查
两个虚拟机通信情况分析:
-
同主机、同OVS、同VLAN 直接通信
-
同主机、同OVS、不同VLAN 因为是OVS是二层,所以不具备路由交换功能,需要通过上行接口到三层物理交换机获取VM2的网关
-
不同主机、同OVS、同VLAN由VM3经过主机2的上行接口,达到三层交换机交换网关,获取路由,然后访问主机1的VM1
-
不同主机、不同OVS、相同VLAN 没办法通信
-
不同主机、不同OVS、不同VLAN 由VM发出保文,从上行接口出去到达三层交换获取路由
两个虚拟机不同的原因
-
同主机、同OVS、同VLAN对端VM IP网段是否为同一网段、对端的防火墙杀毒软件没关彻底、VM或主机异常
-
同主机、同OVS、不同VLAN 对端VM IP网段是否为同一网段、对端的防火墙杀毒软件没关彻底、VM或主机异常
-
同主机、同OVS、不同VLAN 对端VM IP网段是否为同一网段、对端的防火墙杀毒软件没关彻底、网络连接异常、端口配置