FC的日常维护与故障处理

  • Post author:
  • Post category:其他


日常操作维护

维护项目 检查项 正常状态 维护周期
查看系统告警 Fusion Compute上的告警 无新增告警 每天
检查Fusion Compute健康状态 健康检查报告 无“不合格”检查项 每天
检查设备运行状态 服务器、交换机和存储设备的指示灯状态 指示灯显示正常 每天
检查设备运行环境 温湿度 符合运行环境对温度和湿度的要求 每周
检查设备运行环境 空气质量 符合运行环境对空气质量的要求 每周
检查设备运行环境 防尘情况 无明显尘土附着 每周
查看预警整改公告

Huawei Enterprise Product & Service Support – Huawei

“选择“公告>产品公告>预警公告>IT>云计算数据中心>FusionSphere>FuserionSphere”查看预警整改公告
满足预警通知的要求 每月
  • 为保证系统长期正常、稳定的运行,维护工程师需要定期对系统进行检查,并根据检查出的异常结果排除故障。

系统配置(1)

  • 管理员可以根据业务需求对Fusion Compute系统配置参数做出调整

    • 配置域认证信息

    • 更行License

    • 修改系统LoGo

    • 配置登录超时时间

    • 配置资源调度周期

    • 配置SNMP管理站

    • VRM单节点扩展为主备部署

集群化控制管理

自动化级别:手动、自动

衡量因素:CPU、内存、CPU+内存

阈值:保守、较保守、中等、较激进、激进

阈值根据衡量因素的使用情况迁移虚拟机或主机。

为什么没有默认开启DPM或者DRS?

开启DRS的条件时要开启DPM,主机或虚拟机随时都处于就绪的状态,随时都流量的产生,造成资源浪费,设备的性能会变差。

IMC,屏蔽底层的CPU差异;在虚拟机迁移的过程中,不会因为对端的CPU版本不一致而导致迁移失败,目前只支持INTEL系列

FusionCompute账户

  • FUsionCompute账户分为:本地用户、域用户、接口对接用户。本地用户用于登录、管理系统;在配置域后可用域用户登录系统;接口对接用户用于其他用户对接。

  • Fusion’Compute登录账户如下表:

登录模式 默认账户/密码 账户权限
普通模式 admin/lassS@PORTAL-CLOUD8! 具有系统管理员权限
三员分立模式 系统管理员:sysadmin/Sysadmin#安全管理员:secadmin/Secadmin#安全审计员:secauditor/Secauditor# 系统管理员:仅具有系统业务操作维护权限,以及创建、删除用户的权限。安全管理员:仅具有用户、角色的权限管理权,但不能创建用户。安全审计员:仅有日志查看和日志导出权限,用于对其他用户的操作进行审查。

备份与恢复策略

  • 维护工程师在对系统进行重大操作(如升级、重大数据调整等)前,为了保证Fusion Compute在出现异常或为达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低,需要提前对VRM节点的数据进行备份。Fusion Compute同时支持对关键数据进行自动备份和手工备份。

  • 在对系统部件进行重大操作(如升级、重大数据调整等)后,系统可能出现异常或未达到预期结果。此时,需要对其进行回退,回退过程中需要进行数据恢复操作。

主机和集群创建流程

  • Fusion Compute主机和集群的故障处理,可以参考该流程顺序进行检查。

  • 主机和集群的故障可能会涉及如下关键故障点

    • 站点故障

    • 集群故障

    • 主机故障

    • 系统接口故障

主机和集群故障点

  1. 站点故障:不能使用FusionCompute,不能配置级联

  2. 集群故障:不能创建、修改、移除集群,集群配置故障

  3. 主机故障:不能添加、修改、移除主机,主机配置故障

  4. 系统接口故障:网口绑定异常,业务管理接口异常,存储接口异常

系统接口管理

  • FusionCompute管理如下几类系统接口:

    • 绑定网口

      • 绑定主机的网口,以提高网络的可靠性


      • 一般时两个及以上的业务口做绑定,目的是提升业务可靠性,增加带宽

    • 存储接口

      • 在主机中添加存储接口,实现主机与存储设备对接

      • 添加多个存储接口,可以实现存储的多路径传输


      • 链接存储网口,使其多路径传输

    • 业务管理接口

      • 承载一些特殊业务流量的系统接口,这些特殊业务包括热迁移虚拟机、虚拟机主机容灾、虚拟化SAN存储悉心跳检测等。


      • 是服务器的业务数据访问接口,还是与VRM链接的接口,VRM通过心跳与VM/主机连接

    • 管理口:mgmt,他是用于管理服务器的接口,相当于管理员

存储资源池配置流程

  • Fusion Compute存储池的故障处理,可以参考该流程顺序进行检查。

  • 存储池可能会涉及到如下关键故障点

    • 存储资源故障

    • 存储设备故障

    • 数据存储故障

    • 虚拟磁盘故障

存储资源池故障点

  1. 存储资源故障:不能添加、修改、删除存储资源

    • 不能关联存储资源

  2. 存储设备故障:扫描不到存储设备

  3. 数据存储故障:添加、修改、移除数据存储异常,关联、解关联主机异常

    • 数据存储异常

  4. 虚拟磁盘故障:创建、绑定、解绑定、删除虚拟磁盘异常

    • 调整容量异常

    • 快照异常

    • 迁移异常

网络池创建流程

  • FusionCompute网络池的故障处理,可以参考该流程顺序进行检查。

  • 网络池肯能会涉及到如下关键故障点:

    • 分布式交换机故障

    • 上行链路故障

    • VLAN池故障

    • 子网故障

    • 端口组故障

  • 因网络池的各个组件关联紧密,可以统一概括成如下故障

    • 虚拟机之间通讯故障

    • 虚拟机和外部网络通讯故障

虚拟机的创建方式

  • 创建空虚拟机

    • 创建空虚拟机时,可以选择创建在主机或集群上,并可自定义CPU、内存、磁盘、网卡等规格

    • 空虚拟机创建完成后,需要在上面安装操作系统

  • 使用模板创建虚拟机

    • 按模板部署虚拟机或模板导入虚拟机时,以下属性继承自模板,其他属性可以自定义。

    • 虚拟机的操作系统类型和操作系统版本号

    • 虚拟机磁盘的数量和容量

    • 虚拟机的网卡数

  • 使用虚拟机创建虚拟机

    • 克隆虚拟机过程中,以下属性继承自原虚拟机,其他属性可自定义。

    • 虚拟机的操作系统类型和操作系统版本号

    • 虚拟机磁盘的数量和容量

    • 虚拟机的网卡数

    • 如果有一个要经常克隆的虚拟机,可以将该虚拟机转换为模板

虚拟机创建流程

  1. 选择创建位置

    • 集群or主机

  2. 设置虚拟机属性

    • 虚拟机名称

    • 操作系统类型、版本号

    • 硬件规格(CPU/内存/磁盘数/网卡数)

    • 虚拟机蓝屏策略

  3. 设置网卡和磁盘

    • 网卡所属的分布式交换机和端口组

    • 磁盘属性(数据存储、配置模式、容量、是否受快照影响、持久化

  4. 创建虚拟机

    • 确认信息

  • Fusion Compute三种虚拟机创建方式都需要经过“选择创建位置”、“设置虚拟机属性”、“设置网卡和磁盘”和“创建虚拟机”四个过程

  • 虚拟机创建、调整、回收、操作和虚拟机模板转换、管理等故障都可以参考该流程逐一检查

两个虚拟机通信情况分析:

  1. 同主机、同OVS、同VLAN 直接通信

  2. 同主机、同OVS、不同VLAN 因为是OVS是二层,所以不具备路由交换功能,需要通过上行接口到三层物理交换机获取VM2的网关

  3. 不同主机、同OVS、同VLAN由VM3经过主机2的上行接口,达到三层交换机交换网关,获取路由,然后访问主机1的VM1

  4. 不同主机、不同OVS、相同VLAN 没办法通信

  5. 不同主机、不同OVS、不同VLAN 由VM发出保文,从上行接口出去到达三层交换获取路由

两个虚拟机不同的原因

  1. 同主机、同OVS、同VLAN对端VM IP网段是否为同一网段、对端的防火墙杀毒软件没关彻底、VM或主机异常

  2. 同主机、同OVS、不同VLAN 对端VM IP网段是否为同一网段、对端的防火墙杀毒软件没关彻底、VM或主机异常

  3. 同主机、同OVS、不同VLAN 对端VM IP网段是否为同一网段、对端的防火墙杀毒软件没关彻底、网络连接异常、端口配置



版权声明:本文为weixin_57726512原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。