背景

某夜间例行网络变更后,集群中三台 ESXi 主机短暂失联,触发 vSphere HA 的虚拟机重启保护机制,导致约 40 台虚拟机被强制重启,业务出现短时中断。

排查过程

首先检查 vmkernel.log 中的网络心跳记录,发现管理网络与存储网络在变更窗口内出现约 12 秒的丢包,超过了 HA 默认的主机隔离判定阈值。

1
2
esxcli network diag ping -I vmk0 -H <isolation-address>
# 观察是否存在丢包或延迟突增

结合 vCenter 的事件日志,确认这批主机在心跳丢失期间被判定为”网络隔离”,触发了默认的虚拟机重启策略,而非更保守的”关机”策略。

根因

  • 核心交换机变更时生成树重新收敛,产生短暂网络风暴
  • HA 隔离响应策略配置为默认值,未结合实际网络拓扑做调优
  • 未配置独立的心跳数据存储,单一依赖管理网络判断

整改措施

后续将隔离响应策略调整为”保持虚拟机开机”,并额外配置两个心跳数据存储,降低误判概率;同时把核心网络变更纳入维护窗口流程,避免业务高峰期执行。