一次 HA 误触发导致的批量虚拟机重启复盘
背景
某夜间例行网络变更后,集群中三台 ESXi 主机短暂失联,触发 vSphere HA 的虚拟机重启保护机制,导致约 40 台虚拟机被强制重启,业务出现短时中断。
排查过程
首先检查 vmkernel.log 中的网络心跳记录,发现管理网络与存储网络在变更窗口内出现约 12 秒的丢包,超过了 HA 默认的主机隔离判定阈值。
1 | esxcli network diag ping -I vmk0 -H <isolation-address> |
结合 vCenter 的事件日志,确认这批主机在心跳丢失期间被判定为”网络隔离”,触发了默认的虚拟机重启策略,而非更保守的”关机”策略。
根因
- 核心交换机变更时生成树重新收敛,产生短暂网络风暴
- HA 隔离响应策略配置为默认值,未结合实际网络拓扑做调优
- 未配置独立的心跳数据存储,单一依赖管理网络判断
整改措施
后续将隔离响应策略调整为”保持虚拟机开机”,并额外配置两个心跳数据存储,降低误判概率;同时把核心网络变更纳入维护窗口流程,避免业务高峰期执行。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Sancker.dev!