查看原文
其他

vSphere 故障排错思路总结

1 、故障排查思维逻辑

故障排查涉及到整体的排错方法论,总体而言,故障排查需要遵循一个工作逻辑:

  • 确认问题状况

        o 确认问题所在

        o 收集故障相关问题

  • 确认导致故障的原因

        o 确认什么原因导致的问题

        o 诊断问题的根本原因是什么

  • 解决问题

        o 制定可能的解决方案

        o 评估数据安全风险

        o 执行最佳解决方案


2 、故障排查逻辑图示(流程及细节)

图示说明:

  • 配置问题、软件 Bug、硬件故障是三种最为常见的故障

  • 软件 bug 示例

        o 在 ESXi 5.5 u1 或 u2 中存在这样一个常见的软件 Bug:网卡原因紫屏事件

  • 硬件故障示例

        o 若主机 HBA 卡电池出问题,可能会在写上面会有很差的表现


3 、vSphere  常规故障分层


4 、故障解决 E2E

故障状态

故障原因

1 个或多个 LUN 不可见

LUN 不可见,存储可能没有恰当的 MAP 到主

无法通过 vSphere Web Client 连接 vCenter

VirtualCenter Service 没有启动

Virtual Machine 无法启动

文件可能被锁定,文件可能丢失


5 、案例流程 -  故障状态(示例)


6 、案例流程 -  日志搜集(收集日志信息,用于进行故障分析)


7 、案例流程 -  可能性分析

利用结构化思维来进行故障分析,可以有效提高排错效率;

根据问题的提示,按照下图所示排错流程来进行排错

图示说明:

  • 自上而下进行排错

  • 自下而上进行排错

  • 从中间环节排错


8 、案例流程 -  查找问题的根源

通过反复测试,来确认问题的根源所在,例如:VM 无响应的排错逻辑:

图示说明:

如果仅仅是单台虚拟机无响应,建议自上而下

若涉及很多虚拟机响应慢,建议从中间环节

存在告警,建议从下而上


9、案例流程 -  解决问题

  • 完成问题根源定位之后,评估问题可能带来的影响

        o 较大影响 - 立即解决

        o 一般影响 - 条件许可的情况下解决

        o 较小影响 - 有空解决

  • 制定解决问题的方案

        o 头疼医头 - 立刻就事论事解决问题

        o 头疼医脚 - 避免同一个问题再次发生

        o 长远考虑 - 整体考虑,从未来的思路触发去执行问题处理


10、vSphere  常规故障排查流程 -  追根溯源(图示)

图示说明:

此处以 vMotion 为例,其它故障与此类似


11、vSphere  排错组件归纳

上文摘自《技术资料整理归集——vSphere 虚拟化优化与排错》,由社区会员上传分享,具体排错步骤、工具,可以点击阅读原文下载该文档。或关注我们后续的推送文章。


长按二维码关注公众号

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存