查看原文
其他

一起同城存储双活典型故障事件的处理

twt社区 twt企业IT社区 2022-07-03

【摘要】一起典型的同城存储双活故障事件的分析、原因定位及经验总结。

【作者】mac2008,一名从事IT行业10多年的老兵,曾分别获得IBM CATE、HP CSA、SUN SCSA、VMware VCP、HUAWEI HCNP等多项专业认证,就职于某大型互联网上市公司。


一、 故障概述

业务系统中断,部分虚拟机无法访问。通过VMware vsphere 控制台登录检查发现,虚拟机灰色状态,部分共享存储不可访问。


二、 故障处理

1. 硬件环境说明

硬件环境是做的同城存储双活,本地是一台EMC Vplex存储网关纳管2台EMC存储,前端是VMware ESXI主机集群,异地也是一台EMC Vplex 纳管2台EMC存储,前端是VMware ESXI主机集群,具体硬件架构如下图:

2. 故障分析处理

第一步:首先检查EMC VPlex存储网关和EMC存储,设备状态运行正常,排除EMC VPlex存储网关和EMC存储硬件故障。

第二步:检查SAN光纤交换机,第一眼看SAN交换机端口都是online状态,没有在意继续排查。

第三步:由于是EMC双活环境,对其中一台ESXi主机进行重启,重新识别共享存储,发现ESXI主机共享存储恢复正常访问,先恢复业务要紧呀。

第四步:通过逐台对ESXi主机进行重启,业务全部恢复正常。

第五步:收集EMC Vplex日志、VMware ESXI主机日志,配合厂商进一步分析。

3. 故障原因定位

第一步:通过VMware ESXI主机日志分析,存在如下报错信息:

vmkernel日志中显示 All Paths Down (APD) error ,时间在 00:06 UTC time,输出如下:

ESXI主机不能访问存储lun的原因是因为发生了All Path Down,会使得ESXI主机短暂丢失对datastore的访问,这段时间内IO error出现都是可能的。

现在初步判断:ESXI主机部分无法访问共享存储是因为发生了All Path Down导致,接下来故障原因聚焦在ESXI主机到共享存储多路径上。

第二步:重新检查SAN交换机端口状态,对2个站点光纤交换机SFP长波级联模块以及光纤链路进行光信号强度进行测试,发现生产中心到灾备中心直连光纤链路光衰较大,RX分别是-16dBm、-17dBm,偏离EMC存储双活环境推荐范围值。

EMC官方建议:EMC建议RX的收光功率最好大于-7dBm。日常实践证明,如果8G链路的收光功率小于-10dBm,交换机基本无法正常接收光信号。

第三步:进一步确认由于生产中心到灾备中心直连光纤链路光衰较大,导致EMC VPlex Metro Mirror 延时异常,生产中心部分共享存储发生All Path Down,从而导致虚拟机不可访问。中断EMC VPlex Metro Mirror, 协调运营商对生产中心到灾备中心直连光纤链路信号衰减进行修复。

第四步:运营商对生产中心到灾备中心直连光纤链路信号提高大于-7dBm后 ,重新进行EMC VPlex Metro Mirror存储数据同步,VMware 虚拟化平台主机运行恢复正常。


三、 技术分析

1、 SFP模块光功率信号强度分析

FC(fibre channel)交换机使用光信号传输数据,交换机的SFP/GBIC模块负责接受/发送光信号,并完成光/信号的相互转换。如果SFP模块接受/发送的光信号强度不够,势必会影响到上层FC链路的稳定性。一个优秀的SFP/GBIC模块是FC链路稳定的最基本保障。

衡量方法:

业界常见衡量光信号强度方法有两种:Microwatts(mW)和dBm,不同平台交换机采用方式可能会不一样,部分会选择mW,部分会选择dBm。SFP光模块信号强度通常包含两个指标,分别是Tx Power和Rx Power。Tx Power代表SFP模块发送方向的光信号强度;Rx Power代表SFP模块接受方向的光信号强度。

mW和dBm之间联系:

mW通过功率方式描述光信号强度,dBm是decibel of the measured power to one millwats的简称,通过分贝方式描述光信号功率比。Cisco交换机使用dBm方式,Brocade交换机使用mW方式。两者可以通过以下公式互相转换:

dBm -> mW:

mW -> dBm:

EMC推荐光信号强度范围:


常见速率最大可接受光衰减范围:

• 8Gbps最大可接受信号衰减值:-13.8dBm

• 4Gbps最大可接受信号衰减值:-15.4dBm

• 2Gbps最大可接受信号衰减值:-18.2dBm

EMC的推荐范围比Cisco/Brocade交换机自带范围要小,最小信号强度相对高一些,最强信号强度相对低一些。EMC建议RX的收光功率最好大于-7dBm。日常实践证明,如果8G链路的收光功率小于-10dBm,交换机基本无法正常接收光信号。

如下图说明:

2、 VMware ESXI主机共享存储卷路径设置策略

由于生产环境是EMC VPlex 存储双活环境,对于VMware存储卷路径设置策略就比较有讲究,由于主要业务系统虚拟机都在生产环境站点,EMC官方推荐路径策略采用 固定 模式。


四、 故障总结

通过本次同城存储双活故障处理,总结一下经验:

1、 生产端与灾备端的SAN光纤交换机级联SPF模块及链路RX的收光功率最好大于-7dBm。

2、 EMC VPlex 存储双活环境VMware存储卷路径设置推荐采用固定模式。

3、 EMC VPlex 仲裁服务器Witness推荐放置第三站点。

原题:同城存储双活故障处理技术案例分享如有任何问题,可点击文末阅读原文,到社区原文下评论交流

觉得本文有用,请转发或点击“在看”,让更多同行看到


 资料/文章推荐:

  • 某银行基于存储分域的存储双活架构改造方案

    http://www.talkwithtrend.com/Article/244239

  • 核心系统存储双活三大难点解读

    http://www.talkwithtrend.com/Article/217175

  • 存储双活在实施过程中不可避免的4个问题

    http://www.talkwithtrend.com/Article/178635


欢迎关注社区 "存储双活" 技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流。地址:http://www.talkwithtrend.com/Topic/1431


下载 twt 社区客户端 APP

与更多同行在一起

高手随时解答你的疑难问题

轻松订阅各领域技术主题

浏览下载最新文章资料


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存