查看原文
其他

同城双活容灾体系中的 SAN 网络配置,哪种方案更好?

twt社区 twt企业IT社区 2022-07-03

以下内容来自社区探讨,欢迎点击阅读原文到社区与同行交流本话题


同城双活容灾体系中,SAN网络配置,应该采用哪种方案?

方案一:

方案二:

(问题来自:@liqxy 某银行系统架构师)


@Li Fei  某保险公司 系统架构师:

简单评价下两种方案:

第一种方案,如果改良下就是下面这幅图:

数据链路层:

  • 可靠性上 

第一种方案(改良版)比第二种方案的冗余性稍高,但依旧无法解决SAN-A、SAN-B交换机对各故障一台、数据传输中断的问题。如果想完全杜绝这个问题,就和题主的图一样,第一种方案(全级联),可靠性更高,但可管理性大幅下降,管理出问题的几率远比其他两种方案更大。

  • 负载均衡上 

第一种方案(改良版)和第一种方案(全级联)方案都能从两对DWDM走,对链路的利用率更高、压力更小,但第一种方案(全级联)的流量管理更麻烦,要做好细致的策略,也间接增加了运维成本。第二种方案也能够实现链路的负载,只是负载的实现更依赖双活软件,链路上只做好链路该做的事,取得了管理难度和性能的平衡。

  • 管理难度

在管理难度上,第一种方案(全级联)最难,运维管理出错可能性极大,生产环境不推荐这种方案;第一种方案(改良版)管理难度合理,运维中注意规范操作,一般没啥问题。第二种方案,架构简洁,链路清晰,是不错的设计,生产上也有采用这种部署模式的。

  • 续建难度

第一种方案的两种模式扩容都会相对复杂一些,全级联的方式扩容、配置最为复杂,实际中诸多此类

出现故障的案例也不少,随着体量的扩展,管理成本运维成本以及人为操作风险大幅提升。相对而言,改良版的方案,和第二种方案思路会清晰一些,细看之后也会发现改良版方案和第二种方案的设计思想也不谋而合,只是对链路的设计实现方式不一样,一个讲究冗余高效,另一个追求独立简化。

双活软件层:

对于双活软件侧,如果链路架构确定了,考虑的事情就相对清晰的多。双活软件上主要的是做好策略控制,包括单点故障应对策略。因此,对于双活层,策略越清晰,越可控可管理,实际运用效果越好。最符合这一点的是第二种方案,链路做好冗余,策略依靠双活软件控制,泾渭分明。

推荐及建议:

1,如果运维人员实力足够,预算也充足,个人会推荐第一种方案的改良版,无论是可靠性还是可管理性都有不错的实现。

2,如果运维人员较少,对双活的维护倾注不了太多人力物力,第二种方案会是不错的选择,架构清晰,管理简化。

3,即使有人有钱有预算,也不推荐第一种方案(全级联)。在实际项目中,一旦进行全级联,随着体量的增长,管理和成本都是不小的问题,越大越不可控。双活容灾是DC的重要系统,一旦落地,想改架构,难上加难。


@某企业系统架构师:

既然每对dwdm之间都是联通电信双线,那我个人就更倾向方案二,结构简单便于维护和问题排查。

楼上说的方案一的生产机房san-a和灾备机房san-b同时故障不影响数据传输,这必须在图中四台交换机全部做级联的前提下。但是一般都是两两级联,四台做级联的话风险太大。

咨询了一下dwdm厂商,建议改良方案一。

建议如下:dwdm1对之间使用电信线路,dwdm2对之间使用联通线路,san-a对做级联,san-b对做级联。

总结:不计成本可以直接上方案二,综合考虑成本的话可以使用改良后的方案一。


@匿名用户:

总体来说方案一交叉方式比方案二会更安全些,如果真的发生1节点的san-a故障的同时,2节点的san-b故障,这样会当成中间链路发生中断。


@赵海  架构师:

第一种方案:

H1当中的SAN-A与H2当中的哪个设备做级联?

如果与H2当中的SAN-A级联,那么与SAN-B的这条链路有什么意义?ZONE的划分总不能同一个WWN既通过H2-SAN-A的端口映射过来,又通过H2-SAN-B的端口映射过来吧。SAN的架构跟以太网的架构还是有区别的,所以个人认为第一种架构有些问题。

第二种方案:


这种方案从技术上来讲,没有问题。但是从线路的选择上来讲,还是要根据实际情况调整一下顺序。


@hualinux 华创方舟 系统工程师:

越简单越安全。

极致的安全就意味着极致的风险,个人推荐方案二,在保证安全的同时,尽可能的简洁,容易管理,且安全容错。

方案一,当一个节点出现问题,影响所有链路。


@匿名用户:

方案一,方案一的安全级别更高一些,但是复杂成功更高,对维护人员拍错不好做。

方案二,好在于中间链路故障好排查。


@lei_shu  系统工程师:

之前在做某银行灾备时,测试过这两种网络,使用的是IBM DS8000存储,方案一,一路DWDM中断会导致两路复制链路降级;而方案二,一路DWDM中断,只会影响一路,对应用层来说,希望看到的是链路要么是好的,要么是坏的,而不是性能下降或性能反复震荡,所以最后选择的是方案二。


@szhangkang 神州数码 项目经理:

这两种方案均可以,但是从实际的环境出发我更偏向第二种方案,第二种简单故障好排查。


@邓毓 江西农信 系统工程师:

SAN交换机用了Trunking模式,有一个原则是跨数据中心级联路径距离要一致,方案一、方案二都不对,同一交换机出来的路径距离都不一致,因此,按照这种原则,将方案二DWDM1间的运营商都改成联通/电信,DWDM2间的运营商都改成电信/联通,这样SAN-A间的两条级联路径距离一致,SAN-B间的两条级联路径距离一致。


@孙伟光 中国金融电子化公司 IT顾问:

既然是双活,从IT基础架构上看两边的设备足够冗余了,出现问题概率比运营商的链路不可控性小多了,市政施工一个大铲子下去,结果可想而知。更关注的中间的链路稳定和冗余性,其实这两种组网方式中间链路是一样的,联通和电信,随便一个厂商的链路故障,最终的结果都是一样的。


 相关推荐:

  • 银行双活容灾建设方案技术手册——规划篇

    http://www.talkwithtrend.com/Article/243091

  • 银行业关键交易类核心系统同城双活设计研讨问题集锦

    http://www.talkwithtrend.com/Article/243867


欢迎关注社区“同城双活”技术主题 ,将会不断更新优质资料、文章。地址:

http://www.talkwithtrend.com/Topic/38573


下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


点击图片,长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存