有了双活,真的就确保安全了吗?
Saturday, March 24, 2018
1:57 PM
有了双活,真的就确保安全了吗?
2018-03-22TIFY
摘要:
本文经公众号“大兵说安全”授权转发。
正文:
今天,朋友圈很多人在转一篇文章(我也转了)《双活可能是条沟,由XX存储故障引发的思考》。
说的是去年5月份,某厂商的一台存储在“广州美的”发生严重故障,导致美的高压力关键业务系统停机一天,用户主要负责人被降级。事后分析日志:该存储的一个控制器故障,而另一个控制器无法接管,整个存储宕机。
作者分析指出:用户选择双活还是备份,得仔细掂量一下,遇到低概率事件,可能双活会要了你的“老命”。
我并不是完全同意作者的这个观点,在我看来,这并不是非此即彼的二选一方案,双活和备份本就属于不同领域,并不是互相排斥的。
在很多人看来,双活是备份的升级版,是比备份更高级的技术,有了双活就不需要备份技术了。其实这是不准确的。
我又想起了去年另外一个案例。
中国银监会办公厅于2015年10月12日下发了银监办发【2015】162号文件——《关于数据库文件损坏风险提示的通知》。
通知称:“2015年5月8日,某城市商业银行核心系统使用的甲骨文(ORACLE)数据库系统发生故障,数据库自动存储管理(ASM)文件异常损坏,数据库无法加载存储磁盘组,数据库服务器宕机,灾备中心无法正常使用,造成该行柜面和渠道业务较长时间的中断”,要求各银监分局及相关银行业金融机构以此为鉴,开展风险评估并积极采取应对措施。
仔细阅读文件,我们不难发现此城市商业银行并非缺乏相关灾备的解决方案,相反其同城灾备数据中心甚至采用了IBMMetroMirror存储级数据复制技术,搭建起同城存储“双活”架构,号称可以实现RPO=0,RTO=0(关于RTO的理解,详见的另一篇文章《关于RTO,你真的理解吗?》),保证业务连续性的最高等级需求。
让我们先来看看什么是MetroMirror
MetroMirror同城存储复制技术(以前也被称为PPRC),是以存储为基础的、实时的、与应用无关的数据远程镜像功能。可以保证是无数据丢失且具有完全恢复功能的灾难恢复解决方案。
MetroMirror基于IBM的企业级存储服务器,通过光纤通道,以逻辑卷为基本单位,将本地存储设备上的数据同步镜像到远端存储设备上。
MetroMirror的同步实现机制如下图所示:
1.在生产系统中的应用程序将数据写到生产系统的磁盘。
2.生产系统中的磁盘数据传输到备份中心的磁盘
3.当生产数据都写入备份中心存储设备后,备份磁盘将写完操作信息返给生产磁盘
4.当生产系统收到灾备系统传回的已写信息之后,生产机的磁盘系统通知主机该写操作已完毕。
MetroMirror技术号称能够实现RPO=0,从而做到存储双活,这话确实没有错。然而,这一结论仅限于存储设备发生物理故障时才成立。而一旦数据本身发生损坏或人为删除等逻辑故障时,同步双活只会将错误的数据一式两份,造成生产端和灾备端的存储双双“悲剧”。
解决逻辑错误的办法早已有之。快照技术可以按照设定的间隔时间,将存储数据回退至最近一份正确数据;
然而,此次遭遇宕机事故的银行,虽然下血本建了存储双活,但却疏于防范“逻辑故障”这一潜在风险,最终导致了问题的发生。
再结合最近我们遇到的很多中勒索病毒的情况,一些使用双机或者双活技术的客户会痛苦的发现,主机的文件被加密,备机的文件也同样会被加密。
从上述案例中,我们不难得出如下几点启示,值得思考并引以为戒:
第一:双机、双活,都属于高可用(HA)的范畴,与备份并不是同一个概念。他们并不是备份的升级版,并不是一个需要用户去考虑二选一的方案。
双活重点在于保护业务的连续性,即当系统发生故障时,仍然能够正常地向网络系统提供数据和服务,以使系统不致停顿。
而备份是“将在线数据转移成离线数据的过程”,其目的在于应付系统数据中的逻辑错误和历史数据保存。
二者的区别:
1、双活是在线的,强调业务的连续性,常见的技术是镜像复制技术。备份是离线的,强调对历史数据的保存,常见的技术是快照技术。
2、双活对于因硬件故障引起的宕机有很好的预防作用,但无法解决因数据问题造成的错误,如数据逻辑错误、病毒等。而备份则是数据安全的最后一道防线,无论是物理错误还是逻辑错误,都可以通过备份进行灾难恢复。
3、当主机出现硬件故障时,双活可以做到自动的接管,响应时间短,而备份因为是离线数据,并不能进行系统的自动接管,需要有一个数据恢复的过程(RTO)。
4、二者在安全模型中所处的位置不同。我之前曾写过一篇文章《常见的网络安全模型》(可以查看我公众号之前的文章),在国际常用的APPDRR模型中,将安全分为六个环节:风险分析、安全策略、系统防护、实时监测、实时响应、灾难恢复。其中高可用处于响应环节,而备份处于最后一个灾难恢复环节,高可用是避免出现单点故障而采用的预防措施,但任何预防措施都不能100%的保证数据的安全,而数据备份和灾难恢复才是网络安全的最后一道防线。
也就是说,备份是保障安全的基础手段,对于有更高要求的业务,可以在备份的基础上做高用的措施。但就算有了双活等高可用手段也不应该抛弃低成本的备份。
第二:备份数据的有效性压倒一切。换句话说就是容灾备份的底线是要保证恢复出来的数据可以使用。备份不是目的,恢复才是目的,如何确保备份数据的可用性,也是银监会通知中重点强调的。要做到数据可用,除了一些常规的校验手段之外,定期进行灾难恢复演练也是非常有必要的,通过灾难恢复演练,可以很好的确保备份数据的有效性,才可以保证当灾难真的来临的时候可以进行数据的恢复。灾难恢复的演练不仅要确保数据库等数据的可用,更要保证系统和应用的可恢复。
第三:本文并不是否定双活技术,相反,双活是一个非常好的技术,可以最大限度保障数据和业务的安全,但做为用户而言,安全还是要考虑周全,想到各种可以发生的情况,解决一个又一个的万一,才能真正做到万无一失。同时也要避免一些厂商的销售人员由于不懂技术,往往把自己的产品说的神乎其技,包治百病,而有一些领导因为不懂很容易失去判断力而被这些销售牵着鼻子走。客户要清楚的知道,任何产品和技术都有自己的适用范围、解决用户的特定问题,客户要根据自己的实际需求找到适合自己的解决方案。
长按下图识别二维码关注微信公众号“TIFY2017”
TIFY致力于IT行业产品、销售的学习、讨论、分享
感谢您的关注,您的每一次分享,都是最大的鼓励
长按下图识别二维码进入“微社区”参与讨论
更多信息,请访问TIFY官方论坛:www.tify.club
已使用 OneNote 创建。