回顾2015,当提到携程,提到网易,提到支付宝,你会想到什么?是的,“宕机”!这几乎已经成为2015年IT圈内的一大关键词。近期,著名社交平台Snapchat遭受了最大规模的一次宕机,服务中断12小时后依然未恢复。而长达1天的宕机不仅使该公司遭受数百万美元损失,也使利用Discover功能发布广告支持内容的内近20家出版者遭到重大损失。
“全球数据保护指数”调查显示,去年,超过一半的企业组织报告反映存在计划外的宕机情况,并且有三分之一的企业遭受了数据丢失,其带来的损失每年可高达1.7 万亿美元。因此,当前问题已不在于您的组织“是否”会出现计划外宕机或数据丢失,而在于什么时候出现及其影响程度有多大。
调查根据企业对数据保护技术的采用和实施,将企业分成四类:仅13%的企业是“领导者”或“采用者”,他们拥有高级数据保护战略,不太可能遭遇中断;其余87%的企业被归为“评估者”或“落后者”。这意味着这些组织的数据保护落后于市场趋势。
看到调查中如此令人心惊肉跳的结果,企业是否该反思一下,自身服务器以及数据安全防护措施是否到位,对灾难的应对能力是否具备,是否能够积极从以往行业事件中吸取教训,巩固自身实力?我们来看看网友的经验之谈。
七嘴八舌,网友谈宕机经历
网友hai503谈到自身经验时说道:“个人经历过机房所在大厦断电,UPS供电30分钟后机房断电,那次断电不影响第二天的业务处理,但怀疑是存储坏掉的诱因。”
网友韩云松遇到过两次宕机事件:“一次是因为网络IP冲突,导致服务器关闭。由于突然断电,路由重启,vlan配置未保存,导致IP冲突;另外一次是因为存储损坏,存储做的raid5,一组坏了个盘,热备盘没有替换上,然后另一组也挂了个盘,最后全挂了,不过幸好有备份。”
网友renxiao2003也分享了经验:“我们开发使用的Mantis服务器就会出现宕机事件。主要原因还是使用的是Windows系统,系统资源使用过多会造成无法服务的现象。”
最后,网友1983yu表示:“我们遇到的小规模的宕机一般都是机器或硬件挂了导致的,其实,大规模的宕机主要都是机房整体故障或是大面积的网络故障导致的,因为服务出现的故障一般都不会持续太久,如果真是因为这个,只能说哔了狗。”
宕机原因起底,人为因素偏多?
在谈到宕机原因时,网友smilefish对引起宕机的主要因素作出了总结:硬件故障,系统故障,人为破坏,网络攻击,电力故障,机房设备故障。网友it_horse干脆表示:“引起宕机的大部分是人为因素,少部分是设备,但即使设备也是人的因素。”
那么,他们为什么会如此判断?网友sjf0115对2015年影响广泛的几次宕机事件做出了总结,从他的总结中,我们似乎能看出些端倪:
-
1、2015年1月27日,2点起,便有网友发现,无法登陆Facebook,页面显示"对不起,出故障了,目前正在抢修,会尽快修复"。同时,黑客组织Lizard Squad发推特,声称对此次宕机事件负责。虽然Facebook发言人称:"此次故障与第三方攻击无关,发生故障的原因是我们对系统设置做了一点改动。"但相关数据显示,Facebook美国总部当天曾遭受大规模DDos攻击。
-
2、2015年3月11日,包括App Store、iTunes Store、Mac App Store以及iBooks Store在内的一系列苹果在线商店服务,遭遇大面积服务中断。据统计事故恢复时间长达11个小时。宕机原因是苹果公司内部DNS错误。
-
3、2015年5月11日晚21时左右,网易旗下游戏、有道云笔记、LOFTER、考拉海购、网易公开课等无法正常访问。事后,网易发表官方声明称:"因骨干网络出现异常,导致网易旗下部分游戏及网站论坛暂时无法登陆,技术人员已经在抢修中“。
-
4、2015年5月27日,支付宝大面积瘫痪,电脑端和移动端均无法进行转账付款,缘由是杭州市萧山区某地光缆被挖断,进而导致支付宝一个主要机房受影响,导致部分地区的支付宝服务中断数小时。
-
5、2015年5月28日,携程网站和APP全线瘫痪,多项功能无法使用,宕机时间长达12小时,尴尬地创下了国内互联网公司系统瘫痪的新纪录。而后,携程方面也两次作出解释:先是称“因部分服务器疑似遭到不明攻击所致”;后又宣布此次事件系内部人员错误操作导致,相同的是两种解释均是人为因素。
企业如何减少宕机,做好数据防护
网友韩云松从事运维工作,他提出了个人看法:“我们企业现在普遍为双机热备,采用的是共享存储的方式,个人认为可以使用双机双存储热备方式,防止单点故障。至于RAC、DG我们还没上,这是以后学习的方向。”
网友yuanjianfa0324认为:“服务器是硬件设备,而且是全年二十四小时不间断运行的,通常负载量也较大。所以时间一长就容易出现宕机的情况,只要不是太频繁,就是完全正常的。一般常用服务器的人都知道,每隔一段时间定期手动重启下机器,对机器的性能有很大帮助,而且可以避免宕机的情况。毕竟服务器也是硬件,长期运行中间也应该有个喘气的过程。”
网友1983yu表示:”数据防护也就那些东西,查询漏洞,预防病毒,定期检查源代码,做好数据备份,充分认识内外攻击之类的,对于被动的防御也没有什么多好的办法,尽量不犯些小错误,认真执行安全防护手段。有钱的有技术的企业就搞异地双机房灾备,这样一个机房挂了,直接切到另一个机房来服务,没钱的企业就只能期望机房不出问题,只是偶尔单节点机器异常罢了。“
网友sjf0115最后总结认为,在进行企业网站安全设计时,首先要了解自己的网络可能面临的攻击,寻找网站漏洞,想要确保系统免受病毒入侵,不丢失数据,必须要经常运用杀毒软件。而且,局域网每天遭受的攻击类型是在不断变化的,因此针对这种攻击类型而采取的防范软件也必须及时更新。其实,在技术提升的同时,我们更应该转变的是观念,正视容灾备份的重要性。他一共强调了三点内容:
1、为了提高服务器安全性,可以采用软硬件结合的方式,提高服务器可用性;
2、要进行备份确保信息不会丢失;
3、通过冗余,提高服务器性能。
在以上内容中,网友们结合自身经验,将各类防护措施总结的较为全面。曾经有人将数据库管理员进行数据保护时需注意的三个C做了总结,它们分别是:消耗、连续、控制。即确保知道什么地方存在数据消耗,以确保数据随时随地都受到保护;确保数据在整个连续的恢复点目标(RPO)和恢复时间目标(RTO)范围内都受到了保护;保护数据库的工作常需要将多个供应商的备份和保护解决方案进行融合。还有十分重要的一点,加强内部员工的安全防护意识,毕竟前车之鉴摆在那里,无论措施做得多完备,若操作不当也会导致严重后果。