今天下午,阿里云阿里云部分服务器于出现短暂无法访问情况,致使其科技博客ifanr等网站无法访问。阿里云方面称,该故障的发展原因在于出现电力故障,已在维护恢复中。
服务器宕机当下见怪不怪了。有的因为安全措施没做到位,有的是因为冗余电源没配置,有的是因为人为失误,等等。而服务器一旦出现问题,追究原因对用户而言无济于事,事后的损失赔偿似乎显得苍白无力。如何做到预警,如何做好工作负载的技术支持,如何实现冗余保障......当下谈论服务器持续7X24的智能响应技术已不计其数,然而频繁出现服务器故障、服务器宕机又是何故?服务商该思考了。在此,笔者鄙陋,列举几种减少服务器宕机的方法,仅供服务商参考:
·选购合适的服务器产品
在琳琅满目的服务器产品中,企业选择服务器产品不能人云亦云,应该在购买前,对自身员工数量、业务类别、业务规模、机房空间、服务对象性质、管理能力等进行彻底大清查之后,再进行比对,选择适合自己的服务器产品。
·建构良性服务器机房
机房是服务器赖以生存空间,机房整洁度、布线合理性、通风情况如何,冷却温度如何将直接影响身处其中的服务器。“系统在过热、过湿、灰尘过多的环境下也许仍可以运行,但是它们绝对达不到应有的使用寿命,而且较之于在建议的环境状况下运行,更容易受到环境条件的影响,因而频出故障。”来自TERiX计算机服务公司的营销专员Joe Guenther这样说道。
·运行服务器实时监控机制
服务器每天在运行的过程中,企业应该运行服务器实时监控机制。监控机制包括两部分:员工实时检查和网络实时监测。企业部署相关员工对服务器运行数据进行按日分析,并整理出服务器工作日志,以便第一时间处理异常现象;同时对服务器机房进行按日检查,避免人为诸如机房乱堆放杂物、有灰尘等情况干扰服务器正常运行。另一方面,企业应该选择一套服务器监控解决方案,对服务器从内在质上进行实时监控,以便及时发出警报,及时安排相关技术人员进行整修。
·制定宕机灾难修复计划
既然服务器出现宕机的可能性随时存在,在部署服务器时,企业需要邀请相关IT专家进行讨论,分析该企业可能出现宕机情况,并就这些情况分析结果形成意见,思考宕机情况出现时的解决策略,制定一套宕机灾难修复计划,以便服务器在出现宕机时减少慌乱,及时应对。