容错服务器作为通过硬件结构来提升稳定性的做法,受到了很多做关键性应用企业的青睐,6个9的可靠性能是容错服务器被众多企业选择的理由之一。Stratus就是这么一家制造容错服务器的老牌厂商。成立于上世纪八十年代,在美国、欧洲、日本、亚太地区都有着庞大的用户群。从银行到制造业都在使用容错服务器来支撑其庞大的工作负载。
提到稳定性,目前国内使用最多的就是三种技术:服务器集群技术、双机冗余、单机容错。而双机与集群是目前中国市场上主流的容错技术。在国外普遍使用的容错服务器为什么到了国内却很少有人去使用,针对这一问题我们请到了Stratus中国区总经理余秀琍女士和Stratus中国华东区业务经理吕祁峰先生来为我们解答。
容错服务器的先天优势
容错服务器之所以拥有6个9的可靠性能,在于它的双硬件系统结构,简而言之就是容错服务器拥有2台独立的硬件系统,每台独立的硬件相当于一台服务器。但不同的是,两台独立的硬件受一套时钟锁步系统控制,在相同的指令周期内同时执行同一条指令。
时钟锁步技术
再通过容错系统特有的ASIC故障检测系统对CPU、内存、芯片组、硬盘、I/O等不见得处理结果进行比对,相同则执行下一步,不相同则重新计算。当其中任何部件出现硬件故障时,系统失去容错能力,降低为一套硬件系统的可靠性,更换后,系统恢复容错能力。
这就是容错服务器稳定性的核心所在,但由于是2台硬件系统,高昂的价格成为了阻碍容错服务器在国内市场发展的重要因素之一。但通过在中国市场20年的摸爬滚打,余秀琍表示开放的平台降低了总体的硬件成本,现在的容错服务器已经不再是封闭的系统,而是可以运行Windows、Linux、VMware的硬件平台。
双机与服务器集群容错的诱惑
双机与集群之所以成为目前中国市场主流的容错手段,主要原因还是因为价格,诱人的价格加上众多厂商的宣传使我们误以为双机HA能够达到很好的稳定性效果,其实这里面是有要求的,吕祁峰经理道出了其中的真相,他表示对于集群的容错,是有很高的技术要求的,如果没有搭建好,在后期的维护上会很困难。所以如果你有很强的实力可以选择采用集群,如果没有,选择容错服务器会更简单。
但很多人看不到这一点。双机和集群是通过软件的方法,通过故障机切换来提升可靠性。与之相比,容错是采用硬件的方法,以及特有故障处理和保障机制提高系统的可靠性。容错较之单机具有更高的可靠性,其中,容错还具有纠正临时性错误的能力,可以确保计算的正确性。
容错服务器与双机服务器集群的互补之道
一种是硬件的方式一种是软件的方式,可能在过去的时间里,这两种方式一直处于平行的状态,但在今天这个发展迅速,复杂多变的市场里,一成不变不是一个明智的做法。Stratus就给出了我们一个顺应时代的做法,将硬件与软件相结合。07年Stratus开始于VMware合作,将VMware软件的HA与Stratus硬件HA相结合,通过虚拟化来调配所有东西。在云计算上,凭借VMware在虚拟化软件上的优势结合Stratus硬件上的稳定,为私有云用户提供了一个更加稳定,可靠的平台。吕祁峰最后也表示“这几年VMware的市场越来越大,我们应当顺应潮流,小机的应用会越来越少,因为它的造价成本提高,维护成本提高,这已经不是今天的主流。就像手机Android系统的占有率越来越高,因为开放,所以人才会接受。”