利用45块磁盘驱动器、10块奇偶校验驱动器外加33块备用磁盘构建阵列方案。根据发表在Arxiv之上的研究成果,这样的最佳阵列规模能够在四年周期当中以无需服务介入的前提实现数据保护。
本次研究所解决的问题在于,目前全世界都在向超大规模数据中心路线进军、并将数量庞大到惊人地步的磁盘集中于一处,而由此带来的故障驱动器更换成本甚至远远高于磁盘自身的销售价格。
此次研究由休斯顿大学的Jehan-François Pâris负责主导,整个研究团队提出了一套全新磁盘组合方案,并认为这套方案能够在四年正常使用周期内为商用磁盘驱动器带来高达“五个九”的稳定可用性表现。
根据他们的说法,如果拥有正确的模型作为支持,那么经过良好设计的驱动器阵列能够保证整个磁盘生命周期内不会出现任何需要更换故障驱动器的状况——他们表现这样的成果“利用RAID 6组织方式绝对不可能实现,而且能够容忍三块磁盘发生故障”。
标准RAID架构采用奇偶校验磁盘对阵列整体加以保护,旨在帮助其免受故障的侵扰。但他们同时指出,在利用四块奇偶校验磁盘保护六块数据磁盘时,可能出现的三磁盘故障状况仍会导致阵列彻底陷入瘫痪,例如一块数据磁盘与两块备用磁盘出现问题; 或者总计损坏三块数据磁盘。
然而,即使是规模更小的故障也可能给数据中心运营人员带来巨大困扰。在技术方案能够将新驱动器接入插槽之前,RAID阵列在缺少一块驱动器情况下的运行过程中将始终处于保护匮乏的状态之下——对于那些相对位置偏远的基础设施位置,更换故障驱动器将带来高昂的运营成本。
这份研究论文提出了一项双重结论。研究人员们建议称,运营者应当将备用磁盘构建成一套新的驱动器阵列。在此基础之上,他们尝试构建并最终获得了一套最优阵列配置。
为了构建这套模型,研究人员采用了Backblaze磁盘的平均故障比例数据——前十八个月内为5.1%,接下来十八个月中为1.4%,而第三年中的比例则为11.8%。除此之外,假定采用4 TB驱动器与200 MB每秒平均数据传输速率,那么阵列在进行自身修复时需要耗费24个小时。
这套模型表明,在可靠性与低存储容量消耗之间找到的最佳阵列平衡点为设置45块数据磁盘、10块备用磁盘以及33块奇偶校验磁盘; 研究人员充满信心,表示这套阵列模型能够提供高达“五个九”的出色可靠性,而且与不设备用磁盘的RAID阵列相比、其存储容量浪费水平降低了49%。
由于数据磁盘数量更少,达成五个九可用性水平所需要的备用磁盘比例有所上升,因此这套模型中的备用磁盘容量增幅超过56%——而令人惊讶的是,这套模型指出即使将阵列中的备用磁盘数据提升至“无限”、也几乎不会再对四年周期内的可用性预期带来明显提升。
研究人员们指出,他们的设计方案只有在单一阵列当中多块驱动器出现批量故障时才有可能带来低于五个九的可靠性表现。