作为大数据+混合云业务战略的一部分,Red Hat没有选择推出自己的hadoop商业版本或者收购一家Hadoop发行厂商,而是推出了首个Hadoop HDFS文件存储系统的开源替代产品。
Red Hat本周三宣布开源其Red Hat Storage Hadoop插件,作为HDFS的替代产品。RedHat Storage hadoop插件基于Gluster文件系统——Red Hat于2011年以1.36亿美元收购了Gluster,目前已经将Gluster的技术整合到了Red hat的存储服务器产品(RHSS)中。Red hat计划在今年某个时候将该插件发布到Apache软件基金会。
Red Hat在新闻发布会上表示:
“Red Hat存储产品将企业级功能带到了大数据环境,例如异地备份、高可用性、POSIX合规、灾备和管理等,而这些不以牺牲API兼容性和数据归属为代价。客户目前有了一个统一的可扩展存储软件平台来管理部署在不同物理、虚拟、公共或者混合云资源中的文件和对象。”
由于实现了完全的分布式,Red Hat的文件系统能够取代Hadoop集群中负责数据追踪的NameNode,从而消除其性能瓶颈和单点失败问题。(不过Hadoop社区已经通过Apache hadoop 2.0已经改善了NameNode,而Facebook的工程师则开发出了替代技术AvatarNode)Red Hat还将其存储和虚拟化技术进行组合,同时使用这两者的用户将拥有一个存储的虚拟池,而计算资源能驻留在相同的物理基础架构上。
大数据的重点不是基础设施而是应用
除了Red hat,如今很多公司都试图解决HDFS存在的问题,提高其在大型企业或者互联网公司中的可用性。EMC、NetApp等公司都提出了自己的替代方案。Quantcast甚至开发并开源了自己的HDFS版本——Quantcast File System。Hadoop的未来取决于能否成功开拓大型企业市场,而HDFS的替代技术目前是企业应用的首选,除非Apache hadoop能够快速跟上。
对于Red Hat来说,开源Hadoop存储系统只是混合云战略的一部分,Red Hat表示希望在Hadoop上的努力能够推动其更宏大的云计算战略——让客户能够在混合云计算的大数据环境中运行应用,横跨包括OpenStack和亚马逊AWS这样的私有云或公用云环境。