压力与目标
随着互联网向纵深发展,各种互联网应用不断涌现。在我们享受各种应用便利的同时,各大互联网企业却为蜂拥而至的访问压力而造成的成本快速增长而忧心忡忡,在找到稳定盈利模式并被市场认可前如何生存一直是个严峻问题。
因此,在互联网企业内,每当一个新互联网业务冲到了新的高峰时,除了看到产品部门欢欣鼓舞外,还能看到另外一群人拿着计算器,看着一堆excel表格,试图从中挖掘出一些省钱方法,以使企业活到IPO。对于只有“用最低廉的成本给用户提供最好的服务才能生存”的互联网企业而言,削减服务器采购成本成为必须攻克的任务。在笔者公司,该任务则被精确命名为“降低服务器3年总使用成本”。
从百度、阿里、腾讯(三家企业通常简称BAT)的“天蝎项目”及整机柜交付特性来看,定制化项目首要目标无疑是降低成本。但在BAT干过的人会告诉你一个月上线几千台服务器是多么的令人苦恼,由此带来的压力简直让人崩溃,所以快速部署已经成为各大互联网公司除了降低成本外的第二目标,有时因为上线缓慢带来的机会损失远远大于服务器本身的价值。
说到成本,很多读者其实并不清楚互联网公司在服务器上到底花了多少钱。图1是一个常规互联网项目三年设备使用成本分布(不包含带宽费用和运维费用)。
图 1 某常规互联网项目三年设备使用成本统计
从图1可以看出服务器采购成本约占一半的成本,机架费用约占三分之一。其中,机架费用基本上可以等同于服务器电力消耗。
以上的比例确立了定制化项目的工作方向,即通过定制化项目去节省机架成本和设备采购成本。在笔者公司,“降低服务器3年总使用成本”项目的成功实施令我们节约了12.5%的机架成本(相比国际品牌标准服务器)和5%的设备采购成本。就产品本身而言,我们最终定制的服务器产品具有以下六大优势:
1、 框架设计,跨代使用
由于采用的是刀片式结构,每次英特尔处理器换代时只用更换主板等组件就可以继续服役。
产品设计可以更换英特尔 3代产品,框架可以服役6-8年。
2、 超短距散热,超大散热片
风道深度只有550mm,远低于一般产品700mm的深度,散热效果更好。
CPU散热片采用1.5U高度,比传统的1U产品散热片效率更高。
3、 RackFree自由并柜、高密部署
机箱可以放入标准机柜,也支持3-4个机箱直接堆叠锁紧(同时支持左右并柜),在相同机房面积下比整机柜方案部署节点密度高20%,在传统的20列*10行的机房面积可以部署19200个节点。
4、 1.5U刀片高度,满足未来扩展需求
刀片高度考虑未来扩展,可以支持更大的存储容量和更高TDP的CPU产品。
5、 无背板设计,支持水冷
由于没有设计了背板,刀片后部就是风扇墙模块。在未来可以去掉风扇墙模块直接更换为油冷/水冷模块,方便快捷。
6、 微模块设计,适合BAT以外的中小企业
每个模块只有12U高,重量不超过100kg。与1000kg的整机柜方案相比,运输和上架更为方便,同时也免去了机房改造的麻烦。当企业发展以后,这些产品还可以部署到定制机房,直接并机(无需机柜),部署密度也更高。
定制化流程
整个服务器定制化项目的工作流程如图2所示,共包括确定产品定位、分解研发方向、书面推演等八大步骤。
图2 产品定制流程
确认产品定位
在具体实施之前,我们需要首先考虑整个供应链如何配合。当时我们有两个选择:
一是进行主板PCB级别定制,走深度定制之路;另一个是基于现有主板产品的重新整合,进行浅定制。
我们对这两种方式的利弊进行了分析,见表1。
表1 两种定制模式利弊对比
大型互联网公司facebook,google,amazon都选择了主板PCB级别定制。此模式研发成本较高,如果没有万台以上的采购规模摊薄了研发成本,TCO很有可能不如从OEM/ODM直接买标准机架服务器。