按照NVIDIA的芯片编号习惯,目前GTX 680所使用的GK104其实只是一颗次顶级核心,将跟Fermi时代GF110与GF114的定位一样。真正的Kepler旗舰应该是GK110,而GK104的出现只能说明NVIDIA已经将游戏显卡与计算显卡彻底分开,GK104主要用于桌面市场,GK110才是计算加速卡的杀手锏。
此前的几次会议上,NVIDIA已经公布了GK110架构及Tesla K20的相关信息,现在借着SC 12会议的东风,NVIDIA正式发布了Tesla K20家族加速卡。Anandtech网站也对K20做了深入分析,我们来看一下这个71亿晶体管打造的巨兽会有怎样的实力。
NVIDIA新一代Tesla K20加速卡详细规格
AMD新一代S系列加速卡详细规格
先温习一下之前传言的规格,GK110有15组SMX单元,每组有192个针对双精度运算而设计的CUDA核心,总计2880个CUDA核心,6组GDDR5显存控制器,位宽384bit,1.5MB L2缓存,双精度浮点性能达到了单精度浮点的1/3。
目前Tesla K20有两款型号,最高端的是K20X,拥有14组SMX单元,2688个CUDA核心,位宽384bit,搭配6GB GDDR5显存,等效频率5.2GHz。核心频率为732MHz,单精度浮点性能为3.95TFLOPS,双精度则为1.31TFLOPS,TDP功耗235W,使用TSMC 28nm工艺制造,售价不会低于3199美元。
K20X之下还有K20,规格有所降低,只有13组SMX单元,2496个CUDA核心,单/双精度性能分别为3.52/1.17TFLOPS。显存频率也是5.2GHz但是精简掉一组显存控制器,位宽320bit,搭配5GB GDDR5显存,频率也只有706MHz,TDP则为225W,看来K20的规格与之前泄漏的消息是一致的。
K20X与K20的关系与之前Fermi时代的M2090与M2075相似,前者主要用于高性能场合,同时功耗也会更高,后者性能略低,不过TDP也降低了。
它们都可以使用被动散热,因为大型计算机的散热手段靠的主要是机房/机柜的主动散热,而K20还有可能作为面向工作站设计的下一代Maximus平台的Quadro显卡,因此也会有主动散热的产品面世。
K20X及K20最大的变化当属性能方面,M2090的双精度浮点性能只有655GFLOPS,而K20X达到了1.31TFLOPS,M2075的双精度性能只有515GFLOPS,而准备取代它的K20也有1.17TFLOPS,新出的两款产品相比前代都有了成倍的性能提升。
不过在单精度和双精度的比值却有所下降,GK110的双精度性能只有单精度的1/3,而Fermi架构的双精度性能是单精度的1/2,K20X的单精度浮点性能为3.95TFLOPS。
说到峰值FP32单精度性能,K20X依然不能取代4.5TFLOPS的Tesla K10,不过后者是基于两个GK104核心的,缺少GK110架构的部分关键性能,比如片内ECC、HyperQ、Dynamic Parallelism动态并行等技术。因此目前已经使用K10的用户没必要升级到K20,只有那些对双精度FP64性能有较高要求的用户才有必要升级。
Tesla K20发布之后将会面对许多竞争者,有新也有旧。宏观层面来看,使用K20建设的HPC比如美国橡树岭国家实验室的Titan超级计算机会面临着IBM“蓝色基因”等计算机的竞争,虽然Titan的性能早已大大超过后者。
Titan超级计算机的一个节点由4个AMD Opteron处理器和4个Tesla K20加速卡组成
K20也将会面临AMD FirePro S1000、Intel Xeon Phi(正好也在SC 12会议上发布了)等产品的竞争,后两者的双精度浮点性能也达到了1TFLOPS以上,不过他们的不足在于理论性能跟实际性能并不对等,所以NVIDIA的Telsa K20还是会有很强的竞争力,至少有30%以上的性能优势。
另外,在支持环境上NVIDIA也有优势,Tesla K20依赖的环境是已经成熟的CUDA,而AMD FirePro依赖的是OpenCL,Xeon Phi则是X86,都还很需要时间考验。
价格方面,NVIDIA早前公布的K20报价是3199美元,但是这次出来两个型号,最有可能的情况将是K20报价3199美元,而K20X报价在4000-5000美元之间。
NVIDIA方面对出货数量保持沉默,只表示初期可能有些供不应求,服务器合作伙伴可以向NVIDIA先行预定。有趣的是NVIDIA在之前的财报中表示K20的产能非常好,因此NVIDIA的问题是如何满足客户需求而不在生产制造过程中。