目前Tesla K20有两款型号,最高端的是K20X,拥有14组SMX单元,2688个CUDA核心,位宽384bit,搭配6GB GDDR5显存,等效频率5.2GHz。核心频率为732MHz,单精度浮点性能为3.95TFLOPS,双精度则为1.31TFLOPS,TDP功耗235W,使用TSMC 28nm工艺制造,售价不会低于3199美元。
K20X之下还有K20,规格有所降低,只有13组SMX单元,2496个CUDA核心,单/双精度性能分别为3.52/1.17TFLOPS。显存频率也是5.2GHz但是精简掉一组显存控制器,位宽320bit,搭配5GB GDDR5显存,频率也只有706MHz,TDP则为225W,看来K20的规格与之前泄漏的消息是一致的。
K20X与K20的关系与之前Fermi时代的M2090与M2075相似,前者主要用于高性能场合,同时功耗也会更高,后者性能略低,不过TDP也降低了。它们都可以使用被动散热,因为大型计算机的散热手段靠的主要是机房/机柜的主动散热,而K20还有可能作为面向工作站设计的下一代Maximus平台的Quadro显卡,因此也会有主动散热的产品面世。
K20X及K20最大的变化当属性能方面,M2090的双精度浮点性能只有655GFLOPS,而K20X达到了1.31TFLOPS,M2075的双精度性能只有515GFLOPS,而准备取代它的K20也有1.17TFLOPS,新出的两款产品相比前代都有了成倍的性能提升。
不过在单精度和双精度的比值却有所下降,GK110的双精度性能只有单精度的1/3,而Fermi架构的双精度性能是单精度的1/2,K20X的单精度浮点性能为3.95TFLOPS。
说到峰值FP32单精度性能,K20X依然不能取代4.5TFLOPS的Tesla K10,不过后者是基于两个GK104核心的,缺少GK110架构的部分关键性能,比如片内ECC、HyperQ、Dynamic Parallelism动态并行等技术。因此目前已经使用K10的用户没必要升级到K20,只有那些对双精度FP64性能有较高要求的用户才有必要升级。
Tesla K20发布之后将会面对许多竞争者,有新也有旧。宏观层面来看,使用K20建设的HPC比如美国橡树岭国家实验室的Titan超级计算机会面临着IBM“蓝色基因”等计算机的竞争,虽然Titan的性能早已大大超过后者。