NVIDIA 芯片产品比较与选购指南

2018年8月新发布了 Quadro 和 GeForce 产品线。新发布的产品与往代相比最大的特点是加入了光线追踪核心。光线追踪核心的作用是计算三维场景中光线和反射效果,包括镜面反射和漫反射。前代产品没有专用的计算光线的核心,因此,此代产品加入专用的光线追踪核心后,光线计算能力比前代有了质的飞跃。

光线追踪计算可以理解为对画面效果的增强计算,因此光线追踪核心的出现不会提升输出帧率。

光线追踪在游戏和三维视频渲染中有着广泛应用,但该功能在深度学习中派不上用场。深度学习主要使用流处理器核心(CUDA core)和张量核心(Tensor core)。核心数量越多、频率越高,代表性能越好。

CUDA 核心在历代处理器中都有,而张量核心则是首次出现在 Quadro 和 GeForce 产品线中。

目前 Quadro RTX 所有处理器和 GeForce RTX 2070/2080/2080Ti 处理器均加入了张量核心。不过英伟达只声称 GeForce RTX 2070/2080/2080Ti 有张量核心,并未公布核心数量。由于 Quadro RTX 5000 的张量核心数为 384,因此推测 GeForce RTX 2080Ti 的张量核心数也为 384,或更少,如 192。

张量核心的介绍可以参考文章《在 CUDA 9 中编程张量核心》(英文)

简而言之,张量核心的作用是,计算 D = A * B + C 矩阵。其中 A、B、C 均为 4*4 矩阵,显然 D 也是 4*4 矩阵。矩阵 A 和 B 中的每个元素为 16 位浮点数(半精度),矩阵 C 可以是 16 位也可以是 32 位浮点数(单精度),显然计算结果 D 是 32 位浮点数矩阵。

根据矩阵计算定义,更大规模的矩阵计算可以切割为较小矩阵并分别计算,最后再组合成一个完整的结果,每个切割后的计算任务彼此没有前后依赖关系,相互独立。这就给并行计算提供了理论可能。

例如,若 A、B 和 C 均为 16*16 半精度矩阵,计算 D = A * B + C,则可以先把 A、B 和 C 分别等分为 4*4 个小矩阵,即每个矩阵内有 4*4 个元素。计算 A*B 就是把每个小矩阵作为一个整体,进行矩阵乘运算,然后再跟 C 的对应小矩阵相加。16 个小矩阵计算任务完成后,再把计算结果组合成一个新矩阵,即为结果 D。

现代深度学习训练中,常会出现大量的矩阵相乘和相加的运算。例如我们可以把矩阵 A 看作是参数,矩阵 B 的每个向量看作是输入,矩阵 C 看作是偏置值,结果矩阵 D 看作是分类结果。

据官方声称,在计算类似 D = A * B + C 的 4*4 矩阵运算中,张量核心的计算效率是 CUDA 核心的 12 倍。

张量核心随着 Tesla V100 和 CUDA 9 发布而同步推出,从2017年10月到发稿时(2018年8月)还不足一年,业界支持还不够普遍。目前主流的深度学习框架,如 TensorFlow、PyTorch 等还未加入针对张量核心的支持。不过有了硬件支持,软件支持仅仅只是时间的问题了。

以下为最近发布的产品与前代产品对比:

Quadro 产品线:


Quadro RTX 8000Quadro RTX 6000Quadro RTX 5000Quadro GV100Quadro GP100
CUDA 核心46084608307251203584
英伟达张量核心576576384640
双精度性能TBDTBDTBD7.4 TFLOPS5.2 TFLOPS
单精度性能TBDTBDTBD14.8 TFLOPS10.3 TFLOPS
张量性能TBDTBDTBD118.5 TFLOPS20.7 TFLOPS
显存容量48GB24GB16GB32GB16GB
显存频率14Gbps14Gbps14GbpsTBDTBD
显存类型GDDR6GDDR6GDDR6HBM2HBM2
ECC 内存TBDTBDTBD
光线追踪带宽10G 条光线/秒10G 条光线/秒6G 条光线/秒不支持不支持
NVLink 带宽200 GB/s 双桥(TBD)200 GB/s 双桥(TBD)200 GB/s 双桥(TBD)双桥 200 GB/s双桥 160 GB/s
最大功率250 W250 W250 W250 W235 W
显示接口DP 1.4 (4), VirtualLink(Type-C)DP 1.4 (4), VirtualLink(Type-C)DP 1.4 (4), VirtualLink(Type-C)DP 1.4 (4)DP 1.4 (4), DVI-D DL
参考价格10000 美元6300 美元2300 美元TBDTBD

标有 TBD 的参数均为待定,因为官方尚未公布相关参数。

GeForce 产品线:


GeForce RTX 2080TiGeForce RTX 2080GeForce RTX 2070
CUDA 核心435229442304
基础频率1350 MHz1515 MHz1410 MHz
加速频率1545 MHz/1635 MHz(FE)1710 MHz/1800 MHz(FE)1620 MHz/1710 MHz(FE)
显存容量11GB GDDR68GB GDDR68GB GDDR6
显存频率14 Gbps14 Gbps14 Gbps
显存位宽352 bit256 bit256 bit
显存带宽616 GB/s448 GB/s448 GB/s
NVLink50 GB/s50 GB/s不支持
热设计功耗250W/260W(FE)215W/225W(FE)175W/185W(FE)
供电连接2个8针1个8针+1个6针1个8针
建议售价¥8999.00
(普版,厂商)
¥9999.00
(FE,英伟达)
¥6299.00 起
(普版,厂商)
¥6499.00 (FE,英伟达)
未公布

合作厂商推出的相关产品均为公版设计,区别只有散热部分。

但合作厂商推出的产品中,只有索泰推出的2080Ti产品公布了基础频率-加速频率参数,其他厂商均未公布。而索泰推出的产品标明了“OC”,与英伟达普通公版相同,没有达到 Founders Edition。故推测所有厂商推出的标有“OC”的产品才是真正的普通公版,而没有标“OC”的2080Ti则是降频版。

从以上比较可以看出,Quadro RTX 8000/6000 是完整的 TU102 核心,即 4608 个 CUDA 核心、576 个张量核心、36 个几何单元和 96 个光栅单元。8000 和 6000 的区别仅限搭配的闪存容量不一样。Quadro RTX 5000 删减了 1536 个 CUDA 核心和 192 个张量核心,同时搭配的显存也有缩小。

RTX 2080 Ti砍掉了256个CUDA,阴影单元减为272个,光栅(RoP)减为88个,单浮点性能13.4 TFLOPs(FE版是14.2T)比GTX 1080Ti(11.3T)提升了19%,支持NVLink多卡互联(50GB/s带宽,是SLI金手指的10倍),英伟达国行9999元,9月20日上市发货。

RTX 2080基于TU104核心,阴影单元184个,光栅64个,单浮点性能10.1 TFLOPs比GTX 1080(8.9 TFLOPs)提升了13%,英伟达国行6499元

RTX 2070同样基于TU104核心,阴影单元144个,光栅64个,单浮点性能7.5 TFLOPs(FE版7.9T)比GTX 1070(6.5T)提升了15%不支持NVLink多卡互联,预计10月份推出,11月上市。

Quadro 产品线与 GeForce 产品线相比,除了频率更高、核心更多、内存更大外,还添加了双精度计算能力和内存纠错。所以,如果不需要双精度计算,也不在乎内存出错,可以购买 GeForce 产品,性价比更高。

购买推荐

索泰(ZOTAC)GeForce RTX2080Ti-11GD6 X-GAMING OC吃鸡显卡/游戏电竞台式机独立显卡1350-1575/14000MHz

推荐理由:五热管。尺寸为 311 * 115 * 53mm。

技嘉(GIGABYTE)GeForce RTX 2080 Ti GAMING OC 11G 显卡

推荐理由:五热管,三风扇版本中尺寸较短。尺寸为 286.5 * 114.5 * 50.2 mm。

推荐购买两个,并购买 NVLink 桥,组成双卡互联。由于显卡尺寸较长,立式机箱可以再购买支撑杆以防因重力关系压弯变形。

以上两款均为公版设计,功率为 250W + 35W。其中 250W 为处理器功率,35W 为使用 VirtualLink 输出到 VR 时的功率。因此,不使用虚拟现实输出功能时,最大功耗为 250W。单卡时建议电源为 650W,双卡时建议电源为 1000W。具体功率上限与其他负载有关,如英特尔 Core i7-8700K 的负载为 95W。

Quadro RTX 产品线还未上市销售,待上市后再评估。

推荐配置清单

型号零售价推荐理由备注
CPU英特尔(Intel) i7 8700K 酷睿六核 盒装CPU处理器¥2,899.00
基础频率高,核心数量多。可用优惠券减50元。
CPU散热器利民(Thermalright)Archon IB-E X2 执政官 CPU散热器 8热管(支持2066/115X/AM4/双14cm风扇/全金属扣具)¥519.00
(每满100减10)
热管多,不影响内存安装。可用优惠券减15元。
主板微星(MSI)Z370 KRAIT GAMING银环蛇 主板(Intel Z370/LGA 1151)¥1,009.00
(每满100减20)
11相供电,双PCI-E加固槽8月27日0点秒杀,预计¥1,009.00。
显卡1微星(MSI)GeForce GTX 1080 Ti GAMING X 11GB 1569-1683MHZ 352BIT GDDR5X PCI-E 3.0 旗舰红龙 吃鸡显卡自备
显卡2技嘉(GIGABYTE)GeForce RTX 2080 Ti GAMING OC 11G 显卡¥8,999.00

尺寸适合机箱,热管多,支持NVLink和TensorCore9月20日到货。
内存美商海盗船(USCORSAIR) 复仇者LPX DDR4 3000 16GB 台式机内存¥1,299.00 x 2
(不能使用优惠券)
频率高,双通道。3000MHz频率须与主板和CPU配合才能达到。
电源长城(GreatWall)额定1000W 巨龙GW-EPS1000DA 电源(80PLUS金牌/全模组/经典手提箱)¥799.00
金牌电源同等功率中价格最低。可用优惠券减20元
磁盘
备选1
东芝(TOSHIBA) 3TB 7200转64M SATA3 台式机硬盘(DT01ACA300)¥499.00
单位容量价格最低。已以¥469.00元预定,9月1日送到
磁盘
备选2
东芝(TOSHIBA) 8TB 7200转 128M SATA3 企业级硬盘(MG05ACA800E)
¥2,199.00容量更大。
SSD
备选1
HP EX920系列 512G M.2 NVMe 固态硬盘¥999.00
(可能无货)
同等容量和寿命产品中价格相对较低。8月27日0点秒杀,预计¥999.00。
SSD
备选2
浦科特(PLEXTOR)M9PeG 512G M.2 NVMe固态硬盘(带散热片)
¥1,199.00
写入速度比惠普 EX920系列稍快。采购中,不会立即发货。
机箱分形工艺(Fractal Design)Define R5 永夜黑 静音机箱(标配风扇/模块化/支持水冷散热器)¥619.00
(每满100减10)
内部空间足够8月27日0点秒杀,预计¥619.00,且可以使用优惠券。

备选1方案总价¥19,110.00,最大优惠为¥9,986.00 + 8,999.00 (显卡2)= ¥18,985.00。购买显卡2后建议再购买一个显卡支架,防止压弯。

关于 “NVIDIA 芯片产品比较与选购指南” 的 1 个意见

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据