2018年8月新发布了 Quadro 和 GeForce 产品线。新发布的产品与往代相比最大的特点是加入了光线追踪核心。光线追踪核心的作用是计算三维场景中光线和反射效果,包括镜面反射和漫反射。前代产品没有专用的计算光线的核心,因此,此代产品加入专用的光线追踪核心后,光线计算能力比前代有了质的飞跃。
光线追踪计算可以理解为对画面效果的增强计算,因此光线追踪核心的出现不会提升输出帧率。
光线追踪在游戏和三维视频渲染中有着广泛应用,但该功能在深度学习中派不上用场。深度学习主要使用流处理器核心(CUDA core)和张量核心(Tensor core)。核心数量越多、频率越高,代表性能越好。
CUDA 核心在历代处理器中都有,而张量核心则是首次出现在 Quadro 和 GeForce 产品线中。
目前 Quadro RTX 所有处理器和 GeForce RTX 2070/2080/2080Ti 处理器均加入了张量核心。不过英伟达只声称 GeForce RTX 2070/2080/2080Ti 有张量核心,并未公布核心数量。由于 Quadro RTX 5000 的张量核心数为 384,因此推测 GeForce RTX 2080Ti 的张量核心数也为 384,或更少,如 192。
张量核心的介绍可以参考文章《在 CUDA 9 中编程张量核心》(英文)
简而言之,张量核心的作用是,计算 D = A * B + C 矩阵。其中 A、B、C 均为 4*4 矩阵,显然 D 也是 4*4 矩阵。矩阵 A 和 B 中的每个元素为 16 位浮点数(半精度),矩阵 C 可以是 16 位也可以是 32 位浮点数(单精度),显然计算结果 D 是 32 位浮点数矩阵。
根据矩阵计算定义,更大规模的矩阵计算可以切割为较小矩阵并分别计算,最后再组合成一个完整的结果,每个切割后的计算任务彼此没有前后依赖关系,相互独立。这就给并行计算提供了理论可能。
例如,若 A、B 和 C 均为 16*16 半精度矩阵,计算 D = A * B + C,则可以先把 A、B 和 C 分别等分为 4*4 个小矩阵,即每个矩阵内有 4*4 个元素。计算 A*B 就是把每个小矩阵作为一个整体,进行矩阵乘运算,然后再跟 C 的对应小矩阵相加。16 个小矩阵计算任务完成后,再把计算结果组合成一个新矩阵,即为结果 D。
现代深度学习训练中,常会出现大量的矩阵相乘和相加的运算。例如我们可以把矩阵 A 看作是参数,矩阵 B 的每个向量看作是输入,矩阵 C 看作是偏置值,结果矩阵 D 看作是分类结果。
据官方声称,在计算类似 D = A * B + C 的 4*4 矩阵运算中,张量核心的计算效率是 CUDA 核心的 12 倍。
张量核心随着 Tesla V100 和 CUDA 9 发布而同步推出,从2017年10月到发稿时(2018年8月)还不足一年,业界支持还不够普遍。目前主流的深度学习框架,如 TensorFlow、PyTorch 等还未加入针对张量核心的支持。不过有了硬件支持,软件支持仅仅只是时间的问题了。
以下为最近发布的产品与前代产品对比:
Quadro 产品线:
Quadro RTX 8000 | Quadro RTX 6000 | Quadro RTX 5000 | Quadro GV100 | Quadro GP100 | |
CUDA 核心 | 4608 | 4608 | 3072 | 5120 | 3584 |
英伟达张量核心 | 576 | 576 | 384 | 640 | 无 |
双精度性能 | TBD | TBD | TBD | 7.4 TFLOPS | 5.2 TFLOPS |
单精度性能 | TBD | TBD | TBD | 14.8 TFLOPS | 10.3 TFLOPS |
张量性能 | TBD | TBD | TBD | 118.5 TFLOPS | 20.7 TFLOPS |
显存容量 | 48GB | 24GB | 16GB | 32GB | 16GB |
显存频率 | 14Gbps | 14Gbps | 14Gbps | TBD | TBD |
显存类型 | GDDR6 | GDDR6 | GDDR6 | HBM2 | HBM2 |
ECC 内存 | TBD | TBD | TBD | 是 | 是 |
光线追踪带宽 | 10G 条光线/秒 | 10G 条光线/秒 | 6G 条光线/秒 | 不支持 | 不支持 |
NVLink 带宽 | 200 GB/s 双桥(TBD) | 200 GB/s 双桥(TBD) | 200 GB/s 双桥(TBD) | 双桥 200 GB/s | 双桥 160 GB/s |
最大功率 | 250 W | 250 W | 250 W | 250 W | 235 W |
显示接口 | DP 1.4 (4), VirtualLink(Type-C) | DP 1.4 (4), VirtualLink(Type-C) | DP 1.4 (4), VirtualLink(Type-C) | DP 1.4 (4) | DP 1.4 (4), DVI-D DL |
参考价格 | 10000 美元 | 6300 美元 | 2300 美元 | TBD | TBD |
标有 TBD 的参数均为待定,因为官方尚未公布相关参数。
GeForce 产品线:
GeForce RTX 2080Ti | GeForce RTX 2080 | GeForce RTX 2070 | |
CUDA 核心 | 4352 | 2944 | 2304 |
基础频率 | 1350 MHz | 1515 MHz | 1410 MHz |
加速频率 | 1545 MHz/1635 MHz(FE) | 1710 MHz/1800 MHz(FE) | 1620 MHz/1710 MHz(FE) |
显存容量 | 11GB GDDR6 | 8GB GDDR6 | 8GB GDDR6 |
显存频率 | 14 Gbps | 14 Gbps | 14 Gbps |
显存位宽 | 352 bit | 256 bit | 256 bit |
显存带宽 | 616 GB/s | 448 GB/s | 448 GB/s |
NVLink | 50 GB/s | 50 GB/s | 不支持 |
热设计功耗 | 250W/260W(FE) | 215W/225W(FE) | 175W/185W(FE) |
供电连接 | 2个8针 | 1个8针+1个6针 | 1个8针 |
建议售价 | ¥8999.00 (普版,厂商) ¥9999.00 (FE,英伟达) | ¥6299.00 起 (普版,厂商) ¥6499.00 (FE,英伟达) | 未公布 |
合作厂商推出的相关产品均为公版设计,区别只有散热部分。
但合作厂商推出的产品中,只有索泰推出的2080Ti产品公布了基础频率-加速频率参数,其他厂商均未公布。而索泰推出的产品标明了“OC”,与英伟达普通公版相同,没有达到 Founders Edition。故推测所有厂商推出的标有“OC”的产品才是真正的普通公版,而没有标“OC”的2080Ti则是降频版。
从以上比较可以看出,Quadro RTX 8000/6000 是完整的 TU102 核心,即 4608 个 CUDA 核心、576 个张量核心、36 个几何单元和 96 个光栅单元。8000 和 6000 的区别仅限搭配的闪存容量不一样。Quadro RTX 5000 删减了 1536 个 CUDA 核心和 192 个张量核心,同时搭配的显存也有缩小。
RTX 2080 Ti砍掉了256个CUDA,阴影单元减为272个,光栅(RoP)减为88个,单浮点性能13.4 TFLOPs(FE版是14.2T),比GTX 1080Ti(11.3T)提升了19%,支持NVLink多卡互联(50GB/s带宽,是SLI金手指的10倍),英伟达国行9999元,9月20日上市发货。
RTX 2080基于TU104核心,阴影单元184个,光栅64个,单浮点性能10.1 TFLOPs,比GTX 1080(8.9 TFLOPs)提升了13%,英伟达国行6499元。
RTX 2070同样基于TU104核心,阴影单元144个,光栅64个,单浮点性能7.5 TFLOPs(FE版7.9T),比GTX 1070(6.5T)提升了15%,不支持NVLink多卡互联,预计10月份推出,11月上市。
Quadro 产品线与 GeForce 产品线相比,除了频率更高、核心更多、内存更大外,还添加了双精度计算能力和内存纠错。所以,如果不需要双精度计算,也不在乎内存出错,可以购买 GeForce 产品,性价比更高。
购买推荐
索泰(ZOTAC)GeForce RTX2080Ti-11GD6 X-GAMING OC吃鸡显卡/游戏电竞台式机独立显卡1350-1575/14000MHz
推荐理由:五热管。尺寸为 311 * 115 * 53mm。
技嘉(GIGABYTE)GeForce RTX 2080 Ti GAMING OC 11G 显卡
推荐理由:五热管,三风扇版本中尺寸较短。尺寸为 286.5 * 114.5 * 50.2 mm。
推荐购买两个,并购买 NVLink 桥,组成双卡互联。由于显卡尺寸较长,立式机箱可以再购买支撑杆以防因重力关系压弯变形。
以上两款均为公版设计,功率为 250W + 35W。其中 250W 为处理器功率,35W 为使用 VirtualLink 输出到 VR 时的功率。因此,不使用虚拟现实输出功能时,最大功耗为 250W。单卡时建议电源为 650W,双卡时建议电源为 1000W。具体功率上限与其他负载有关,如英特尔 Core i7-8700K 的负载为 95W。
Quadro RTX 产品线还未上市销售,待上市后再评估。
推荐配置清单
备选1方案总价¥19,110.00,最大优惠为¥9,986.00 + 8,999.00 (显卡2)= ¥18,985.00。购买显卡2后建议再购买一个显卡支架,防止压弯。
关于 “NVIDIA 芯片产品比较与选购指南” 的 1 个意见
您必须登录才能发表评论。