热线电话400-810-9900
NVIDIA®NVLink到底是个啥?

NVIDIA创始人兼首席执行官黄仁勋从厨房烤箱端出了世上首款基于NVIDIA® Ampere架构的GPU —— NVIDIA A100,顿时吸引了一众网友的前排关注,小伙伴们纷纷被土豪金吸粉了!惊叹之余还是要了解一下品质的。NVIDIA-A100 据介绍,搭载了NVLINK第三代技术。A100就不多做介绍了,官方甚至很多小伙伴比我都熟悉。今天主要带大家一起探讨一下NVLINK技术。


最新A100 GPU有五大技术性突破设计:


  • NVIDIA Ampere架构

  • 具有TF32的第三代Tensor Core核心

  • 多实例GPU (MIG)

  • 第三代NVIDIA NVLink

  • 结构化稀疏



其中一个关键性创新就是采用了第三代NVIDIA NVLink,不知不觉就已经第三代了,今天,我们就主要来说下这个NVLink!

NVIDIA®NVLink到底是个啥?


AI 和高性能计算 (HPC) 的计算需求不断增长,因此越来越需要支持在 GPU 之间无缝连接的多 GPU 系统,以便它们可以作为一个巨大的加速器相互协作。虽然 PCIe 非常标准,但带宽有限,因此通常会产生瓶颈。为构建功能强大的端到端计算平台,我们需要速度更快、扩展性更强的互联。


NVIDIA NVLink 是世界首项高速 GPU 互连技术(注意是世界首项),与传统的 PCIe 系统解决方案相比,能为多 GPU 系统提供更快速的替代方案。NVLink 技术通过连接两块 NVIDIA 显卡,能够实现显存和性能扩展1,从而满足最大视觉计算工作负载的需求。 

NVIDIA®NVLink到底是个啥?

目前已知的NVLink分两种,一种是桥接器的形式实现NVLink高速互联技术,另一种是在主板上集成了NVLink接口,并通过安装NVLink接口来实现高速互联技术。如下图展示:NVIDIA®NVLink到底是个啥?

(NVLink接口) 


NVIDIA®NVLink到底是个啥?

                                                            (NVLink 桥接器)

主板集成NVLink接口呢,都是统一标准的和NVLink版本的GPU都是兼容匹配的。那这里小编给大家要给大家提示一下桥接器的选择。要根据自己卡以及机器位置做合适的选择哦。下图列出了如何选择合适的桥接器:

NVIDIA®NVLink到底是个啥?

NVIDIA®NVLink到底是个啥?

NVIDIA®NVLink到底是个啥?

NVIDIA®NVLink到底是个啥?



如果各位能耐心看到这里大家肯定已经对NVLink有了一定的认识了,其实早在2014年 GTC大会上首次提出NVLink技术,直到2016年,发布了P100,这是搭载NVLink的第一款产品,单个GPU具有160GB/s的带宽,相当于PCIe Gen3 * 16带宽的5倍。在GTC 2017上发布的V100搭载的NVLink 2.0更是将GPU带宽提升到了300G/s,差不多是PCIe的10倍了。再到今年的线上GTC大会,A100集成了最新的第三代NVLink,单个NVIDIA A100 Tensor核心GPU支持多达12个第三代NVLink连接,总带宽为每秒600G/s,几乎是PCIe Gen 4带宽的10倍。看到这个速度的跨越性提升,有没有惊呆呢?

那提到NVLink,就不得不提一下NVSWITCH 


NVIDIA NVSwitch 将多个 NVLink 加以整合,在单个节点(如 NVIDIA HGX-A100)内以 NVLink 的较高速度实现多对多的 GPU 通信,从而进一步提高互联性能。NVLink 和 NVSwitch 的结合使 NVIDIA 得以高效地将 AI 性能扩展到多个 GPU,并在业内首个 AI 基准测试 MLPerf 0.6 中斩获佳绩 


NVSwitch 是首款节点交换架构,可在单个服务器节点中支持 8 到 16 个全互联的 GPU。第二代NVSwitch 可助力以 600 GB/s 的惊人速度在所有 GPU 对之间同时进行通信。该技术借助直接 GPU 对等内存寻址支持完整的多对多通信。这 16 个 GPU 还可用作单个高性能加速器,拥有统一内存空间和高达 10 petaFLOPS 的深度学习计算性能。

NVIDIA®NVLink到底是个啥?

为简便起见,该 NVSwitch 拓扑图显示的是两个 GPU 的连接。8 个或 16 个 GPU 以相同方式通过NVSwitch 进行多对多连接