Dec 18, 2020

GTC20干货纵览|取代摩尔定律，黄氏法则成AI性能最新标准！

12月15日上午10点，NVIDIA召开GTC20中国线上大会，今日的主题演讲嘉宾由NVIDIA CEO黄仁勋换成了首席科学家Bill Dally，分享关于AI、计算机图形学、高性能计算、边缘计算、机器人等领域最前沿的创新以及AI推理、GPU集群加速等最新的研究成果。

黄氏定律：AI性能实现逐年翻倍

NVIDIA的研究人员致力于打造速度更快的AI芯片，并将其用于具有更高带宽的系统，从而简化编程。

下面这张图表展示了从2012年的Kepler，一直到今年5月份的Ampere A100，单芯片推理性能提高了317倍。

这就是「黄氏法则」——推理性能每年翻一倍。Bill Dally称：“在‘摩尔定律’失效的当下，如果我们真想提高计算机性能，‘黄氏定律’就是一项重要指标，且在可预见的未来都将一直适用。”

接着在谈到如何成功实现“黄氏定律 (Huang’s Law)”时，Bill Dally着重分享了自己200人研究团队在AI、高速互联领域的相关研究。

1.超高能效加速器

NVIDIA 研究人员专门开发了一种名为MAGNet的工具，其生成的AI推理加速器在模拟测试中，能够达到每瓦100 teraops的推理能力，比目前的商用芯片高出一个数量级。

MAGNet采用了一系列新技术来协调并控制通过设备的信息流，最大限度地减少数据传输，而数据传输正是当今芯片中最耗能的环节。这一研究原型以模组化实现，因此能够灵活扩展。

2.发挥所有光子的潜能

研究团队还开展了一项研究，旨在以更快速的光链路取代现有系统内的电气链路。通过一条光纤来传输数十路信号，有望在仅一毫米大小的芯片上实现Tb/s级数据的传输，是如今互连密度的十倍以上。

除了更大的吞吐量，光链路也有助于打造更为密集型的系统。Dally举例展示了一个未来将搭载160多个GPU的NVIDIA DGX系统模型（上图）。

3.立足网络领域

Dally还牵头开展了一项合作，构建了NVLink和NVSwitch最初的原型。NVLink和NVSwitch如今用于全球最大型的超级计算机中，实现了其内部GPU的互连。

在11月举行的超算TOP500榜单中，采用NVIDIA技术的超算在前10名中占了8位，Selene超算在TOP500和Green500中都排名第五。

NVIDIA芯片深融中国创新土壤

NVIDIA A100，不仅是世界最大的7nm芯片，具有540亿个晶体管，而且与之前的AI推理方案Turing T4相比，在所有基准测试中，A100的速度都提高了6到8倍。

最让Dally兴奋的是，Ampere破解了如何利用神经网络的稀疏性来获得更好的性能。如果需要缩减它的计算能力，MIG（多实例GPU）还可以将一个A100分解为7个独立的GPU，以便每个GPU都能运行各自的任务。

在中国，众多CSP客户已采用NVIDIA A100 Tensor Core GPU和NVIDIA技术，用于提速各类AI应用，如推荐、广告、搜索、直播、视频等等。

淘宝使用NVIDIA GPU 计算平台，为直播和基于AI的推荐系统提供加速，从而为观众带来个性化体验。

快手针对低分辨率短视频，利用 GPU 做超分辨率处理，提高视频分辨率到720p或1080p。

Bigo Live使用 GPU 提升视频内容创作和内容理解能力。

虎牙通过开发AI数字人业务，为内容创建者创造独特的用户体验，其中GPU在AI和渲染技术方面发挥了关键作用。

JDL京东物流和NVIDIA将共同致力于把江苏常熟打造成全球首座“智能配送城”，以解放快递员双手、缓解快递员短缺的情况，并有助于降低人力成本。

通过搭载NVIDIA Jetson AGX Xavier，并配备高分辨率摄像头以及激光雷达，JDL京东物流智能快递车可实时识别行人、车辆和交通信号灯等物体，并根据所处环境规划驾驶路线，确保交通安全。

NVIDIA Jetson AGX Xavier可提供32TOPS的AI性能，该模块尺寸为100x87mm，仅为大型工作站的十分之一，却提供了与大型工作站相当的优越性能。因尺寸小巧，该模块十分适合搭载于配送和物流机器人、工厂系统和大型工业UAV等自主机器。

宽泛科技—NVIDIA AI加速计划成员

8卡A100服务器、全系Jetson定制提供

Dally回顾AI发展的历程时，他说到：“当前的AI革命其实就是由GPU创造的，以深度神经网络为例，有3个关键组成部分在发挥作用，算法，即深度神经网络本身，训练数据，以及运行所需的硬件。”

宽泛科技作为英特尔、英伟达等芯片及品牌厂商的坚实合作伙伴，NVIDIA潜力AI公司加速计划成员，携手专注为人工智能提供硬件解决方案及相关服务，已成为国内过万家企业、院校及研究机构的信息化解决方案供应商。

8卡A100 GPU服务器

NVIDIA A100的Tensor Core借助Tensor浮点运算 (TF32) 精度，可提供比上一代Volta高20倍之多的性能，并且无需更改代码；若使用自动混合精度和FP16，性能可进一步提升2倍。它代表了强大的数据中心端到端AI和HPC平台，在超大模型和庞大数据集下，实现出色加速，有效助力全球高性能弹性数据中心。