Dec 18, 2020

GTC20干货纵览|取代摩尔定律,黄氏法则成AI性能最新标准!

12月15日上午10点,NVIDIA召开GTC20中国线上大会,今日的主题演讲嘉宾由NVIDIA CEO黄仁勋换成了首席科学家Bill Dally,分享关于AI、计算机图形学、高性能计算、边缘计算、机器人等领域最前沿的创新以及AI推理、GPU集群加速等最新的研究成果。





黄氏定律:AI性能实现逐年翻倍





NVIDIA的研究人员致力于打造速度更快的AI芯片,并将其用于具有更高带宽的系统,从而简化编程。



下面这张图表展示了从2012年的Kepler,一直到今年5月份的Ampere A100,单芯片推理性能提高了317倍。



这就是「黄氏法则」——推理性能每年翻一倍。Bill Dally称:“在‘摩尔定律’失效的当下,如果我们真想提高计算机性能,‘黄氏定律’就是一项重要指标,且在可预见的未来都将一直适用。”


接着在谈到如何成功实现“黄氏定律 (Huang’s Law)”时,Bill Dally着重分享了自己200人研究团队在AI、高速互联领域的相关研究。


1.超高能效加速器  

NVIDIA 研究人员专门开发了一种名为MAGNet的工具,其生成的AI推理加速器在模拟测试中,能够达到每瓦100 teraops的推理能力,比目前的商用芯片高出一个数量级。



MAGNet采用了一系列新技术来协调并控制通过设备的信息流,最大限度地减少数据传输,而数据传输正是当今芯片中最耗能的环节。这一研究原型以模组化实现,因此能够灵活扩展。


2.发挥所有光子的潜能  

研究团队还开展了一项研究,旨在以更快速的光链路取代现有系统内的电气链路。通过一条光纤来传输数十路信号,有望在仅一毫米大小的芯片上实现Tb/s级数据的传输,是如今互连密度的十倍以上。



除了更大的吞吐量,光链路也有助于打造更为密集型的系统。Dally举例展示了一个未来将搭载160多个GPU的NVIDIA DGX系统模型(上图)。


3.立足网络领域  

Dally还牵头开展了一项合作,构建了NVLink和NVSwitch最初的原型。NVLink和NVSwitch如今用于全球最大型的超级计算机中,实现了其内部GPU的互连。


在11月举行的超算TOP500榜单中,采用NVIDIA技术的超算在前10名中占了8位,Selene超算在TOP500和Green500中都排名第五。





NVIDIA芯片深融中国创新土壤






NVIDIA A100,不仅是世界最大的7nm芯片,具有540亿个晶体管,而且与之前的AI推理方案Turing T4相比,在所有基准测试中,A100的速度都提高了6到8倍。



最让Dally兴奋的是,Ampere破解了如何利用神经网络的稀疏性来获得更好的性能。如果需要缩减它的计算能力,MIG(多实例GPU)还可以将一个A100分解为7个独立的GPU,以便每个GPU都能运行各自的任务。



在中国,众多CSP客户已采用NVIDIA A100 Tensor Core GPU和NVIDIA技术,用于提速各类AI应用,如推荐、广告、搜索、直播、视频等等。

  • 淘宝使用NVIDIA GPU 计算平台,为直播和基于AI的推荐系统提供加速,从而为观众带来个性化体验。

  • 快手针对低分辨率短视频,利用 GPU 做超分辨率处理, 提高视频分辨率到720p或1080p。

  • Bigo Live使用 GPU 提升视频内容创作和内容理解能力。

  • 虎牙通过开发AI数字人业务,为内容创建者创造独特的用户体验,其中GPU在AI和渲染技术方面发挥了关键作用。


JDL京东物流和NVIDIA将共同致力于把江苏常熟打造成全球首座“智能配送城”,以解放快递员双手、缓解快递员短缺的情况,并有助于降低人力成本。



通过搭载NVIDIA Jetson AGX Xavier,并配备高分辨率摄像头以及激光雷达,JDL京东物流智能快递车可实时识别行人、车辆和交通信号灯等物体,并根据所处环境规划驾驶路线,确保交通安全。



NVIDIA Jetson AGX Xavier可提供32TOPS的AI性能,该模块尺寸为100x87mm,仅为大型工作站的十分之一,却提供了与大型工作站相当的优越性能。因尺寸小巧,该模块十分适合搭载于配送和物流机器人、工厂系统和大型工业UAV等自主机器。




宽泛科技—NVIDIA AI加速计划成员

8卡A100服务器、全系Jetson定制提供



Dally回顾AI发展的历程时,他说到:“当前的AI革命其实就是由GPU创造的,以深度神经网络为例,有3个关键组成部分在发挥作用,算法,即深度神经网络本身,训练数据,以及运行所需的硬件。”


宽泛科技作为英特尔、英伟达等芯片及品牌厂商的坚实合作伙伴,NVIDIA潜力AI公司加速计划成员,携手专注为人工智能提供硬件解决方案及相关服务,已成为国内过万家企业、院校及研究机构的信息化解决方案供应商。



8卡A100 GPU服务器

NVIDIA A100的Tensor Core借助Tensor浮点运算 (TF32) 精度,可提供比上一代Volta高20倍之多的性能,并且无需更改代码;若使用自动混合精度和FP16,性能可进一步提升2倍。它代表了强大的数据中心端到端AI和HPC平台,在超大模型和庞大数据集下,实现出色加速,有效助力全球高性能弹性数据中心。



Cloudhin云轩8卡A100 GPU服务器最高可集成8块NVIDIA TESLA A100,单机多卡高密度集成,专为世界上最严苛、最复杂的工作负载运算提供卓越性能而设计,帮助企业、高校及研究人员轻松应对AI、数据科学、科研计算等多个领域的大型深度学习模型训练和大量数据的推理。



Jetson边缘计算平台

无论对于大型企业、中小型企业还是研究机构而言,Jetson系列模块都可以提供满足特定性能和预算需求的解决方案。无人机、自动化工控、智能安防和智慧影像分析等行业专业应用,欢迎联系我们进行配套定制。



专业勤修,锐意进取,Cloudhin云轩技术工程师毕业于NVIDIA深度学习研究所,丰富经验,值得信赖。更多行业定制方案请联系客服,我们将实时响应您的定制需求。





联系我们


如果您有合作需求或宝贵建议,欢迎来信。

邮箱:hezuo@kuanfans.com

合作热线:021-5415 5559