Jan 16, 2020

【热点资讯】以“图灵”为名,开启GPU新的篇章!

宽泛科技专注为人工智能、影视后期、VR/AR/MR、视觉计算、虚拟化云计算、商务应用等行业客户提供基于深度学习、人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等硬件解决方案。


NVIDIA首席执行官黄仁勋在SIGGRAPH上宣布:实现了自2006年发明CUDAGPU以来的最大飞跃——将光线追踪图形的逼真效果与基于GPU的交互式图形提供的速度和响应能力完美结合。



温哥华13号当地时间下午4点钟,英伟达(NVIDIA)CEO黄仁勋在正在举办的计算机图形学年度会议SIGGRAPH上,放出了一个重磅更新——英伟达下一代的GPU架构“图灵(Turing)”,以及应用Turing架构的对应Quadro系列专业显卡产品。


会上同期发布了NVIDIA QuadroRTX 8000、QuadroRTX 6000 和Quadro RTX5000,并向与会的专业人士详细介绍了QuadroRTX Server——一个面向价值2500亿美元的视效行业的参考架构。


“这从根本上改变了计算机图形的实现方式,这是现实主义的一次跨越式变革,”黄仁勋对对台下1,200多位图形领域的专业人士说道。


黄仁勋提到,DellEMC、HPI、Hewlett-PackardEnterprise、联想、富士通、Boxx和超微均为支持最新Quadro处理器系列的系统供应商。所有三款全新QuadroGPU均将于第四季度上市。


软硬兼施之道
▲▲▲


Turing凝聚着超过一万个工程年的努力成果– 它采用了可加速光线追踪的RTCore,以及可用于AI推理的全新TensorCore。黄仁勋解释说,它们让实时光线追踪首次成为现实。



“它已在当今应用中表现出色,但未来将更加令人赞叹”,黄仁勋说道。


来自二十多家主要ISV的软件已对其提供支持。为帮助开发者快速充分利用Turing的功能,NVIDIA通过全新AI、光线追踪和模拟SDK进一步强化了其RTX开发平台,以加快Turing在关键图形应用中的能力,满足成百上千万设计师、艺术家和科学家的需求。


黄仁勋还宣布,NVIDIA从即日起对其材质定义语言软件开发套件进行开源。


“我们如今拥有全新的软件堆栈,适用于集光栅扫描和光线追踪、计算和AI于一体的计算机图形学,”黄仁勋说到。

在发布会现场,老黄为了说明“图灵”的强大,专门拿它和“帕斯卡(Pascal)”架构(均为最强旗舰芯片)进行了一个对比。


  1. 晶体管数量:帕斯卡有(GP102核心)118亿个晶体管,而图灵则有186亿个晶体管,相比之下增长了57.6%;

  2. 芯片面积:帕斯卡芯片大小为471平方毫米,图灵为754平方毫米;

  3. 存储性能:帕斯卡的容量为24GB、等效带宽为10GHz,图灵的显存容量上升到48+48GB(需要通过NVlink将双卡互联),等效带宽上升到48GHz。


就这几个数字来看,提升幅度其实还蛮大。尤其是在晶体管数量上。从现场了解的情况来看,“图灵”将会采用12nm工艺,相比“帕斯卡”的14/16nm工艺已经有所提升,但芯片实际尺寸的“暴涨”依旧非常明显。这种程度的改变,实际上对芯片制造的良品率和之后的散热,都提出了比较大的挑战。


整体对比下来,似乎都是华丽丽的提升。但我们不能忘了另外一个前辈架构“伏特(Volta)”的存在。我们再拿“伏特”的数据和“图灵”简单去做个对比。


  1. 晶体管数量:“伏特”(GV100)拥有211亿个晶体管,“图灵”为186亿个晶体管;

  2. 芯片面积:“伏特”(GV100)为815平方毫米,“图灵”为754平方毫米;

  3. 显存形式:“伏特”采用的是直连的4颗HBM显存,主要通过显存位宽来提升整体的显存带宽;而“图灵”采用的GDDR6显存,则主要依靠运行频率来提升整体显存带宽;

  4. CUDA处理器数量:“伏特”(GV100)拥有5376个(实际中部分被屏蔽),“图灵”为4608个;

  5. Tensor处理器数量:“伏特”为672个,“图灵”为576个;

  6. Tensor运算能力:“伏特”为125TFLOPS(深度学习运算能力),“图灵”为150TFOLPS。


从这些结果来看,其实能够可以看到一个非常明显的趋势,“图灵”其实和2017年末登场的“伏特”在一系列参数上有很高的相似度,但两者在实际形态上又相差甚远。


至少从现在来看,“图灵”所采取的一系列变化,关键词都是“实用性”,换个角度来说就是尽可能将最高端的“伏特”架构的部分能力和经验重新组合,打造出更低成本的解决方案,并由此打造出最新一代的GPU基础架构。


让光线追踪做到实时
▲▲▲


黄仁勋通过视频展示,带领与会者回顾了业界先驱过去几十年在计算机图形领域的历程,其中许多人就坐在观众席中。这样的伟大追求推动着世界的发展,而这一领域几十年来一直吸引着全球最智慧的头脑。


Turing的专用光线追踪处理器(RTCores)可加速计算光线和声音在3D环境中的传播方式。与早前的Pascal架构相比,Turing将实时光线追踪速度提高了25倍。它可用于电影效果的最终帧渲染,速度可达CPU速度的30倍以上。


全新GPU演示熟悉画面的惊艳效果
▲▲▲


为直观展示全新Turing架构GPU的独特性能,黄仁勋在全新的硬件设备上演示了一个熟悉的视频画面-EpicGames令人惊叹的星球大战主题的Reflections光线追踪画面。在3月份的游戏开发者大会,Reflections 运行于配备4个VoltaGPU、价值70,000美元的DGXStation上,而此次演示则是运行于一个TuringGPU上。



“事实上它的运行就基于这一个GPU,”黄仁勋说道。伴随着观众的掌声,他将闪闪发光的QuadroRTX 8000机身对准了摄像机,眨了眨眼睛,激动地说道:“这是全球首个光线追踪GPU。”


为图形之美而生的AI
▲▲▲


与此同时,Turing架构的TensorCore(加速深度学习训练和推理的处理器)每秒可提供高达500万亿次Tensor运算。反之,这也为NVIDIANGX软件开发套件中包含的AI增强功能(如去噪、分辨率缩放和视频调速)提供了支持。



“有时你可以使用人工智能或启发式研究去寻找遗漏点何在,以及我们应如何填充,而这使我们能够相对更快地完成框架,”黄仁勋如是描述了新的深度学习技术堆栈,使开发者能够采用预先训练的网络,在应用中集成加速且增强的图形、照片成像和视频处理。


“要实现这些,没有什么比深度学习更加强大的了,”黄仁勋说道。


更快的光栅化
▲▲▲


光栅化是互动式图形的基础,而Turing进行光栅化的速度也比Pascal架构快了6倍,黄仁勋说道,并详细介绍了可变速率着色、纹理空间着色和多视角渲染等技术如何为大规模的模型和场景提供更流畅的交互,并提升VR体验。


谈到一款可以测试Turing的图形教学工具,黄仁勋通过CornellBox讲述了视效的发展故事。CornellBox是一个三维盒子,里面展示着各种物体。黄仁勋展示了Turing如何使用光线追踪来打造复杂效果-从漫反射到折射、到焦散、再到全局照明,可提供令人赞叹的照片级写实感。


黄仁勋的另一个惊艳四座的展示是一辆保时捷70周年纪念款原型车的视频。这一照片级写实的模型看起来像是拍摄好的,但它其实完全是TuringGPU在EpicGames的UnrealEngine引擎生成的。“第一次,NVIDIARTX使我们能够将加速的工作流程推向市场,并加速市场发展,”黄仁勋说道。


希望攻克此类项目的创作者将拥有大量可供选择的工具。除了三款功能强大的Turing显卡(售价3,300美元的QuadroRTX 5000、售价6,300美元的QuadroRTX 6000和售价10,000美元的QuadroRTX 8000),黄仁勋还发布了RTXServer



它配备了8个TuringGPU,旨在将渲染时间从数小时缩短到数分钟。四台搭载8个GPU的RTXServer能够以1/4的成本完成240个双核服务器的渲染工作,占地空间却仅为其1/10,功耗仅为其1/11。“从前需要花费五六个小时完成的拍摄,如今只需要一个小时,”黄仁勋说道,“这将彻底改变人们拍摄电影的方式。”



总而言之,黄仁勋称Turing为“全球首个光线追踪GPU”,并且是“有史以来我们实现最大飞跃的一代产品”。


亮点不断,意犹未尽
▲▲▲


黄仁勋的演讲在一个被称为Sol的演示视频中收官,画面中一对机器人助手,利落地为画面中的主角穿上了白色盔甲。


盔甲表面的光线追踪反射营造出一种未来感,当主角走到舱口准备出去时,无人监督式机器人突然跟着歌曲跳起舞来。


听到音乐,身披盔甲的主角又回到了原位,先是惊讶地抬起头,然后突然也跟着音乐舞动起来,并相当带劲儿。


音乐未止,人们追求技术革新的步伐也不会停止。