2018年3月27日在美国圣何塞,英伟达GTC 2018年度大会的最重磅环节——创始人&CEO黄仁勋主题演讲——正式开始。

 每年的GTC大会,被粉丝爱称为“老黄”的黄仁勋(CEO)都会带来一场重磅主题演讲,通常情况下都会说一下发布的新机型GPU以及服务器等等,还会宣布和行业内多重领域的重磅合作。

 

  今年的GTC2018将联合芯片巨头ARM打造IOT设备的AI芯片专用IP,这款机器学习IP集成到Arm的ProjectTrillium平台上,以实现机器学习,其技术源于英伟达Xavier芯片以及去年开源的DLA深度学习加速器项目。

 

  NVIDIA副总裁兼自主机器事业部总经理Deepu Talla表示:“推理将成为每个物联网设备的核心能力。我们将与ARM一同推进这一趋势的发展,帮助数百家芯片公司轻松采用深度学习技术。”

 

  另外,老黄还在大会上先后介绍3D渲染方面应用、GV100、新型V100、DGX2、TensorRT4、3D仿真、仿真训练等等相关技术知识,更为此次盛会增加了许多含金量,以下是此次会议的主要内容:

 

 

◆ 英伟达推出光线追踪RTX技术(ray-tracing),能够提供电影级画质的实时渲染,渲染出逼真的反射、折射和阴影画面。这一技术由英伟达在前不久的GDC全球游戏开发者大会上展示过;

◆ 英伟达推出第一款采用Volta架构的Quadro GV100GPU,由两个GV100连接而成;

◆ 英伟达最新AI平台新版Tesla V100内存升为32G,可与旧版无缝换插,支持更多人工智能的工作负载;推出DGX-2超级电脑,采用了最新的NVSwitch链接,最多可同时连接16块Tesla V100 GPU,其速度可以达到DGX-1的10倍,算下来可以每秒下载14000 部电影,售价39.9万美元;推出新版机器学习应用平台TensorRT 4,支持INT8与FP16精度,并与谷歌合作,将其整合进AI开源框架谷歌TensorFlow 1.7中;

◆ 正式推出3D仿真自动驾驶测试平台DRIVEConstellation,这一测试平台英伟达在CES上展示过,能够帮助自动驾驶系统提升“姿势水平”;

 

光线追踪技术:

  光线追踪技术是英伟达前不久发布的,这项技术是英伟达耗时10年打造的,能够提供电影级画质的实时渲染,渲染出逼真的反射、折射和阴影画面,几乎与真实世界的照片或视频很难区分开来。现场展示的视频片段就是用光线追踪技术实时渲染的,而且并不需要一个超级强大的超算电脑,只需要一台DGX-Station。

搭载英伟达RTX技术的GPU Quadro GV100

  黄仁勋表示,结合强大的 Quadro GV100 GPU,NVIDIA RTX 能够在运行专业设计及内容创作类应用程序的同时,实现实时的计算密集型光线追踪。

 

  QuadroGV100 具有 32GB 内存,且可借助 NVIDIA NVLink 2 互联技术,通过并联两块 Quadro GPU 扩展至 64GB,在所有适用于此类应用的平台中其性能最高。

  在性能方面,GV100 基于 NVIDIA Volta GPU 架构,可提供每秒 7.4 万亿次浮点运算的双精度性能、每秒 14.8 万亿次浮点运算的单精度性能、以及每秒 118.5 万亿次浮点运算的深度学习性能。NVIDIA RTX 内置的 NVIDIA OptiX AI-denoiser 可实现实时的 AI 去噪,英伟达表示且其性能相当于采用 CPU 时的 100 倍。

 

 

 

NVIDIA AI平台:多项重大改进

 

  而后,如同往届,黄仁勋对英伟达 AI 平台做了介绍,公布了其中的一系列重要进展,包括全新 Tesla V100 32GB GPU 的 2 倍内存、革命性的 NVSwitch 结构、以及全面的软件堆栈推动性能提升、深度学习工作站 DGX-2 成为首款性能高达每秒 2 千万亿次浮点运算的深度学习系统、发布深度学习引擎 TensorRT 4 等。英伟达表示,相较于六个月前发布的上一代产品 DGX-1,其深度学习工作负载性能实现了 10 倍提升。

 

  在大会上,黄仁勋宣布,新版的 Tesla V100 内存扩容了一倍。「5 年前 AlexNet 在ImageNet 上展示了突破性的能力,」黄仁勋说道,「它有 8 层,数百个参数。而今天我们能够看到数百层的神经网络,内含数十亿参数,深度学习模型经过五年的发展,体量扩大了 500 倍。」

 

  而这样的计算需求可由「世界上最大的 GPU」DGX-2 进行处理,它是由 16 块32GB 内存的 Tesla V100 计算卡通过NVSwitch 进行连接(显卡间的通信速度是 PCI 的20 倍,每秒 300Gbyte)所组成的,共拥有2000TFPLOS 的 Tensor Core 算力,售价39.9 万美元。NVSwitch 是今天黄仁勋宣布的全新的GPU 互联结构。

 

      

 

 DGX-2 是首款能够提供每秒两千万亿次浮点运算能力的单点服务器,具有 300 台服务器的深度学习处理能力,占用 15 个数据中心机架空间,而体积则缩小 60 倍,能效提升 18 倍。

    

  而后,黄仁勋宣布了英伟达在 AI 推理上的一系列动作。黄仁勋表示,基于在数据中心、汽车应用、以及包括机器人和无人机等嵌入式设备领域中,诸如语音识别、自然语言处理、推荐系统、 以及图像识别等新功能的支持,面向深度学习推理的 GPU 加速正在获得越来越多的关注。

  「我们需要超级计算机来帮助自己寻找更高效的能源存储方法,探索地球的内部,预测未来的自然灾害,以及模拟微观世界的变化。」黄仁勋说道。

 

 

  英伟达宣布推出新版 TensorRT 推理软件 TensorRT 4,并将 TensorRT 集成至谷歌的 TensorFlow 框架。

 

  英伟达表示,TensorRT 4 可用于快速优化、验证及部署在超大规模数据中心、嵌入式与汽车 GPU 平台中经过 训练的神经网络。相比 CPU,针对计算机视觉、神经网络机器翻译、自动语音识别、语音合成与推荐系统等常见应用,该软件最高可将深度学习推理的速度加快 190 倍。而且为了进一步精简开发,英伟达与谷歌的工程师已将 TensorRT 集成至 TensorFlow 1.7,使得在 GPU 上运行深度学习推理应用更加容易。

 

  此外,英伟达还宣布了面向 Kubernetes 的 GPU 加速,以促进企业在多云 GPU 集群上的推理部署。英伟达将针对开源社群强化 GPU 性能,以支持 Kubernetes 生态系统。

 

DRIVE Constellation 仿真系统:

 

  自动驾驶一直是 GTC 大会的重要部分,今天,英伟达展示了一套用于使用照片级真实感模拟,基于云的自动驾驶汽车测试系统。

 

该系统被称为 NVIDIA DRIVEConstellation,是一种基于两种不同服务器的计算平台。第一台服务器运行 NVIDIA DRIVESim 软件,用以模拟自动驾驶汽车的传感器,如摄像头、激光雷达和雷达。第二台服务器搭载了 NVIDIADRIVE Pegasus AI 汽车计算平台,可运行完整的自动驾驶汽车软件堆栈,并能够处理模拟数据,这些模拟数据如同来自路面行驶汽车上的传感器。

     

要实现自动驾驶汽车的量产部署,,我们需要一种能够在数十亿英里的行驶中进行测试和验证的解决方案,以实现足够安全性和可靠性。黄仁勋介绍说,DRIVE Constellation 可以将视觉计算和数据中心方面的专业知识相结合以实现这一目标。借助虚拟现实技术,测试者可通过对数十亿英里的自定义场景和极端情况进行测试,从而提高算法的稳定性,而花费的时间和成本仅为实际道路测试的一小部分。

 

 

  此外,英伟达还推出了机器人开发平台 ISSAC 等工具。同时宣布与 ARM 展开合作。两家公司正在合作将开源的 NVIDIA 深度学习加速器 NVDLA 架构集成到 Arm 的Project Trillium 平台上,以实现机器学习。此次合作将使物联网芯片公司能够轻松地将 AI 集成到自己的设计中,并帮助它们将智能化且价格低廉的新产品带给全球数十亿的消费者。

 

小结:

  英伟达 GTC 大会从 2009 年开办以来,越来越受到人们的关注。而随着人工智能的火热,GPU 价值也水涨船高。而本届 GTC 相比于第一届,参会人数增加了近 10 倍,火热程度也超乎以往。据了解DGX-2会在第三季度发售,如果您有相应需求,欢迎致电400-890-8985咨询。