GTC 2016首日,NVIDIA推出了基于全新Tesla P100 GPU加速器的DGX-1超级计算机,用于满足人工智能研究的无限计算需求。


NVIDIA DGX-1


NVIDIA DGX-1是首款专为深度学习量身定制的系统,它具备充分集成的硬件、深度学习软件以及开发工具,让开发者能够快速而轻松地进行开发,其吞吐量相当于250台x86服务器!


NVIDIA DGX-1深度学习系统让研究人员和数据科学家能够轻松利用GPU加速计算的强大性能来打造全新级别的智能机器,使得这些机器能够像人类一样学习、观察和感知这个世界。DGX-1可提供史无前例的强大计算性能来驱动下一代人工智能应用,让研究人员能够在更大更复杂的深度神经网络上大幅缩短训练耗时。


NVIDIA联合创始人兼首席执行官黄仁勋先生表示:“人工智能是目前为止意义最为深远的技术进步,它改变了每一个行业、每一家公司,甚至每一件事,并惠及每一个人。数据科学家及人工智能研究人员在以往的高性能解决方案平台上往往要花费太多的时间,DGX-1不但易于部署,而且专为一个目的而生,就是释放超人般的无穷威力,并将这种威力应用到之前未被解决的难题上来。”



成就DGX-1,源于五大突破


NVIDIA DGX-1基于全新Tesla P100 GPU打造,其吞吐量相当于250台基于CPU的服务器,这次,我们把如此庞大的吞吐量囊括到了单个机箱之内。



另外四项突破性的技术包括可最大限度提升应用程序扩展能力的NVIDIA NVLink,可带来空前节能特性的16nm FinFET制造工艺,可承担繁重数据负荷的HBM2内存以及可为深度学习提供高达21 Teraflops以上的峰值性能的指令集。


这些突破性的技术结合到一起,让配备Tesla P100 GPU的DGX-1系统能够比一年前问世的 NVIDIA Maxwell架构四路解决方案快12倍以上!



在人工智能生态系统中广受追捧


Facebook人工智能研究总监Yann LeCun指出,NVIDIA GPU正在加速人工智能的发展进程。随着神经网络变得越来越大,我们不仅需要更快的GPU,更高容量、更快速度的内存,而且需要大幅提升的GPU间通信速度以及能够利用低精度算术的硬件。这些正是Pascal所具备的特点。


百度首席科学家吴恩达表示,人工智能计算机就像航天火箭一样,越快越好。Pascal 架构的吞吐量和互联技术将造就出我们所见过的最快的火箭。


微软研究院首席语音科学家黄学东表示,微软正在开发具有1000多层的超级深度神经网络。NVIDIA Tesla P100的惊人性能将让微软CNTK能够加速实现人工智能的巨大突破。”


全面的深度学习软件


NVIDIA DGX-1包含一整套优化的深度学习软件,这些软件让研究人员和数据科学家能够快速而轻松地训练深度神经网络。它包括NVIDIA深度学习GPU训练系统(DIGITS),这是一款完整的,可交互的系统,可用于设计深度神经网络(DNN)。它还包括新发布的NVIDIA CUDA 8以及深度神经网络库(cuDNN)第5版。


DGX-1还包括多个使用广泛的深度学习框架的优化版本,如Caffe、Theano 以及 Torch。此外,DGX-1 还可以访问云管理工具、软件更新以及用于容器化应用程序的资源库。


GTC 2016首日,NVIDIA推出了基于全新Tesla P100 GPU加速器的DGX-1超级计算机,用于满足人工智能研究的无限计算需求。


NVIDIA DGX-1规格如下:


  • 半精度(FP16)峰值性能最高可达170 Teraflops

  • 8个Tesla P100 GPU加速器,每颗GPU配备16GB内存,支持ECC

  • NVLink Hybrid Mesh Cube

  • 7TB固态硬盘,用于深度学习高速缓存

  • 双万兆以太网,四路InfiniBand 100Gb网络连接

  • 3U,配备3200W电源






DevTop:全球最快的桌边型深度学习机器



由容天工程开发团队为深度学习研发工作开发的 Rt. DevTop 是一个全

功能的、可用于加速深度学习研究的平台。
从内存到 I/O 到电源的每个 Rt. DevTop 组件都进行了优化配置,可为最严苛的深度学习研究提供最出色的性能。它预装了数据科学家和研究人员开发深度神经网络所需的所有软件。其中包括 DIGITS 软件包以及最流行的深度学习框架: Caffe、Theano 和 Torch 以及 CUDNN(NVIDIA 加强版 GPU 加速深度学习库)。



所有这些都集结在这个高能效、静默、运行流畅且外形优美的软件包中,只需要普通的电源插座,低调安置在您的桌下即可。
对比早期的多 GPU 训练成果显示,在关键深度学习测试中,使用 Rt. DevTop 训练 AlexNet 模型只需 13 个小时,而最好的单 GPU PC 也需要超过 2 天,单 CPU 系统更是需要超过 1 个月的时间才能完成。