NVIDIA DGX深度学习平台产品介绍

一、面临问题


数据科学家利用深度学习和分析的强大能力,并依靠计算性能来更快地获得见解并进行创新。GPU技术是提供通往AI的更快途径,但是建立人工智能深度学习平台远不止部署服务器和GPU这么简单。AI和深度学习要求在软件工程方面投入大量精力,因为这需要集成复杂的组件及软件堆栈,其中包括框架、库和驱动程序。完成部署后,在您等待不断升级的开源软件变稳定的过程中,也需要不断投入额外的时间和资源。您还需要优化基础架构以提高性能,而管理成本会随着系统规模的扩大而增加。

 

二、解决方案


NVIDIA DGX系列产品就是通过开箱即用的解决方案来加快实施您的AI计划,您可以在几小时而非数月内完成AI深度学习平台的部署。NVIDIA NGC 是 GPU 优化的深度学习、机器学习和 HPC 软件中心,可以处理所有线路,因此数据科学家、开发人员和研究人员可以专注于构建解决方案,收集各种见解并提供业务价值。


三、产品介绍

 

1. NVIDIA DGX-Station

 

 

NVIDIA DGX-Station工作站是面向AI开发前沿的个人超级计算机,而且是唯一一款配备四块NVIDIA Tesla V100 Tensor Core GPU的工作站,它集成全连接的四路NVLink架构,可提供500teraFLOPS的AI性能,能够提高您整个团队的实验速度、迭代次数,轻松获得工作成果。DGX-Station内置经全栈优化的硬件和软件解决方案,让您的数据科学团队在短短一小时内就能轻松上手,并且是一款水冷式静音工作站,提供便于办公的软件包,其中的数据中心便拥有计算能力,既能不断运行实验,又能提高团队效率。下图显示了DGX-Station的系统组件:

 

 

 

这一突破性解决方案具有如下优势:

 

 🔷 相较基于CPU的服务器,深度学习训练性能高达50倍;

 🔷 相较20节点的Spark服务器集群,大型数据集分析提速100倍;

 🔷 相较采用PCIE,采用NVLink技术带宽增加5倍;

 🔷 在深度学习训练方案实现超强通用性,每秒可以推理30000多张图像。

 

2. NVIDIA DGX-1

 

NVIDIA DGX-1系统配有8个NVIDIA® Tesla® V100 GPU 加速器,在混合立体网络中通过NVIDIA®NVLink™(NVIDIA高性能GPU互联技术)互相连接。DGX-1可搭配两个Intel Xeon CPU及四块100Gb InfiniBand网络适配器,为深度学习训练提供惊人的强大性能。

此外,DGX-1系统软件、强大的库和NVLink网络为扩充至八个Tesla V100 GPU而进行优化,可以在生产环境和研究环境中,为开发和部署深度学习应用提供最大的灵活性和更高的性能。

 

 

DGX-1产品优势

 

DGX-1采用目前最新的Docker容器技术,深度学习技术框架(Deep Learning)和NVLink等技术。提供高可用、可扩展、高带宽的一体化集群解决方案,并且该产品在AI、工业制造、教育、医疗、科研等企业单位,拥有成熟的成功案例。可以帮助客户快速创新和迭代,以低成本的投入,获取高收益的产出,从而提高生产产出率。

帮助用户在实际的高性能计算应用场景下提高生产效率,快速的完成数据分析,缩短上市时间。

如今的深度学习环境在软件设计方面耗费的时间价值可达数十万美元,而开源软件需要数月时间才能变得稳定。借助DGX-1您可以立刻提高效率。简化工作流程并于团队开展协作。利用配有NVIDIA的随时更新的优化软件解决方案节省您的时间和资金。

尽管许多解决方案提供GPU加速性能,但只有DGX-1发挥除了最新Tesla V100的全部潜力,包括下一代NVLINK技术和Tensor核心架构。相比其他基于GPU的系统,DGX-1凭借NGC深度学习软件堆栈和当今流行的技术框架,将训练速度提升高达三倍。

 

 

3. NVIDIA DGX-2

 

 

 

 

NVIDIA DGX-2 是 NVIDIA 首款 2-petaFLOPS 系统,它整合了 16 完全互联的 GPU,使深度学习性能提升 10 倍,突破了人工智能速度和规模的障碍。它采用 NVIDIA® DGX™ 软件和基于 NVIDIA NVSwitch 技术构建的可扩展架构,可以帮您应对众多复杂的人工智能挑战。

 

解决现代AI和深度学习需求的扩展难题

 

 

为了应对商业应用和科学研究中最紧迫的挑战,深度神经网络在规模和复杂性上发展迅速。传统的数据中心架构已无法满足支持现代AI工作负载所需的计算能力。新技术如增加模型并行使用率与GPU之间的带宽限制相冲突,因为开发人员构建了越来越大的加速计算集群,从而限制了数据中心的规模扩展。人们需要一种新方法来提供几近无限的 AI 计算规模,以便突破障碍,加速获取可以改变世界的见解。


NVIDIA NVSwitch-革命性的AI网络结构

 

前沿研究要求自由地利用模型并行性,并且需要前所未有的GPU间带宽。NVIDIA开发了NVSwitch以解决这一需求。正如从拨号上网到超高速宽带的革新,NVSwitch把属于未来的网络结构带到了今天。有了NVIDIA DGX-2,模型的复杂性和规模不再受传统架构限制的约束。在DGX-2中采用网络结构进行模型并行训练,可提供2.4TB/秒的对分带宽,比前几代增加24倍。这种新的互联“超高速公路”为模型类型赋予了无限可能,现在用户可同时在16块GPU间进行分布式训练,强大的计算能力得以最大程度地释放出来

 

4. NVIDIA DGX-POD——通往AI的最高效途径


NVIDIA® DGX-POD™是在DGX-1与DGX-2的基础上建立的,提供了一站式交付节点解决方案DGX-POD,这一方案可以大大节省构建基础设施所花费的时间,帮助数据中心轻松快速进行AI部署,为扩展多GPU服务器节点提供更多支持。

 

 

 

以前数据科学家需要等待漫长的ETL过程,浪费时间,为了挽救“咖啡因中毒”的数据科学家,因此DGX-POD问世,以下是DGX-POD的两大优势:

 

🔷 面对人工智能的爆炸式增长和独特需求,提供强大的算力,

🔷 同时为每个想要优化其计算、存储和网络基础设施的数据中心架构师提供了发展蓝图。以应对AI融合型应用的增长浪潮。


客户痛点:

 

🔷 人工智能与高性能计算,在基础设施搭建过程中必须确保集群体系结构的可扩展性、在存储、网络和软件的采购安装过程中都要确保万无一失,而其软件的安装是十分复杂、耗时并且容易出错的,优化框架性能也需要很强的专业性;

🔷 无法跟上软件的频繁升级,用户只能使用较旧的功能和较低的性能。

🔷 当集群中的某些软件出现问题时,面对复杂的软件堆栈,很难找到供应的源头

🔷 后期的软件维护工作也会变得十分艰难。


当使用的DGX-POD之后

 

🔷 拥有着NVIDIA以及存储行业提供的参考体系架构,提供了完善的可扩展性。

🔷 拥有整体解决方案的提供商,从而获取可靠的专业知识支持,使整个部署环节更加简化。

🔷 NVIDIA会提供完善的AL/DL软件堆栈,后期出现任何问题,都会得到一站式的技术支持与服务

最后,让我们看下35KW的DGX-POD搭建时对于机架、冷却和功率的要求:

 

 场景

 设计指南

 机架

 支撑静载荷1360kg

1200mm深×700mm宽的尺寸

符合TIA 942标准的结构化布线路径

 冷却

 达到ASHRAE TC 9.9 2015热度指南的“允许范围”

 电源

 A/B电源线,每个380/400/415V,32A,每个三相电21-23KW

“人工智能”为我们带来了交互的改变、科研的进步、生活的便捷,它让我们看到了一个触手可及的美好未来。但是随着技术的不断发展,问题也接踵而至。对于运算、储存空间、网络和设施需求的不断提升,让很多科研机构和企业无法适从,他们深知计算集群搭建的复杂与后期软件维护的艰辛。而DGX-POD的问世,正有效地解决了这一难题。由NVIDIA提供的一站式部署与维护服务,让你轻松获得一个完美的计算集群,简洁的部署、完善的可拓展性能、经过NGC优化的丰富的软件堆栈,将成为您人工智能旅途中的强大助力。