突破人工智能速度和规模的障碍,
应对众多复杂的人工智能挑战,
NVIDIA首款 2-petaFLOPS 系统,
采用Nvlink2.0,
整合了 16个完全互联的 GPU,
在某些神经网络模型下,相对比DGX-1,
使深度学习性能提升10 倍的,
新一代超级AI计算机,
DGX-2面世了!
DGX-2 是首款,
能够提供每秒两千万亿次,
浮点运算能力的单点服务器,
具有 300 台服务器的深度学习处理能力,
占用 15 个数据中心机架空间,
而体积则缩小了 60 倍,
能效却足足提升了18 倍。
① NVIDIA TESLA V100 32GB,SXM3
② 双板卡总计 16 块 GPU,总计 512GBHBM2 内存每块 GPU 板卡由 8 块 NVIDIA Tesla V100 组成
③ 总计 12 NVSWITCH 连接高速互联,2.4 TB/秒对分带宽
④ 8 EDR INFINIBAND/100 GbE 以太网1600 Gb/秒双向带宽和低延迟
⑤ PCIE 交换器组件
⑥ 2 个 INTEL XEON PLATINUM CPU
⑦ 1.5 TB 系统内存
⑧ 双 10/25 GbE 以太网
⑨ 30 TB NVME SSDS 内部存储
DGX-2 pk DGX-1
相比于DGX-1,DGX-2
深度学习工作负载性能实现了 10 倍提升,
16块32GB内存的Tesla V100计算卡,
2000TFPLOS 的Tensor Core 算力。
Tips:
全新Tesla V100 搭载32GB 内存,相比去年扩容了一倍。同时拥有革命性的 NVSwitch 结构、以及全面的软件堆栈推动性能提升、深度学习工作站 DGX-2 成为首款性能高达每秒 2 千万亿次浮点运算的深度学习系统、发布深度学习引擎 TensorRT 4 等。
那么,
DGX-2的优势究竟体现在哪些方面呢?
1
非同一般的计算能力造就出众的训练性能
人工智能日益复杂,因而对计算能力的要求比以往更高。NVIDIA® DGX-2 集 16 个NVIDIA 家族最先进的 GPU 的计算能力于一身,可以加速实现之前无法训练的新人工智能模型类型 。此外,它还具有突破性的 GPU 可扩展性,因此您可在单一节点上训练规模扩大 4 倍的模型,而且其性能达到 8 GPU 系统的 10 倍。
2
革命性的人工智能网络架构
通过使用 DGX-2,模型的复杂性和规模再也不受传统架构局限性的限制,可以利用 NVIDIA NVSwitch网络架构进行模型并行训练。NVIDIA 首款 2petaFLOPS GPU 加速器采用的正是这种创新技术,其 GPU 间带宽高达 2.4 TB/s,性能比前代系统提升了 24 倍,并且问题解决速度提高了 5 倍。
3
将人工智能规模提升至全新水平的最快途径
现代企业需要快速部署人工智能功能以满足业务需求。DGX-2 提供随时可用的模块化解决方案,打造扩展人工智能的最快途径。凭借用于构建大型深度学习计算集群的灵活网络选项,再结合可在共享基础设施环境中改进用户和工作负载隔离的安全多租户功能,DGX-2 使人工智能扩展得以简化,从而加快了扩展速度。借助加速部署模型和专为轻松扩展而构建的架构,AI团队可以减少构建基础设施所花的时间,节省出更多的时间来提升洞察力。
4
始终运行的企业级人工智能基础设施
人工智能对业务而言非常关键,因此,您需要专为高可靠性、可用性和可维护性 (RAS) 而设计的平台来保驾护航。DGX-2 专为 RAS 而打造,可以减少计划外停机时间,简化可维护性,并保持运行连续性。DGX-2 是一款企业级产品,依托 NVIDIA 专业知识,专为满足严格的全天候运行要求而构建,旨在使重要的人工智能工作保持正常运行。
5
NVSWITCH:完全连接得NVLINK
由于 PCIe 带宽日益成为多 GPU 系统级别的瓶颈,深度学习工作负载的快速增长使得对更快速、更可扩展的互连的需求逐渐增加。
NVLink 实现了很大的进步,可以在单个服务器中支持八个 GPU,并且可提升性能,使之超越 PCIe。但是,要将深度学习性能提升到一个更高水平,将需要使用 GPU 架构,该架构在一台服务器上支持更多的 GPU 以及 GPU 之间的全带宽连接。
NVIDIA NVSwitch 是首款节点交换架构,可支持单个服务器节点中 16 个全互联的 GPU,并可使全部8 个GPU 对分别以 300 GB/s 的惊人速度进行同时通信。这 16 个全互联的 GPU 还可作为单个大型加速器,拥有 0.5 TB 统一显存空间和 2 PetaFLOPS 计算性能。
现在只要39.9万美元,
你就能为颠覆想象的超级AI计算机DGX-2打call。
欢迎致电,
400-898-8985。