产品中心
Product
首页 > 产品中心 > 数据中心产品 > 英伟达 GPU
返回

NVIDIA A30 Tensor Core GPU

1-210FG53150546.png


适用于主流企业服务器的多用途计算加速GPU


NVIDIA A30 Tensor Core GPU 为各种企业工作负载带来加速性能。例如大规模 AI 推理和高性能计算 (HPC) 应用程序。

具有 PCIe 外形规格(非常适合主流服务器)的 NVIDIA A30 Tensor Core GPU 集快速显存带宽与低功耗于一体,不仅能实现弹性数据中心,还能为企业带来更大价值。

配置及亮点

NVIDIA A30 Tensor Core GPU 采用的 NVIDIA Ampere 架构,以 540 亿个晶体管打造,是有史以来最大的 7 纳米 (nm) 芯片,包含多项关键的突破性创新。

 

1. 第三代 Tensor 核心

NVIDIA Tensor 核心技术最先运用在 NVIDIA Volta™ 架构上,不只大幅加速人工智能,也将训练时间从数周降至数小时,同时显著提升推论速度。NVIDIA Ampere 架构以这些创新技术为基础,采用全新精度标准 Tensor Float 32 (TF32) 与 64 位浮点 (FP64),以加速并简化人工智能应用,同时将 Tensor 核心效能拓展至高效能运算。

TF32 与 FP32 运作方式相同,无需更改任何程序代码即可将人工智能速度提升至最高 20 倍。透过 NVIDIA 自动混合精度,研究人员只要多加几行程序代码,就可以利用自动混合精度和 FP16 将效能提升 2 倍。通过支持 bfloat16、INT8 与 INT4,更能为人工智能训练和推论创造极致多元的加速器。

NVIDIA A30 Tensor Core GPU 将强大的 Tensor 核心导入高效能运算,还支持完整矩阵运算、通过 IEEE 认证,并使用 FP64 精度。

 

2. 多实例 GPU (MIG)

如果把传统 GPU 比作一个饮水机,那么 MIG 就像一个多头的喷泉。多实例 GPU (MIG)可让工作负载共享 GPU。MIG 将一个 NVIDIA A30 Tensor Core GPU 划分为多达四个独立的 GPU 实例。它们同时运行,每个都有自己的内存、缓存和流式多处理器,这使得 NVIDIA A30 Tensor Core GPU 能够以比以前的 GPU 高 4 倍的利用率提供有保证的服务质量。

 

3. 第三代 NVLink

第三代 NVIDIA® NVLink® 可将 GPU 到 GPU 的直接带宽翻倍,达到每秒 600 GB (GB/秒),比第二代 PCIe 速度快近 10 倍。搭配最新一代 NVIDIA NVSwitch™ 使用时,服务器中的所有 GPU 都能透过 NVLink 全速相互交流,执行极高速的数据传输。

 

4. 结构化稀疏

现代人工智能网络相当庞大且越来越大,有数百万、甚至数十亿个参数。精准预测与推论不需要用到所有参数,而有些参数可以转换为零,以确保模型变「稀疏」的同时不会牺牲准确性。Tensor 核心最高可以将稀疏模型的效能提高 2 倍。将模型稀疏化对于人工智能推论有益,同时也能改善模型训练效能。

 

5. 第二代 RT 核心

NVIDIA Ampere 架构的第二代 RT 核心可大幅提升电影作品的拟真渲染、建筑设计评估,以及产品设计的虚拟原型制作等工作负载的速度。RT 核心还能加速光线追踪于动态模糊的渲染效果,以更快的速度获得更高的视觉准确度。在执行着色或噪声消除功能的同时,还能执行光线追踪。

专业功能及应用

NVIDIA Ampere 架构是完整的 NVIDIA 企业数据中心解决方案的一部分,它囊括了硬件、网络、软件和库的构建模块,以及 NVIDIA NGC™ 目录中经优化的 AI 模型和应用程序。NVIDIA A30 Tensor Core GPU 为数据中心提供了强大的端到端 AI 和 HPC 平台,让研究人员能够快速交付真实的结果,并且大规模地将解决方案部署到生产环境中。

 

1. 深度学习训练

NVIDIA A30 Tensor Core 具备 Tensor Float (TF32) 精度,可提供比 NVIDIA T4 高 10 倍之多的性能,并且无需更改代码;若使用自动混合精度和 FP16,性能可进一步提升 2 倍,综合起来可将吞吐量提高 20 倍。与 NVIDIA® NVLink®、PCIe Gen4、NVIDIA Mellanox® 网络和 NVIDIA Magnum IO™ SDK 配合使用时,可以扩展到数千个 GPU。

Tensor Core 和 MIG 使 NVIDIA A30 Tensor Core GPU 全天都能够动态地用于工作负载。它可以在需求高峰时段用于生产推理,并且部分 GPU 可以在非高峰时段改用于快速重新训练同一批模型。

 

2. 深度学习推理

NVIDIA A30 Tensor Core GPU 引入了突破性的功能来优化推理工作负载。它能在从 FP64 到 TF32 和 INT4 的整个精度范围内进行加速。NVIDIA A30 Tensor Core GPU 每个 GPU 支持多达 4 个 MIG,允许多个网络在安全的硬件分区中同时运行,同时保证服务质量。在 NVIDIA A30 Tensor Core GPU 其他推理性能增益的基础之上,仅结构化稀疏支持一项就能带来高达两倍的性能提升。

NVIDIA 产品的出色 AI 性能在 MLPerf 推理测试中得到验证。通过与可以轻松地大规模部署 AI 的 NVIDIA Triton™ 推理服务器配合使用,NVIDIA A30 Tensor Core GPU 能为不同企业带来此突破性性能。

 

3. 高性能计算

NVIDIA A30 Tensor Core GPU 采用 FP64 NVIDIA Ampere 架构 Tensor Core,提供自 GPU 推出以来幅度非常大的 HPC 性能飞跃。配合 24 GB 的 GPU 显存和 933 GB/s 的带宽,可让研究人员快速解决双精度计算问题。HPC 应用程序还可以利用 TF32 提高单精度、密集矩阵乘法运算的吞吐量。

FP64 Tensor Core 与 MIG 的结合能让科研机构安全地对 GPU 进行分区,以允许多位研究人员访问计算资源,同时确保 QoS 和更高的 GPU 利用率。部署 AI 的企业可以在需求高峰时段使用 A30 的推理功能,然后在非高峰时段将同一批计算服务器改用于处理 HPC 和 AI 训练工作负载。


4. 高性能数据分析

数据科学家需要能够分析和可视化庞大的数据集,并将其转化为宝贵见解。但是,由于数据集分散在多台服务器上,横向扩展解决方案往往会陷入困境。

搭载 NVIDIA A30 Tensor Core GPU 的加速服务器可以提供必需的计算能力,并能利用大容量 HBM2 显存、933 GB/s 的显存带宽和通过 NVLink 实现的可扩展性妥善处理这些工作负载。通过结合 InfiniBand、NVIDIA Magnum IO 和 RAPIDS™ 开源库套件(包括 RAPIDS Accelerator for Apache Spark),NVIDIA 数据中心平台能够加速这些大型工作负载,并实现超高的性能和效率水平。

 

5. NVIDIA AI ENTERPRISE

NVIDIA AI Enterprise 是一套端到端云原生 AI 和数据分析软件,经认证可在基于服务器虚拟化平台的虚拟基础设施(带有 VMware vSphere)中的NVIDIA A30 Tensor Core GPU 上运行。这允许在混合云环境中管理和扩展 AI 工作负载。

 

6. 主流 NVIDIA-CERTIFIED SYSTEMS

搭载 NVIDIA A30 Tensor Core GPU 的 NVIDIA-Certified Systems™ 将计算加速功能与高速、安全的 NVIDIA 网络整合到 NVIDIA 的 OEM 合作伙伴构建并销售的企业数据中心服务器中。利用此计划,客户可以在单个高性能、经济高效且可扩展的基础设施上识别、获取和部署系统,以运行 NVIDIA NGC (NVIDIA GPU CLOUD) 目录中的传统和多样化的现代 AI 应用程序。

规格

Nvidia A30 Tensor Core GPU 采用双槽全长尺寸,核心基于 GA100 SKU,其基础频率为930 MHz,可加速至 1440 MHz,拥有 24 GB HBM2 显存、带宽 933 GB/s。显卡的 TDP 为 165W,单 8-pin 供电。


1-210FG53534T9.png

                                                           *与 NVIDIA 产品相关的图片或视频(完整或部分)的版权均归 NVIDIA Corporation 所有。

上一篇:NVIDIA A10 Tensor Core GPU