GPU集群管理部署软件——DEEPOPS

1. DEEPOPS概述


DEEPOPS是一个部署GPU集群的软件,以下为DEEPOPS特色内容:

 开源项目,可自由使用,但需要DevOPS知识来定制和部署;

 高度模块化,组织成可以自定义和安装的组件,结合各类第三方组件,专注于粘合代码、配置和最佳实践;

 默认设置,结合NVIDIA最佳实践,例如安装具体驱动、NVIDIA docker等;

 应用场景广泛,支持GPU服务器集群软件端到端部署,以及现有集群环境部署附加功能,并且支持单台GPU服务器部署驱动、docker等。


2. DEEPOPS软件架构:

 

 

构建一个按序分配的GPU集群,我们需要具备以下内容:

固件更新、集群监控、安全策略、集群内部隔离、集群调度

 

 

 

3. 资源池化


当然,构建一个GPU集群我们要达到资源利用率的最大化,所以我们要把GPU集群做到资源池化,其中包括:

 达到较少的用户协调;

 更高的资源利用率;

 扩展性好;

 标准化的维护


4. 适用场景


来让我们看看DEEPOPS是适用于哪些用户场景,例如:

 多用户使用多台设备场景

 多用户使用一台设备场景

 互联网云化的突发性请求

 多区域的不同设备的训练和推理

 在线时推理,离线推理


如下图

 

 

5. 预期的效果


易于部署:开发,训练、生产环境工作负载;

在单个管理平台上支持多个团队,客户或项目;

管理和监视整个数据中心的资源,账单和使用情况;

让每个团队专注于他们最擅长的业务!