2020-3-31
1. DEEPOPS概述
DEEPOPS是一个部署 GPU 集群的软件,以下为 DEEPOPS 特色内容:
♦ 开源项目,可自由使用,但需要 DevOPS 知识来定制和部署;
♦ 高度模块化,组织成可以自定义和安装的组件,结合各类第三方组件,专注于粘合代码、配置和最佳实践;
♦ 默认设置,结合 NVIDIA 最佳实践,例如安装具体驱动、NVIDIA docker 等;
♦ 应用场景广泛,支持 GPU 服务器集群软件端到端部署,以及现有集群环境部署附加功能,并且支持单台 GPU 服务器部署驱动、docker等。
2. DEEPOPS软件架构:
构建一个按序分配的 GPU 集群,我们需要具备以下内容:
固件更新、集群监控、安全策略、集群内部隔离、集群调度
3. 资源池化
当然,构建一个 GPU 集群我们要达到资源利用率的最大化,所以我们要把 GPU 集群做到资源池化,其中包括:
♦ 达到较少的用户协调;
♦ 更高的资源利用率;
♦ 扩展性好;
♦ 标准化的维护
4. 适用场景
来让我们看看 DEEPOPS 是适用于哪些用户场景,例如:
♦ 多用户使用多台设备场景
♦ 多用户使用一台设备场景
♦ 互联网云化的突发性请求
♦ 多区域的不同设备的训练和推理
♦ 在线时推理,离线推理
如下图
5. 预期的效果
易于部署:开发,训练、生产环境工作负载;
在单个管理平台上支持多个团队,客户或项目;
管理和监视整个数据中心的资源,账单和使用情况;
让每个团队专注于他们最擅长的业务!