新闻动态
News
首页 > 新闻动态
返回

GPU集群管理部署软件——DEEPOPS


2020-3-31


1. DEEPOPS概述


    DEEPOPS是一个部署 GPU 集群的软件,以下为 DEEPOPS 特色内容:


    ♦ 开源项目,可自由使用,但需要 DevOPS 知识来定制和部署;


    ♦ 高度模块化,组织成可以自定义和安装的组件,结合各类第三方组件,专注于粘合代码、配置和最佳实践;


    ♦ 默认设置,结合 NVIDIA 最佳实践,例如安装具体驱动、NVIDIA docker 等;


    ♦ 应用场景广泛,支持 GPU 服务器集群软件端到端部署,以及现有集群环境部署附加功能,并且支持单台 GPU 服务器部署驱动、docker等。


2. DEEPOPS软件架构:


2-210Q30945433L.png

    构建一个按序分配的 GPU 集群,我们需要具备以下内容:


    固件更新、集群监控、安全策略、集群内部隔离、集群调度


2-210Q3094634W4.png


3. 资源池化


    当然,构建一个 GPU 集群我们要达到资源利用率的最大化,所以我们要把 GPU 集群做到资源池化,其中包括:


    ♦ 达到较少的用户协调;


    ♦ 更高的资源利用率;


    ♦ 扩展性好;


    ♦ 标准化的维护


4. 适用场景


    来让我们看看 DEEPOPS 是适用于哪些用户场景,例如:


    ♦ 多用户使用多台设备场景


    ♦ 多用户使用一台设备场景


    ♦ 互联网云化的突发性请求


    ♦ 多区域的不同设备的训练和推理


    ♦ 在线时推理,离线推理


    如下图

 

2-210Q3100233D2.png


5. 预期的效果


    易于部署:开发,训练、生产环境工作负载;


    在单个管理平台上支持多个团队,客户或项目;


    管理和监视整个数据中心的资源,账单和使用情况;


    让每个团队专注于他们最擅长的业务!




上一篇:NVIDIA Jetson 边缘智能计算平台之软件篇