在云主机跑深度学习任务,RT-Brain助你轻松完成

在云主机跑深度学习任务,RT-Brain助你轻松完成

 

 

RT-Brain是容天公司自主研发的应用平台,国内首创全中文深度学习图形界面,卓越的交互性,简单易用,轻松上手。


RT-Brain是一个综合性质的平台,包含了两个层面的能力:


1、主机层面:具备构建云平台服务的能力。用户如果有多台不同配置,不同能力的GPU服务器,在RT-Brain下就可以将多台GPU服务器放在一起,形成一个统一的私有云,我们称之为GPU云。用户在这个GPU云里,就可以自由地分配GPU、CPU、内存、存储等等资源,形成弹性化的GPU计算能力。与阿里云相比,最大的区别就是私有云中可动态管理的对象包括了GPU。

2、 应用层面:整合了业界常规的深度学习模型,提供全中文图形操作界面,并提供了国内首创的深度学习任务镜像模式,屏蔽各种复杂的软件配置过程,让用户专注于数据本身的价值。

 

如果你已经部署了RT-Brain,如何让一名普通用户短时间内,从零开始,搭建GPU主机,并完成在GPU主机上跑深度学习任务呢?


管理员首先进行配置:


1.  初始化


RT-Brain3.0推出“一键初始化”功能,流程性的操作方式,一键建立系统使用的基础资源,包括:资源池检测、建立租户、为租户建立用户、物理机的检测、设置私库链接、建立GlusterFS卷和建立存储卷。


2.  为用户分配硬件资源


创建资源分配方案,一步完成资源的申请和审核,既具管理性又方便高效;


然后普通用户登录进行操作:

3.  创建云主机,拉取深度学习任务镜像


镜像可以远端拉取、本地加载或者上传Dockerfile进行添加,还可以将常用镜像收藏保存在云主机的指定目录;


4.  上传训练数据


在云主机上挂载存储卷,向自己的空间上传训练数据(数据集、脚本文件、python程序等);

 

5.  创建作业,执行训练任务


RT-Brain是独立于深度学习框架的专用模块,是整合深度学习平台的基础和核心,它将很多分散的物理计算资源实现统一化管理、用户的操作界面简洁方便至上。不仅可以保证用户充分利用物理资源,更能实现作业的统一调度,以多维度、人性化方式展示监控信息。