2018-5-31
深度学习(Deep Learning),近年来几乎火遍了各领域,似乎所有的行业或领域只要和它扯上半点关系,瞬间就能高大上起来。在短短的几年时间里,深度学习野蛮生长颠覆了语音识别、图像分类、文本理解等众多领域的算法设计思路,渐渐形成了一种从训练数据出发,经过一个端到端(end-to-end)的模型,然后直接输出得到最终结果的一种新模式。这不仅让一切变得更加简单,而且由于深度学习中的每一层都可以为了最终的任务来调整自己,最终实现了各层之间的通力合作,因而大大提高了任务的准确度。
随着大数据时代的到来以及GPU等各种更加强大的计算设备的发展,深度学习更是如虎添翼,已经进化到可以充分利用各种海量数据(标注数据、弱标注数据或者仅仅数据本身),完全自动地学习到抽象的知识表达,即把原始数据浓缩成某种知识的程度。
那么,问题来了,深度学习从入门到熟练到底需要多长时间?简单来说,如果仅仅是想要熟悉基本深度学习框架(caffe,tensorflow 等)的操作,你需要熟悉了解 shell 命令,python 等编程语言,甚至需要了解 linux 系统,需要了解这些框架安装之前的依赖库等。
不过,如果不懂 linux,不会 shell,那么深度学习的入门岂不是成了一纸空谈?事实上并非如此,今天我们就来介绍一款由容天技术人员不懈努力历经一年时间打造的人工智能大数据平台软件“RT-Brian”。RT-Brian 也可称为具有深度学习功能的集群管理软件,此软件采用全中文网页界面,把所有深度学习框架使用命令集成为网页上的一个按钮,使用方法极其简易,适合用于 AI 业务的集群、数据中心。搭配完整的 GPU 硬件解决方案,可在短时间内帮助客户完成深度学习的入门、训练、识别任务。
平台架构
+
第一层:硬件层
支持 X86、Power 和 ARM 等异构平台,不仅可以支持在不同平台上安装部署,还可以支持 CPU、GPU、FPGA 和 ASIC,以及 TPU、DPU 等专用深度学习芯片的异构平台集群。支持不对称的计算节点,可以根据不同节点的计算能力分配作业,从而有利于支持设备利旧,保护已有投资。平台便于在云平台上部署,方便客户提供云服务。
第二层:集群层
提供分布式文件系统及分布式应用框架如 HADOOP、SPARK;结合高性能计算,提供并行计算和计算数学库。
第三层:AI 层
融合了基于神经网络的深度学习平台和基于智能计算的机器学习平台,整合多种深度学习框架以及机器学习相关支持库,提供统一的对外接口。
第四层:平台层
以统一平台的方式对外提供深度学习相关功能,包括UI界面方式和服务模式两种。既有基于浏览器的人机接口,也可提供基于WebService的云服务接口,可以支持在移动终端下使用。
第五层:应用层
提供支持用户自定义的企业级应用模块,可以方便快捷地开发单独的机器学习应用或者与企业现有系统整合,实现快速应用部署和业务实现。提供结合行业应用的成熟方案和模型,方便用户在短时间内与业务进行结合。
平台部署结构图
+
RT-BRAIN 通过 RTNN 进行部署,既可以部署在独立的数据中心集中管理,也可以布置在实验室等办公环境,方便客户充分利用老旧设备,在网络搭建设计上,也与高性能计算集群网络类似,一般包括管理网络、业务网络和计算网络。
① 管理网络:主要是用于前期部署和后期管理硬件设备的,对数据带宽要求不高,所以建议使用千兆交换网络。
② 计算网络:主要用于训练过程中的数据交换,建议使用 56 GB 以上的 IB 网络,确保数据并行的 IO 不成为瓶颈。
③ 业务网络:主要是用于训练数据的上传和模型的下载等工作,所以对带宽有一定的要求,建议使用万兆网络,也可以与管理网络共享使用千兆网络,或者与计算网络共享 56 GB 以上的 IB 网络。
+
RT-Brain 更新至今,完全按照一切操作流程简易,以算法为最基础核心的理念,把各个模块统一,自部署安装到数据训练一直到识别,一切从简,具体功能说明如下:
+
无论单机版本还是集群版本,只需知道 IP 地址和 root 密码,一键完成部署。▲
+
内置多种目前流行深度学习框架,包含图像识别与语音识别两种,鼠标点击跳转即用。▲
+
可自主上传算法模型和训练程序,超参方面设置枚举、随机、TPE、贝叶斯四种方式可供挑选出最优超参。▲
+
嵌入 JupyterNotebook,可帮助用户实现代码方面的应用及研究。▲
+
可分别对单机中的 CPU、GPU、硬盘、内存以及集群中各个节点进行监控,实时掌握各模块状态。▲
RT-Brain 对于初级用户来说可能只是一个入门工具,对于已经精通的人群带来的特性是可以节省大量时间专注于算法。