今天,我们正站在由 GPU 深度学习的新计算模式引发的人工智能计算时代的开端。深度学习无处不在,当你打开移动终端的时候,各种 APP 会荐到你喜欢的食物、你喜欢的电影,你关注的新闻热点。在生活中更是改变着我们,今天的智能语音让语言障碍破除,在预测疾病基因大数据领域预测疾病来确定药物治疗方案。在安全领域通过安装在机场和商场的智能视频监控,提高了公共安全性。可以说,深度学习的应用,彻底改变了今天人们的生活。

硬件的发展推动AI领域的进步

2016年3月份,谷歌DEEPMIND的计算机在多轮围棋比赛中击败了世界围棋冠军李世石。这一标志事件意味着AI领域将会进入一个新的时代。获胜的AlphaGo借力于现在为大家所熟知的深度学习---一种人工神经网络,在这种神经网络里有很多计算处理层,可以用来从海量的数据中寻找某一类数据的特征,可以用来自动寻找问题的解决方案。

企业追求的主要战术是使用现场可编程门阵列(FPGA),其中有可重配置的优势,可以根据计算需求进行修改。而其中的更常见的方法则是使用图形处理单元(GPU),与CPU串行的架构有所不同,这种计算设备可以并行地同时执行大量数学计算,最知名的GPU提供商英伟达(NVIDIA)近期来的股价也已每年成倍的速度增长,正是得益于此。

更多的企业应用GPU服务器结合深度学习寻找他们自己适合的算法研究,编写自己的神经网络,例如Facebook 将神经网络用于自动标注算法、谷歌将它用于图片搜索、亚马逊将它用于商品推荐、Pinterest 将它用于个性化主页推送、Instagram 将它用于搜索架构。

       

AI未来-深度学习时代

随着硬件(GPU)不断发展更新,机器学习这一古老的名词变得无比的时髦,甚至可以说是闪耀。其中一种重要的分支-深度学习 更是在许多领域中占据着独一无二的位置,基于深度学习的网络和框架更是层出不穷,目前被应用到各个高校,企业,军工,事业单位中。由此可见,在如今这个科技飞速发展,大数据遍地开花的时代,深度学习对我们来说早已不再那么遥远。

深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。

深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本

同时基于深度学习的框架更是层出不穷,以下是目前相对流行的框架,支持CNN,RNN等网络架构:


我们能做什么

作为英伟达的精英级合作伙伴,北京容天汇海科技有限公司成立于2005年,多年来,公司致力于高端服务器、图形工作站、高性能计算集群、GPU并行计算以及存储设备定制的研究,是以为客户提供软硬件一体化解决方案、GPU并行计算代码培训与移植、代码优化为主要业务的新型高科技企业。


深度学习训练服务器 DEEPMAX AIX4850

*两个Intel 至强 E5-2683V3处理器14核心28线程,以及16个32GB DDR4 ECC REG 2133MHz内存,24个DIMM插槽,支持最高1.5TB DDR4 ECC 2400MHz内存

*系统盘采用了1块SanDisk CloudSpeed EcoMLC 1.92TB SSD,存储盘采用了3块SanDisk CloudSpeed EcoMLC 1.92TB SSD

*采用了10个最新的NVIDIA P40,采用 NVIDIA PASCAL GPU 架构,单精度峰值性能12Teraflops,INT8浮点计算能力为47TOPS(Tera Operations per Second),板载24GB 的显存以及346GB/s的带宽。NVIDIA Tesla P40相较于传统的CPU,P40可以带来超过60倍的性能提升。

*采用了容天技术团队自主研发的深度学习应用平台RT-BRAIN,支持POWER、X86等异构平台,软件内部分为硬件层,集群层,AI层,平台层,应用层5个层次,包含TPE、Bayesian等数学模型,可应用在医疗、金融等多个领域。

NVIDIA® TESLA® P40 推理加速器

在人工智能和智能机器新时代,深度学习正以与历史上其他计算模型截然不同的方式改变着世界。采用革命性的 NVIDIA Pascal™ 架构的 GPU 是人工智能新时代的计算引擎,可加快 大规模深度学习应用程序的速度,提供卓越的用户体验。 打造 NVIDIA Tesla P40 的主要目的是为深度学习部署提供更大的吞吐量。每个 GPU 可带来 47 TOPS(万亿次运算/秒)的推理性能和 INT8 运算能力,使得一台配备 10 个 Tesla P40 的 服务器可提供相当于超过 140 台 CPU 服务器的性能。 随着模型的准确性和复杂性越来越高,CPU 已经无法再提供互动用户体验。Tesla P40 可在 极其复杂的模型中实现实时响应,能够降低延迟,将性能提升为 CPU 的 30 倍

   

   

容天 DEEPMAX AIX4850

 

深度学习推理服务器DEEPMAX AIX2850

*两个Intel 至强 E5-2683V3处理器14核心28线程,以及8个16GB DDR4 ECC REG 2133MHz ,24个DIMM插槽,支持最高1.5TB DDR4 ECC 2133MHz

*系统盘采用了1块SanDisk CloudSpeed EcoMLC 960GB SSD,存储盘采用了1块SanDisk CloudSpeed EcoMLC 960GB SSD

*采用了8个最新的NVIDIA TESLA P4,Tesla P4则可为超大规模数据中心提供极高的能效,一台配备单个Tesla P4的服务器可以取代13台CPU服务器,总体拥有成本可节省超过800%。

NVIDIA Tesla P4

NVIDIA Tesla P4采用革命性的NVIDIA PascalTM架构,核心则是GTX1080/1070同款的GP104,全部2560个流处理器,核心频率只有810-1063MHz,单精度性能5.5TFlops,INT8 22TOPS,搭配256-bit 6Gbps 8GB GDDR5显存,功耗50-75W,半高被动散热。专为处理深度学习工作负载,启用只能响应人工智能服务而打造,可显著提升其运作效率。该显卡可将任何 超大规模基础架构的延迟降低 15 倍,并可以提供比 CPU 高 60 倍的惊人能效。这使得我们开发了许多新的人工智能服务,这些服务在过去由于延迟限制而无法实现。

容天 DEEPMAX AIX2850

 

深度学习静音工作站DevTop AIX4550

*两个Intel 至强 E5-2683V3处理器14核心28线程,以及4个32GB DDR4 ECC REG 2133MHz内存,8个DIMM插槽,支持最高1.5TB DDR4 ECC 2133MHz内存

*系统盘采用了1个PCIE M.2 512GB企业级固态硬盘,存储盘采用4TB 7200转企业级SATA机械硬盘

*采用四个最新的 NVIDIA Quadro GP100,Quadro GP100基于Pascal核心,单精度CUDA 3584个,双精度CUDA 1792个,半精/单精/双精浮点运算性能分别是20.7T、10.3T和5.2T,匹配16GB HBM2显存,带宽高达717GB/s,功耗235W。

NVIDIA QUADRO GP100

最新的NVIDIA Quadro Pascal GPU,由高端GP100引领,简化可视化,模拟和VR工作流程设计,工程和其他领域的工作流程正在快速发展,以满足照片写实,虚拟现实和深度学习技术带来的数据量和复杂性的指数增长。为了充分利用这些机会,新的NVIDIA®Quadro Pascal系列阵容提供了一个企业级的可视化计算平台,可简化设计和仿真工作流程,达到上一代两倍以上的性能和超快速内存。

NVIDIA专业可视化副总裁Bob Pette说:“专业工作流程现在已经融入了人工智能,虚拟现实和写实摄影之中,为我们最苛刻的用户带来了新的挑战。 “我们的新Quadro阵容提供了解决这些挑战所需的图形和计算性能,通过统一计算和设计,Quadro GP100可以将超级计算机的功能转换并平均到许多台式机上。

 

容天 DevTop  AIX4550