于正在举办的SC15超级计算大会上,新一期世界超级计算机500强榜单正式公布。其中,使用加速器的系统首次突破100台,而这些加速器当中有超过2/3都是NVIDIA的 Tesla GPU,且这个数字正在以每年50%的速度增长。

 

这个数字表明,加速计算正在塑造超级计算行业的未来,而GPU则在加速计算领域居于主导地位。但这个趋势绝非只是超级计算行业的事情,因为超级计算已经从前沿科学快速渗透到人们日常生活的方方面面,从移动互联网到自动驾驶汽车,GPU加速技术都在其中大展拳脚。

 

 

NVIDIA联合创始人、总裁兼首席执行官黄仁勋在SC15的NVIDIA展位发表演讲时表示,“超级计算技术的影响已经超越了超级计算本身。我们在这方面取得的进步将使消费者应用、云服务、汽车行业和自主机器发生革命性的变化。”

 

 

加速技术的迅猛发展得益于三个重要趋势

 

  1. 摩尔定律变慢,行业需要沿着一条新的道路前进,这条道路的关键就在GPU;

  2. 数百种高性能计算应用已经支持GPU加速,包括最受欢迎的10款应用中的9款;

  3. 用户无需花太多钱来购买加速器就能获得巨大的性能提升。

 

GPU是让超级计算几乎无处不在的下一代处理器

 

黄仁勋将GPU描述成让超级计算几乎无处不在的下一代处理器,其影响力不亚于主宰过去十年的英特尔至强处理器。在CPU的配合下,它的迅速发展将蓄积起巨大的能量,为超级计算树立全新的标准。

 

目前已经公布的下一代超级计算机有不少都将采用GPU加速技术,包括美国能源部的橡树岭国家实验室和利弗莫尔国家实验室的新系统——这两台超级计算机将于2017年上线,届时将成为世界上运行速度最快的超级计算机。

 


 

 

机器学习是高性能计算的第一个杀手级应用

 

加速计算的另一个推动因素是机器学习背后蕴藏的巨大能量。机器学习是人工智能的一个关键领域,如今在网络服务巨头的引领之下,第一波机器学习应用已经问世。

 

语音驱动的网络搜索凭借其近乎完美的理解能力迅速成为日常生活的一部分。类似的例子有Facebook的人脸识别功能、YouTube的视频点击购买功能和Google Photos新推出的定制图像功能。

 

黄仁勋表示:“对消费者来说,机器学习是高性能计算的第一个杀手级应用,目前正在从研发阶段向大规模推广过渡。”



 

机器学习也为汽车和机器人、小型无人机行业带来彻底变革。自动驾驶汽车的发展将带来前所未有的安全性,并为交通行业提供便利。而越来越聪明的机器人、小型无人机,将改变我们生活和探索周围环境的方式。

 

从嵌入式到云计算,NVIDIA GPU助力多领域创新

 

 

 

为了进一步推动这个趋势,NVIDIA今年推出了一系列产品,助力超级计算驱动的机器学习在多个应用领域实现创新。而这些产品都表明,超级计算已无处不在。

 

首先,NVIDIA于上周推出的Tesla超大规模加速系列产品,集合了硬件和软件,能够在超大规模数据中心内实现GPU加速的机器学习,最高可达10倍加速效果。

 

 

同样是刚刚发布的Jetson TX1模块,仅信用卡大小,却可以赋予机器人和无人机等便携式设备机器学习的能力,实现真正的自主导航、环境辨识等功能。

 

NVIDIA于今年年初发布的DRIVE PX汽车平台支持12个摄像头、雷达和激光雷达输入,让自动驾驶离现实更近一步。搭载TITAN X GPU的DIGITS DevBox是一款桌边型、具备机器学习能力的超级计算机,包含了实现深度学习所需的所有硬件和软件,可为中小型深度学习研究提供最便捷的支持。

 

同时,阿里云、亚马逊、IBM以及微软,都已提供基于GPU加速的云服务。这些加速计算服务包括专业图形应用、科学计算和深度学习。

 

 

如此一来,NVIDIA的GPU加速技术则已覆盖了从嵌入式平台、桌面、超级计算、云计算等各个领域。可以说,GPU加速的超级计算已无处不在。

 

Rt. DevTop:全球最快的桌边型深度学习机器

 


由容天工程开发团队为深度学习研发工作开发的 Rt. DevTop 是一个全功能的、可用于加速深度学习研究的平台。
从内存到 I/O 到电源的每个 Rt. DevTop 组件都进行了优化配置,可为最严苛的深度学习研究提供最出色的性能。它预装了数据科学家和研究人员开发深度神经网络所需的所有软件。其中包括 DIGITS 软件包以及最流行的深度学习框架: Caffe、Theano 和 Torch 以及 CUDNN(NVIDIA 加强版 GPU 加速深度学习库)。

 

所有这些都集结在这个高能效、静默、运行流畅且外形优美的软件包中,只需要普通的电源插座,低调安置在您的桌下即可。
对比早期的多 GPU 训练成果显示,在关键深度学习测试中,使用 Rt. DevTop 训练 AlexNet 模型只需 13 个小时,而最好的单 GPU PC 也需要超过 2 天,单 CPU 系统更是需要超过 1 个月的时间才能完成。