IBM在8月7日发布了一项新技术,该技术可以通过应用大量强大的硬件来完成分布式深度学习(DDL)系统的训练。它的工作原理是优化运行深度神经网络的硬件组件之间的数据传输。

IBM试图解决的关键问题是分布式深度学习系统中的网络瓶颈问题。虽然有可能将计算负载分散到许多计算机上,但由于在实际计算中硬件之间的高延迟连接,这个过程会变得越来越低效。

PowerAI DDL是一种新的通信库,它与一篇解释性研究论文联合发布,目的是为了提高效率,确保运行中的系统能够充分利用所有可用的高性能连接。通过使用PowerAI DDL,IBM能够在50分钟内,使用64台具有4个GPU的服务器,在ImageNet数据集上训练流行的Resnet-50深度神经网络。

拥有足够硬件的组织能够充分利用PowerAI DDL的能力,可以明显看到,数据科学家们等待实验运行结果的时间会大大缩减。实验运行得更快,科学家们就可以做更多实验,也将会产生更好的结果。

IBM的通信库正在作为其PowerAI软件包的一部分发布,它允许数据科学家和工程师在该公司的高性能Power Systems服务器上执行机器学习任务。为进行测试,该公司使用了64台Power8 S822LC服务器,每台都有4个Nvidia Tesla p100-sxm2 GPU。

这是套硬件很昂贵,但对于那些非常需要高性能人工智能计算而且不怕烧钱的企业来说,这算不了什么。或许,这可能正是医疗行业所需要的。

这项技术通过PowerAI发布,可以让人们更容易地获得IBM的研究成果,因为它与现有的一款软件集成在一起,该软件需在Power Systems硬件上运行。

不过,:IBM只是为自己的硬件发布了PowerAI DDL,且不会将系统的代码作为开放源码项目来使用,因此它无法在其他平台上实现。