国防科学技术大学,提高12倍!香港浸会大学与MassGrid发布低带宽高效AI练习新算法,架子鼓

频道:体育新闻 日期: 浏览:165

允中 发自 凹非寺

跟着操练数据量的添加和深度神经网络(DNN)的日益杂乱,分布式核算环境(如GPU集群)被广泛选用,以加快DNN的操练。分布式核算网络在机器学习方面的瓶颈在于节点之间的数据传输功率,那怎么在这一网络下高效地进行AI操练?

2018年,香港浸会大学异构核算试验室与MassGrid协作,经过研讨提出国防科学技能大学,进步12倍!香港浸会大学与MassGrid发布低带宽高效AI操练新算法,架子鼓一种可用于低带宽网络的大局Top-k稀少化的分布式同步SGD算法,并经过试验证明出在低带帅哥撒尿宽网络下也能高效进行AI操练。现在试验成果及相关论文已被ICDCS workshop录入。

数据并行的分布式同步随机梯度下降(S-SGD)办法是操练大规划神经网络常用的优化器之一。与单节点的SGD比较,S-SGD将作业负载分配给多个核算节点以加快操练,但它也引进了在每次迭代中交流模型参数或梯度的通讯开支。

举例说明

假定有P个节点用S-SGD操练DNN模型。在每次迭代中,一切核算节点都会选用不同的小批量(mini-batch)数据来并行核算模型的梯度。然后,对每个节点的梯度进行均匀后来更新模型,这便引进较大的通讯开支。

由于核算节点的加快器(如GPU和TPU)的核算才能梦境西游答题器比网络速度的添加快得多,网络通讯功能一般成为操练的功能瓶颈,特别是当通讯与核算比率很高时。

盛代宝

许多大型IT公司运用贵重的高速网络(如40 / 100Gbps IB或以太网)来削减通讯压力,但仍有许多研讨人员和小公司只能运用由1Gig-Ethernet等低带宽网络衔接的消费级GPU。

为了战胜通讯的功能瓶颈,能够经过运用更大的mini-batch来添加作业负载从而降广东理工学院低通讯与核算比,或许削减每次通讯过程中所需的通讯量:

在模型/梯度紧缩技能中,Top-k稀少化是要害国防科学技能大学,进步12倍!香港浸会大学与MassGrid发布低带宽高效AI操练新算法,架子鼓办法之国防科学技能大学,进步12倍!香港浸会大学与MassGrid发布低带宽高效AI操练新算法,架子鼓一,它能够将每个节点梯度稀少到约为本来的千分之一(即 99.9%的梯度置为零而无需传输这些零值)。

Top-k稀少化是一种较有用的梯度紧缩办法,相关研讨已做进行了试验和理证明明。

Top-k稀少化的S-SGD在每次迭代中只需传输少数的梯度进行均匀也不影响模型收敛或精度。可是,稀少化后的非零值梯度地点的索引方位在不同不败战神的核算节点是不共同的,这使得高效的稀少化梯度聚合成为一项应战。

在稠密梯度上运用依据环形的AllReduce办法(DenseAllReduce)的通讯杂乱度为 O(P + m),其间 P为核算节点个数,m为参数/梯度的数量。而在Top-k稀少化中,假定每个节点的梯度稠密度为,即 k = m ,由于每丁晓楠个节点非零值的对应的索引在不同节点是不共同的。

因而,每次通讯需求传输 2k个值(梯度值和索引)。选用AllGather对这2k个值进行聚合(简称TopKAllReduce)则需求O(kP)的通讯杂乱度。当扩展到大规划集群时(即P很大),即便k较小也仍会发生明显的通讯开支。

Top-k稀少化的首要思维是依据这样一个现实,即具有较大绝对值的梯度能够为模型收敛做出更多奉献。由于在Top-k算法中,即便P个核算节点在聚合后最大可生成 kP个非零值梯度,但最高绝对值最大的 k个梯度值关于模型更新则更重要。

依据这一调查,香港浸会大学异构核算试验室MassGrid的研讨人员,提出了一种有用的Top-k稀少化办法来处理TopKAllReduce的低效问题。

详细而言,依据不同节点的梯度绝对值来挑选大局的Top-k(简称国防科学技能大学,进步12倍!香港浸会大学与MassGrid发布低带宽高效AI操练新算法,架子鼓gTop-k)梯度。在本文中,研讨人员首要评论运用AllReduce的分布式S-SGD来运用gTop-k稀少化,但它也适用于依据参数服务器的分布式S-SGD。

gTop-k能够很好地运用树结构从一切节点中挑选大局top-k值,并称之为gTopKAllReduce,而通讯杂乱性从本来的O(kP)削减到O(klogP)。表1中总结了不同梯度聚合办法的通讯杂乱度。

在试验研讨及所宣布的论文中首要奉献如下:

操练办法

gTop-k的要害思维

在Top-k S-SGD中,每个节点在本地选出k个梯度值,PROFESSIONAL然后一切节点进行聚合得到。研讨人员发现并非一切(其非零元素数量为且)都有助于模型收敛。

详细来说,能够进一步稀少化为,这样每次模型更新只需求更少数量的非零梯度。换句话说,能够进一步从中挑选top-k个最大绝对值的梯前锋站度(表明为)来更新模型,一起确保模型的收敛速度。一个4节点的示例如图1所示。

图1 从Top-k算法中的最多kP个非零值进一步挑选k个梯度示例

为验证比较对收敛速度没有影响,经过操练ResNet 来进行比照,试验成果如图2所示。

图2 从Top-k算法中挑选k个梯度进行模型更新的收敛成果

gTopKAllReduc胸闷e:gTop-k稀少化的高效AllRedu双修ce算法

从表1能够看到AllGather调集对从不规矩索引进行AllReduce操作功率很低,特别是P对通讯功能的影响。而新提出的有用算法的首要意图是减轻变量P对通讯开支的影响。由于终究只需求挑选k个值对乡村养老保险新政策模型进行更新,所以在通讯过程中,每次只需求传输k个非0值。

运用树状结构进行两两通讯,揾笨每次只传输k个非0值,而接纳者则会有2k个值,为下次传输也只传输k个值,接纳者从2k个值中再选出k个值传递给下一个接纳者。由于两两通讯是能够一起进行,因而关于P个节点,只需求logP轮通讯,一个8节点的示例如图3所示。

由图3能够看出,第1个节点在每一轮通讯中都会接纳另一个节点的k个非0元素,在最终一轮通讯后,第1个节点则选出了k个非0元素然后播送给其他节点,所以全体的通讯开支为:2logP + 4klogP。当机器规划P变大时,gTop-k还能保持较高的扩展性。算法伪代码为图4所示。

国防科学技能大学,进步12倍!香港浸会大学与MassGrid发布低带宽高效AI操练新算法,架子鼓

图3 对8个节点,共需求3轮通讯,每轮通讯只传输k个非0值

图4 gTopKAllReduce算法伪Zealandia代码

试验成果

香港浸会大学异构核算试验室与MassGrid的研讨人员在32台矿机环境上进行试验,每台矿机运用一个Nvidia P102-100显卡。

首要验证gTop-k S-SGD的收敛性。之后,对三种S-SGD算法(即依据稠密梯度的S-SGD,Top-k S-SGD和gTop-k S-SGD)的操练功率进行了比一路顺风较。

试验详细硬件装备如表II所示

用于试验的神经网络装备如表III所示

gTop-k的收敛功能

整体来看,在不同数据集上三种不同类型的DNN的收敛成果表明研讨人员提出的gTop-k S-SGD在操练期间不会损坏模型功能。

图5 gTop-k S-SGD收敛功能

gTop-k的扩展功能

与S-SGD和Top按摩-k S-SGD比较,在32个核算节点的集群环境上,gTop-k S-SGD比S-SGD快6.7国防科学技能大学,进步12倍!香港浸会大学与MassGrid发布低带宽高效AI操练新算法,架子鼓倍,比Top-k S-SGD均匀快1.4倍。不同的模型和不同节点数加快比如图6和表IV所示。

图6不同节点数的扩展功率比照

表7不国防科学技能大学,进步12倍!香港浸会大学与MassGrid发布低带宽高效AI操练新算法,架子鼓同模型的扩展功率比照

部分稀少化时刻(tcompr.)和通讯时刻(tcommu.)。成果如图11所示。

一方面,在VGG-16和AlexNet类型的时刻细分中通讯开支远大于核算。由于VGG-16和AlexNet有三个彻底衔接的层,具有很多参数,而核算速度相对较快。这些也反映出即便运用gTop-k稀少化,图6漏电开关中S-SGD的缩放功率也很低。

另一方面,通讯和稀少化的时刻远小于运用ResNet20和ResNet-50核算的时刻,这表明通讯核算比率低,因而即便在低带宽网络上,扩展功率也可高达80%。

此外,应留意梯度稀少化所日本秘戏图用的时刻是与VGG-16和AlexNet类型的核算时刻适当。首要原因是GPU上的Top-k挑选功率低下,并且在SIMD架构上高度并行化或许并非易事。研讨人员将此作为未来的优化方向。

试验总结

分布式同步随机梯度下降(S-SGD)现已广泛用于操练大规划深度神经网络(DNN),可是它一般需求核算作业者(例如,GPU)之间十分高的通讯带宽以迭代交流梯度。

最近,现已提出了Top-k稀少化技能来削减工人之间要交流的数据量。Top-k稀少化能够将大部分梯度归零,而不会影响模型收敛。

经过对不同DNN的广泛试验,这一研讨验证了gTop-k S-SGD与S-SGD具有简直共同的收敛功能,并且在泛化功能上只要细微的降级

在扩展功率方面,研讨人员在具有32个GPU机器的集群上(MassGrid矿机集群)评价gTop-k,这些机器与1 Gbps以太网互连。

试验成果表明,该办法比S-SG中老年女装D完成了2.7-12倍的缩放功率,比现有的Top-k S-SGD进步了1.1-1.7倍

传送门

论文原文链接:https://arxiv.org/abs/1901.04359

更多关于MassGrid的运用场景请查询:www.massgrid.com,扫码也可检查更多概况

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
热门
最新
推荐
标签