当前位置: 旋转机 >> 旋转机市场 >> 谷歌工程师万字好文我们为何追求高性能深度
大数据文摘授权转载自数据实战派
原文:HighPerformanceDeepLearning
作者:GauravMenghani(谷歌研究院
软件工程师)
译者:青苹果
深度学习技术的突破性进展彰显了其令人难以置信的潜力,提供了让人兴奋的新的AI增强软件和系统。
但是,从财政、计算再到环境等几个角度上考虑,训练最强大的模型是极其昂贵的。
提高这些模型的效率会在很多领域产生深远的影响,因此,基于这一需求,未来所开发的模型只会有助于进一步扩大深度学习所提供的范围、适用性和价值。
本文将基于arxiv论文EfficientDeepLearning:ASurveyonMakingDeepLearningModelsSmaller,Faster,andBetter,首先展示深度学习领域模型的快速增长,及其在继续扩大规模的阶段激发了对效率和性能的需求。随后将给出一个基本框架,介绍实现高效深度学习的可用工具和技术,并进一步为每个重点领域提供详细的示例,盘点工业界和学术界迄今为止的重要探索。
深度学习模型的快速增长
如今,无数应用中都有着机器学习的身影。过去十年中,采用神经网络的深度学习一直是训练新机器学习模型的主要方法。
它的崛起通常要归功于年举办的ImageNet竞赛。就在同年,多伦多大学的一支团队提交了一个名为AlexNet(以首席开发人员AlexKrizhevsky命名)的深度卷积网络(deepconvolutionalnetwork),比接下来提交的最好成绩还要高出4%。
在此之前,人们曾尝试过深度和卷积的网络,但不知为何从未兑现承诺。
90年代,卷积层的概念最早由LeCun等人提出。类似地,若干神经网络也在80年代、90年代陆续地进入大众视野。究竟是何原因让深度网络花费如此长的时间才超越手工调优的特征工程(feature-engineered)模型呢?
这其中结合了多种因素:
.计算(Compute):AlexNet是早期依赖图形处理单元(GPU,GraphicsProcessingUnits)进行训练的模型之一。
2.算法(Algorithms):采用ReLU作为激活函数,使得梯度反向传播地更深。先前的深度网络迭代采用的是Sigmoid或Tanh激活函数,除了很小的输入范围外,在.0或-.0处达到饱和。因此,改变输入变量会导致非常微小的梯度,而当存在很多层时,梯度基本上就消失了。三个激活函数的图像如下所示:
简言之,ReLU不会出现梯度消失的问题,而且从计算的角度上看,Sigmoid和Tanh激活函数均需要计算指数,复杂度高,而ReLU通过简单的阈值便可得到激活值。
3.数据(Data):ImageNet(全球最大的图像识别数据库)包含有M的数千个类型、数百张有标注的图像。随着互联网产品的出现,从用户行为中收集标注数据的成本也不断降低。
鉴于这一开拓性的工作,人们竞相使用越来越多的参数来创建更深层的网络。如VGGNet、Inception,、ResNet等模型架构,在随后的几年里相继打破了以往ImageNet的竞赛记录。如今,这些模型也已在现实世界中进行了部署。
我们在自然语言理解(NLU,NaturalLanguageUnderstanding)领域也看到了类似的效果,Transformer架构在GLUE任务上显著优于之前的基准测试。
随后,BERT和GPT模型都演示了在NLP相关任务上的改进,并且BERT衍生了几个相关的模型架构,对其各个方面进行了优化。而GPT-3只需要给定的提示便可续写生动逼真的故事,作为最强的文本生成模型成功地引发了人们的
转载请注明:http://www.aideyishus.com/lkjg/1727.html