当前位置: 旋转机 >> 旋转机前景 >> 深度学习专项课程精炼图笔记必备收藏原力
作者
DLCV_study9
责编
Elle
出品
CSDN博客
本文为人工智能学习笔记记录。
深度学习基础
深度学习基本概念
监督学习:所有输入数据都有确定的对应输出数据,在各种网络架构中,输入数据和输出数据的节点层都位于网络的两端,训练过程就是不断地调整它们之间的网络连接权重。
左上:列出了各种不同网络架构的监督学习,比如标准的神经网络(NN)可用于训练房子特征和房价之间的函数,卷积神经网络(CNN)可用于训练图像和类别之间的函数,循环神经网络(RNN)可用于训练语音和文本之间的函数。
左下:分别展示了NN、CNN和RNN的简化架构。这三种架构的前向过程各不相同,NN使用的是权重矩阵(连接)和节点值相乘并陆续传播至下一层节点的方式;CNN使用矩形卷积核在图像输入上依次进行卷积操作、滑动,得到下一层输入的方式;RNN记忆或遗忘先前时间步的信息以为当前计算过程提供长期记忆。
右上:NN可以处理结构化数据(表格、数据库等)和非结构化数据(图像、音频等)。
右下:深度学习能发展起来主要是由于大数据的出现,神经网络的训练需要大量的数据;而大数据本身也反过来促进了更大型网络的出现。深度学习研究的一大突破是新型激活函数的出现,用ReLU函数替换sigmoid函数可以在反向传播中保持快速的梯度下降过程,sigmoid函数在正无穷处和负无穷处会出现趋于零的导数,这正是梯度消失导致训练缓慢甚至失败的主要原因。要研究深度学习,需要学会「idea—代码—实验—idea」的良性循环。
logistic回归
左上:logistic回归主要用于二分类问题,如图中所示,logistic回归可以求解一张图像是不是猫的问题,其中图像是输入(x),猫(1)或非猫(0)是输出。我们可以将logistic回归看成将两组数据点分离的问题,如果仅有线性回归(激活函数为线性),则对于非线性边界的数据点(例如,一组数据点被另一组包围)是无法有效分离的,因此在这里需要用非线性激活函数替换线性激活函数。在这个案例中,我们使用的是sigmoid激活函数,它是值域为(0,1)的平滑函数,可以使神经网络的输出得到连续、归一(概率值)的结果,例如当输出节点为(0.2,0.8)时,判定该图像是非猫(0)。
左下:神经网络的训练目标是确定最合适的权重w和偏置项b,那这个过程是怎么样的呢?
这个分类其实就是一个优化问题,优化过程的目的是使预测值yhat和真实值y之间的差距最小,形式上可以通过寻找目标函数的最小值来实现。所以我们首先确定目标函数(损失函数、代价函数)的形式,然后用梯度下降逐步更新w、b,当损失函数达到最小值或者足够小时,我们就能获得很好的预测结果。
右上:损失函数值在参数曲面上变化的简图,使用梯度可以找到最快的下降路径,学习率的大小可以决定收敛的速度和最终结果。学习率较大时,初期收敛很快,不易停留在局部极小值,但后期难以收敛到稳定的值;学习率较小时,情况刚好相反。一般而言,我们希望训练初期学习率较大,后期学习率较小,之后会介绍变化学习率的训练方法。
右下:总结整个训练过程,从输入节点x开始,通过前向传播得到预测输出yhat,用yhat和y得到损失函数值,开始执行反向传播,更新w和b,重复迭代该过程,直到收敛。
浅层网络的特点
左上:浅层网络即隐藏层数较少,如图所示,这里仅有一个隐藏层。
左下:这里介绍了不同激活函数的特点:
sigmoid:sigmoid函数常用于二分分类问题,或者多分类问题的最后一层,主要是由于其归一化特性。sigmoid函数在两侧会出现梯度趋于零的情况,会导致训练缓慢。
tanh:相对于sigmoid,tanh函数的优点是梯度值更大,可以使训练速度变快。
ReLU:可以理解为阈值激活(spikingmodel的特例,类似生物神经的工作方式),该函数很常用,基本是默认选择的激活函数,优点是不会导致训练缓慢的问题,并且由于激活值为零的节点不会参与反向传播,该函数还有稀疏化网络的效果。
LeakyReLU:避免了零激活值的结果,使得反向传播过程始终执行,但在实践中很少用。
右上:为什么要使用激活函数呢?更准确地说是,为什么要使用非线性激活函数呢?
上图中的实例可以看出,没有激活函数的神经网络经过两层的传播,最终得到的结果和单层的线性运算是一样的,也就是说,没有使用非线性激活函数的话,无论多少层的神经网络都等价于单层神经网络(不包含输入层)。
右下:如何初始化参数w、b的值?
当将所有参数初始化为零的时候,会使所有的节点变得相同,在训练过程中只能学到相同的特征,而无法学到多层级、多样化的特征。解决办法是随机初始化所有参数,但仅需少量的方差就行,因此使用Rand(0.01)进行初始化,其中0.01也是超参数之一。
深度神经网络的特点
左上:神经网络的参数化容量随层数增加而指数式地增长,即某些深度神经网络能解决的问题,浅层神经网络需要相对的指数量级的计算才能解决。
左下:CNN的深度网络可以将底层的简单特征逐层组合成越来越复杂的特征,深度越大,其能分类的图像的复杂度和多样性就越大。RNN的深度网络也是同样的道理,可以将语音分解为音素,再逐渐组合成字母、单词、句子,执行复杂的语音到文本任务。
右边:深度网络的特点是需要大量的训练数据和计算资源,其中涉及大量的矩阵运算,可以在GPU上并行执行,还包含了大量的超参数,例如学习率、迭代次数、隐藏层数、激活函数选择、学习率调整方案、批尺寸大小、正则化方法等。
偏差与方差
那么部署你的机器学习模型需要注意些什么?下图展示了构建ML应用所需要的数据集分割、偏差与方差等问题。
如上所示,经典机器学习和深度学习模型所需要的样本数有非常大的差别,深度学习的样本数是经典ML的成千上万倍。因此训练集、开发集和测试集的分配也有很大的区别,当然我们假设这些不同的数据集都服从同分布。
偏差与方差问题同样是机器学习模型中常见的挑战,上图依次展示了由高偏差带来的欠拟合和由高方差带来的过拟合。一般而言,解决高偏差的问题是选择更复杂的网络或不同的神经网络架构,而解决高方差的问题可以添加正则化、减少模型冗余或使用更多的数据进行训练。
当然,机器学习模型需要注意的问题远不止这些,但在配置我们的ML应用中,它们是最基础和最重要的部分。其它如数据预处理、数据归一化、超参数的选择等都在后面的信息图中有所体现。
正则化
正则化是解决高方差或模型过拟合的主要手段,过去数年,研究者提出和开发了多种适合机器学习算法的正则化方法,如数据增强、L2正则化(权重衰减)、L1正则化、Dropout、DropConnect、随机池化和提前终止等。
如上图左列所示,L1和L2正则化也是是机器学习中使用最广泛的正则化方法。L1正则化向目标函数添加正则化项,以减少参数的绝对值总和;而L2正则化中,添加正则化项的目的在于减少参数平方的总和。根据之前的研究,L1正则化中的很多参数向量是稀疏向量,因为很多模型导致参数趋近于0,因此它常用于特征选择设置中。此外,参数范数惩罚L2正则化能让深度学习算法「感知」到具有较高方差的输入x,因此与输出目标的协方差较小(相对增加方差)的特征权重将会收缩。
在中间列中,上图展示了Dropout技术,即暂时丢弃一部分神经元及其连接的方法。随机丢弃神经元可以防止过拟合,同时指数级、高效地连接不同网络架构。一般使用了Dropout技术的神经网络会设定一个保留率p,然后每一个神经元在一个批量的训练中以概率1-p随机选择是否去掉。在最后进行推断时所有神经元都需要保留,因而有更高的准确度。
Bagging是通过结合多个模型降低泛化误差的技术,主要的做法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。而Dropout可以被认为是集成了大量深层神经网络的Bagging方法,因此它提供了一种廉价的Bagging集成近似方法,能够训练和评估值数据数量的神经网络。
最后,上图还描述了数据增强与提前终止等正则化方法。数据增强通过向训练数据添加转换或扰动来人工增加训练数据集。数据增强技术如水平或垂直翻转图像、裁剪、色彩变换、扩展和旋转通常应用在视觉表象和图像分类中。而提前终止通常用于防止训练中过度表达的模型泛化性能差。如果迭代次数太少,算法容易欠拟合(方差较小,偏差较大),而迭代次数太多,算法容易过拟合(方差较大,偏差较小)。因此,提前终止通过确定迭代次数解决这个问题。
最优化
最优化是机器学习模型中非常非常重要的模块,它不仅主导了整个训练过程,同时还决定了最后模型性能的好坏和收敛需要的时长。以下两张信息图都展示了最优化方法需要
转载请注明:http://www.aideyishus.com/lkcf/4019.html