深度学习专项课程精炼图笔记必备收藏原力_旋转机前景

当前位置： 旋转机 >> 旋转机前景 >> 深度学习专项课程精炼图笔记必备收藏原力

深度学习专项课程精炼图笔记必备收藏原力

发布时间:2023/4/4 15:23:16

白癜风是怎样得的 http://nb.ifeng.com/a/20190621/7557738_0.shtml

作者

DLCV_study9

责编

Elle

出品

CSDN博客

本文为人工智能学习笔记记录。

深度学习基础

深度学习基本概念

监督学习：所有输入数据都有确定的对应输出数据，在各种网络架构中，输入数据和输出数据的节点层都位于网络的两端，训练过程就是不断地调整它们之间的网络连接权重。

左上：列出了各种不同网络架构的监督学习，比如标准的神经网络（NN）可用于训练房子特征和房价之间的函数，卷积神经网络（CNN）可用于训练图像和类别之间的函数，循环神经网络（RNN）可用于训练语音和文本之间的函数。

左下：分别展示了NN、CNN和RNN的简化架构。这三种架构的前向过程各不相同，NN使用的是权重矩阵（连接）和节点值相乘并陆续传播至下一层节点的方式；CNN使用矩形卷积核在图像输入上依次进行卷积操作、滑动，得到下一层输入的方式；RNN记忆或遗忘先前时间步的信息以为当前计算过程提供长期记忆。

右上：NN可以处理结构化数据（表格、数据库等）和非结构化数据（图像、音频等）。

右下：深度学习能发展起来主要是由于大数据的出现，神经网络的训练需要大量的数据；而大数据本身也反过来促进了更大型网络的出现。深度学习研究的一大突破是新型激活函数的出现，用ReLU函数替换sigmoid函数可以在反向传播中保持快速的梯度下降过程，sigmoid函数在正无穷处和负无穷处会出现趋于零的导数，这正是梯度消失导致训练缓慢甚至失败的主要原因。要研究深度学习，需要学会「idea—代码—实验—idea」的良性循环。

logistic回归

左上：logistic回归主要用于二分类问题，如图中所示，logistic回归可以求解一张图像是不是猫的问题，其中图像是输入（x），猫（1）或非猫（0）是输出。我们可以将logistic回归看成将两组数据点分离的问题，如果仅有线性回归（激活函数为线性），则对于非线性边界的数据点（例如，一组数据点被另一组包围）是无法有效分离的，因此在这里需要用非线性激活函数替换线性激活函数。在这个案例中，我们使用的是sigmoid激活函数，它是值域为（0,1）的平滑函数，可以使神经网络的输出得到连续、归一（概率值）的结果，例如当输出节点为（0.2,0.8）时，判定该图像是非猫（0）。

左下：神经网络的训练目标是确定最合适的权重w和偏置项b，那这个过程是怎么样的呢？

这个分类其实就是一个优化问题，优化过程的目的是使预测值yhat和真实值y之间的差距最小，形式上可以通过寻找目标函数的最小值来实现。所以我们首先确定目标函数（损失函数、代价函数）的形式，然后用梯度下降逐步更新w、b，当损失函数达到最小值或者足够小时，我们就能获得很好的预测结果。

右上：损失函数值在参数曲面上变化的简图，使用梯度可以找到最快的下降路径，学习率的大小可以决定收敛的速度和最终结果。学习率较大时，初期收敛很快，不易停留在局部极小值，但后期难以收敛到稳定的值；学习率较小时，情况刚好相反。一般而言，我们希望训练初期学习率较大，后期学习率较小，之后会介绍变化学习率的训练方法。

右下：总结整个训练过程，从输入节点x开始，通过前向传播得到预测输出yhat，用yhat和y得到损失函数值，开始执行反向传播，更新w和b，重复迭代该过程，直到收敛。

浅层网络的特点

左上：浅层网络即隐藏层数较少，如图所示，这里仅有一个隐藏层。

左下：这里介绍了不同激活函数的特点：

sigmoid：sigmoid函数常用于二分分类问题，或者多分类问题的一层，主要是由于其归一化特性。sigmoid函数在两侧会出现梯度趋于零的情况，会导致训练缓慢。

tanh：相对于sigmoid，tanh函数的优点是梯度值更大，可以使训练速度变快。

ReLU：可以理解为阈值激活（spikingmodel的特例，类似生物神经的工作方式），该函数很常用，基本是默认选择的激活函数，优点是不会导致训练缓慢的问题，并且由于激活值为零的节点不会参与反向传播，该函数还有稀疏化网络的效果。

LeakyReLU：避免了零激活值的结果，使得反向传播过程始终执行，但在实践中很少用。

右上：为什么要使用激活函数呢？更准确地说是，为什么要使用非线性激活函数呢？

上图中的实例可以看出，没有激活函数的神经网络经过两层的传播，最终得到的结果和单层的线性运算是一样的，也就是说，没有使用非线性激活函数的话，无论多少层的神经网络都等价于单层神经网络（不包含输入层）。

右下：如何初始化参数w、b的值？

当将所有参数初始化为零的时候，会使所有的节点变得相同，在训练过程中只能学到相同的特征，而无法学到多层级、多样化的特征。解决办法是随机初始化所有参数，但仅需少量的方差就行，因此使用Rand（0.01）进行初始化，其中0.01也是超参数之一。

深度神经网络的特点

左上：神经网络的参数化容量随层数增加而指数式地增长，即某些深度神经网络能解决的问题，浅层神经网络需要相对的指数量级的计算才能解决。

左下：CNN的深度网络可以将底层的简单特征逐层组合成越来越复杂的特征，深度越大，其能分类的图像的复杂度和多样性就越大。RNN的深度网络也是同样的道理，可以将语音分解为音素，再逐渐组合成字母、单词、句子，执行复杂的语音到文本任务。

右边：深度网络的特点是需要大量的训练数据和计算资源，其中涉及大量的矩阵运算，可以在GPU上并行执行，还包含了大量的超参数，例如学习率、迭代次数、隐藏层数、激活函数选择、学习率调整方案、批尺寸大小、正则化方法等。

偏差与方差

那么部署你的机器学习模型需要注意些什么？下图展示了构建ML应用所需要的数据集分割、偏差与方差等问题。

如上所示，经典机器学习和深度学习模型所需要的样本数有非常大的差别，深度学习的样本数是经典ML的成千上万倍。因此训练集、开发集和测试集的分配也有很大的区别，当然我们假设这些不同的数据集都服从同分布。

偏差与方差问题同样是机器学习模型中常见的挑战，上图依次展示了由高偏差带来的欠拟合和由高方差带来的过拟合。一般而言，解决高偏差的问题是选择更复杂的网络或不同的神经网络架构，而解决高方差的问题可以添加正则化、减少模型冗余或使用更多的数据进行训练。

当然，机器学习模型需要注意的问题远不止这些，但在配置我们的ML应用中，它们是最基础和最重要的部分。其它如数据预处理、数据归一化、超参数的选择等都在后面的信息图中有所体现。

正则化

正则化是解决高方差或模型过拟合的主要手段，过去数年，研究者提出和开发了多种适合机器学习算法的正则化方法，如数据增强、L2正则化（权重衰减）、L1正则化、Dropout、DropConnect、随机池化和提前终止等。

如上图左列所示，L1和L2正则化也是是机器学习中使用最广泛的正则化方法。L1正则化向目标函数添加正则化项，以减少参数的值总和；而L2正则化中，添加正则化项的目的在于减少参数平方的总和。根据之前的研究，L1正则化中的很多参数向量是稀疏向量，因为很多模型导致参数趋近于0，因此它常用于特征选择设置中。此外，参数范数惩罚L2正则化能让深度学习算法「感知」到具有较高方差的输入x，因此与输出目标的协方差较小（相对增加方差）的特征权重将会收缩。

在中间列中，上图展示了Dropout技术，即暂时丢弃一部分神经元及其连接的方法。随机丢弃神经元可以防止过拟合，同时指数级、高效地连接不同网络架构。一般使用了Dropout技术的神经网络会设定一个保留率p，然后每一个神经元在一个批量的训练中以概率1-p随机选择是否去掉。在进行推断时所有神经元都需要保留，因而有更高的准确度。

Bagging是通过结合多个模型降低泛化误差的技术，主要的做法是分别训练几个不同的模型，然后让所有模型表决测试样例的输出。而Dropout可以被认为是集成了大量深层神经网络的Bagging方法，因此它提供了一种廉价的Bagging集成近似方法，能够训练和评估值数据数量的神经网络。

，上图还描述了数据增强与提前终止等正则化方法。数据增强通过向训练数据添加转换或扰动来人工增加训练数据集。数据增强技术如水平或垂直翻转图像、裁剪、色彩变换、扩展和旋转通常应用在视觉表象和图像分类中。而提前终止通常用于防止训练中过度表达的模型泛化性能差。如果迭代次数太少，算法容易欠拟合（方差较小，偏差较大），而迭代次数太多，算法容易过拟合（方差较大，偏差较小）。因此，提前终止通过确定迭代次数解决这个问题。

化

化是机器学习模型中非常非常重要的模块，它不仅主导了整个训练过程，同时还决定了模型性能的好坏和收敛需要的时长。以下两张信息图都展示了化方法需要

转载请注明:http://www.aideyishus.com/lkcf/4019.html

------分隔线----------------------------

上一篇文章：如虎添翼,智能焊接机器人助力隧道维修
下一篇文章：老吃反手发球怎么办教你一招看清旋转

热点文章

移动机器人10月新品图鉴

深度学习专项课程精炼图笔记必备收藏原力

最新文章

热点文章

推荐文章