如何在深圳找到提供闽江学院教务管理系统定制服务的公司?

摘要:深圳网站建站的公司,闽江学院教务管理系统,邯郸房产网签查询网,桂林论坛网站有哪些目录概述AlexNet特点激活函数sigmoid激活函数ReLu激活函数数据增强层叠池化局部相应归一化DropoutAlexnet网络结构网络结构分析AlexN
深圳网站建站的公司,闽江学院教务管理系统,邯郸房产网签查询网,桂林论坛网站有哪些目录概述AlexNet特点激活函数sigmoid激活函数ReLu激活函数数据增强层叠池化局部相应归一化DropoutAlexnet网络结构网络结构分析AlexNet各层参数及其数量模型框架形状结构关于数据集训练学习keras代码示例概述 由于受到计算机性能的影响#xff0c;虽然LeNet在图像分类中取得了… 目录概述AlexNet特点激活函数sigmoid激活函数ReLu激活函数数据增强层叠池化局部相应归一化DropoutAlexnet网络结构网络结构分析AlexNet各层参数及其数量模型框架形状结构关于数据集训练学习keras代码示例概述 由于受到计算机性能的影响虽然LeNet在图像分类中取得了较好的成绩但是并没有引起很多的关注。 知道2012年Alex等人提出的AlexNet网络在ImageNet大赛上以远超第二名的成绩夺冠卷积神经网络乃至深度学习重新引起了广泛的关注。 Alex Krizhevsky等人训练了一个大型的卷积神经网络用来把ImageNet LSVRC-2010比赛中120万张高分辨率的图像分为1000个不同的类别。在测试卷上获得很高准确率(top-1 and top-5 error rates of 37.5%and 17.0% ).。通过改进该网络在2012年ImageNet LSVRC比赛中夺取了冠军且准确率远超第二名(top-5 test error rate of 15.3%,第二名26.2%。这在学术界引起了很大的轰动开启了深度学习的时代虽然后来大量比AlexNet更快速更准确的卷积神经网络结构相继出现但是AlexNet作为开创者依旧有着很多值得学习参考的地方它为后续的CNN甚至是R-CNN等其他网络都定下了基调所以下面我们将从AlexNet入手理解卷积神经网络的一般结构。 AlexNet特点 AlexNet网络包括了6000万个参数和65000万个神经元5个卷积层在一些卷积层后面还有池化层3个全连接层输出为softmax层。 AlexNet是在LeNet的基础上加深了网络的结构学习更丰富更高维的图像特征。AlexNet的特点 1、更深的网络结构 2、使用层叠的卷积层即卷积层卷积层池化层来提取图像的特征 3、使用Dropout抑制过拟合 4、使用数据增强Data Augmentation抑制过拟合 5、使用Relu替换之前的sigmoid的作为激活函数 6、多GPU训练 激活函数 在最初的感知机模型中输入和输出的关系如下 上面函数式只是单纯的线性关系这样的网络结构有很大的局限性。即使用很多这样结构的网络层叠加其输出和输入仍然是线性关系无法处理有非线性关系的输入输出。 因此对每个神经元的输出做个非线性的转换也就是将上面就加权求和的结果输入到一个非线性函数也就是激活函数中。 这样由于激活函数的引入多个网络层的叠加就不再是单纯的线性变换而是具有更强的表现能力。 sigmoid激活函数 在最初sigmoid和tanh函数最常用的激活函数。 在网络层数较少时sigmoid函数的特性能够很好的满足激活函数的作用它把一个实数压缩至0到1之间当输入的数字非常大的时候结果会接近1当输入非常大的负数时则会得到接近0的结果。 这种特性能够很好的模拟神经元在受刺激后是否被激活向后传递信息输出为0几乎不被激活输出为1完全被激活。 sigmoid一个很大的问题就是梯度饱和。 观察sigmoid函数的曲线当输入的数字较大或较小时其函数值趋于不变其导数变的非常的小。这样在层数很多的的网络结构中进行反向传播时由于很多个很小的sigmoid导数累成导致其结果趋于零更新速度更慢。 ReLu激活函数 针对sigmoid梯度饱和导致训练收敛慢的问题在AlexNet中引入了ReLU。ReLU是一个分段线性函数小于等于0则输出为0大于0的则恒等输出。 相比于sigmoidReLU有以下优点 1、计算开销下sigmoid的正向传播有指数运算倒数运算而ReLu是线性输出反向传播中sigmoid有指数运算而ReLU有输出的部分导数始终为1 2、梯度饱和问题 3、稀疏性Relu会使一部分神经元的输出为0这样就造成了网络的稀疏性并且减少了参数的相互依存关系缓解了过拟合问题的发生。 这里有个问题前面提到激活函数要用非线性的是为了使网络结构有更强的表达的能力。那这里使用ReLU本质上却是个线性的分段函数是怎么进行非线性变换的。 这里把神经网络看着一个巨大的变换矩阵M其输入为所有训练样本组成的矩阵A输出为矩阵B则有BM⋅A。这里的M是一个线性变换的话则所有的训练样本A进行了线性变换输出为B。
阅读全文