郴州市旅游景点排行榜:企业网站如何吸引客户?

摘要:企业网站客户案例,郴州市旅游景点排行榜,景观设计网站大全,wordpress云存储插件深度学习基本理论上篇:(MLP激活函数softmax损失函数梯度梯度下降学习率反
企业网站客户案例,郴州市旅游景点排行榜,景观设计网站大全,wordpress云存储插件深度学习基本理论上篇#xff1a;#xff08;MLP/激活函数/softmax/损失函数/梯度/梯度下降/学习率/反向传播#xff09; 深度学习基本理论上篇#xff1a;#xff08;MLP/激活函数/softmax/损失函数/梯度/梯度下降/学习率/反向传播#xff09;、深度学习面试_会害羞的杨…深度学习基本理论上篇MLP/激活函数/softmax/损失函数/梯度/梯度下降/学习率/反向传播 深度学习基本理论上篇MLP/激活函数/softmax/损失函数/梯度/梯度下降/学习率/反向传播、深度学习面试_会害羞的杨卓越的博客-CSDN博客 18、 请说明Momentum、AdaGrad、Adam梯度下降法的特点 Momentum、AdaGrad、Adam是针对SGD梯度下降算法的缺点的改进算法。在SGD算法中如果函数的形状非均向参数大小差异较大SGD的搜索路径会呈“之字形”移动搜索效率较低。如下图所示  1Momentum Momentum是“动量”的意思和物理有关。用数学式表示Momentum方法如下所示 其中W表示要更新的权重参数∂L/∂w表示W的梯度η表示学习率v对应物理上的速度。在物体不受任何力时该项承担使物体逐渐减速的任务α设定为0.9之类的值对应物理上的地面摩擦或空气阻力。和SGD相比我们发现“之”字形的“程度”减轻了。这是因为虽然x轴方向上受到的力非常小但是一直在同一方向上受力所以朝同一个方向会有一定的加速。反过来虽然y轴方向上受到的力很大但是因为交互地受到正方向和反方向的力它们会互相抵消所以y轴方向上的速度不稳定。因此和SGD时的情形相比可以更快地朝x轴方向靠近减弱“之”字形的变动程度。如下图所示  2AdaGrad AdaGrad会为参数的每个元素适当地调整学习率与此同时进行学习AdaGrad的Ada来自英文单词Adaptive即“适当的”的意思其表达式为 其中W表示要更新的权重参数$\frac{\partial L}{\partial W}$表示W的梯度$\eta$表示学习率$\frac{\partial L} {\partial W} \bigodot \frac{\partial L} {\partial W}$表示所有梯度值的平方和。在参数更新时通过乘以$\frac{1}{\sqrt h}$就可以调整学习的尺度。这意味着参数的元素中变动较大被大幅更新的元素的学习率将变小。也就是说可以按参数的元素进行学习率衰减使变动大的参数的学习率逐渐减小。其收敛路径如下图所示 3Adam Adam是2015年提出的新方法。它的理论有些复杂直观地讲就是融合了Momentum和AdaGrad的方法。通过组合前面两个方法的优点有望实现参数空间的高效搜索。其收敛路径如下图所  以下是几种梯度下降算法的收敛情况对比 19. 什么是卷积函数  卷积函数指一个函数和另一个函数在某个维度上的加权“叠加”作用其表达式为  离散化卷积函数表示为 20. 二维卷积运算中输出矩阵大小与输入矩阵、卷积核大小、步幅、填充的关系 OH输出高OW输出宽H输入高W输入宽Ppadding层数FH卷积核高FW卷积核宽S步长 21. 什么是池化池化层的作用是什么 也称子采样层或下采样层Subsampling Layer目的是缩小高、长方向上的空间的运算以降低计算量提高泛化能力。  22. 什么是最大池化、平均池化 最大池化取池化区域内的最大值作为池化输出 平均池化取池化区域内的平均值作为池化输出 23. 池化层有什么特征 1没有要学习的参数 2通道数不发生变化 3对微小的变化具有鲁棒性 24. 什么是归一化 为什么要进行归一化  1归一化的含义。归一化是指归纳统一样本的统计分布性。归一化在 $ 0-1$ 之间是统计的概率分布归一化在$ -1--1$ 之间是统计的坐标分布 2归一化处理的目的 为了后面数据处理的方便归一化的确可以避免一些不必要的数值问题为了程序运行时收敛加快统一量纲。样本数据的评价标准不一样需要对其量纲化统一评价标准避免神经元饱和。当神经元的激活在接近 0 或者 1 时会饱和在这些区域梯度几乎为 0这样在反向传播过程中局部梯度就会接近 0这会有效地“杀死”梯度。  25. 什么是批量归一化其优点是什么  1批量归一化Batch Normalization简写BN指在神经网络中间层也进行归一化处理使训练效果更好的方法就是批量归一化。 2优点 减少了人为选择参数。在某些情况下可以取消 dropout 和 L2 正则项参数,或者采取更小的 L2 正则项约束参数减少了对学习率的要求。
阅读全文