您是否在寻找一个专注于广告展示的专业网站？

摘要：专门看广告的网站,天津手机网站开发,小程序代理需要,这么自己做网站先附上这篇文章的一个思维导图什么是RNN按照八股文来说&#xff1a;RNN实际上就是一个带有记忆的时间序列的预测模型RNN的细胞结构图如下&

专门看广告的网站,天津手机网站开发,小程序代理需要,这么自己做网站先附上这篇文章的一个思维导图什么是RNN按照八股文来说#xff1a;RNN实际上就是一个带有记忆的时间序列的预测模型RNN的细胞结构图如下#xff1a;softmax激活函数只是我举的一个例子#xff0c;实际上得到yt也可以通过其他的激活函数得到其中at-1代表t-1时…先附上这篇文章的一个思维导图什么是RNN按照八股文来说RNN实际上就是一个带有记忆的时间序列的预测模型RNN的细胞结构图如下softmax激活函数只是我举的一个例子实际上得到yt也可以通过其他的激活函数得到其中at-1代表t-1时刻隐藏状态at代表经过Xt这一t时刻的输入之后得到的新的隐藏状态。公式主要是at tanh(Waa * at-1 Wax * Xt b1) 大白话解释一下就是Xt是今天的吊针at-1是昨天的发烧度数39经过今天这一针之后at变成38度。这里的记忆体现在今天的38度是在前一天的基础上通过打吊针来达到第二天的降温状态。1.1 RNN的应用由于RNN的记忆性我们最容易想到的就是RNN在自然语言处理方面的应用譬如下面这张图提前预测出下一个字。除此之外RNN的应用还包括下面的方向语言模型RNN被广泛应用于语言模型的建模中例如自然语言处理、机器翻译、语音识别等领域。时间序列预测RNN可以用于时间序列预测例如股票价格预测、气象预测、心电图信号预测等。生成模型RNN可以用于生成模型例如文本生成、音乐生成、艺术创作等。强化学习RNN可以用于强化学习中例如在游戏、机器人控制和决策制定等领域。1.2 RNN的缺陷想必大家一定听说过LSTM没错就是由于RNN的尿性所以才出现LSTM这一更精妙的时间序列预测模型的设计。但是我们知己知彼才能百战百胜因此我还是决定详细分析一下RNN的缺陷看过一些资料但是只是肤浅的提到了梯度消失和梯度爆炸没有实际的数学推导这可不是一个求学之人应该有的态度主要的缺陷是两个长期依赖问题导致的梯度消失众所周知RNN模型是一个具有记忆的模型每一次的预测都和当前输入以及之前的状态有关但是我们试想如果我们的句子很长他在第1000个记忆细胞还能记住并很好的利用第1个细胞的记忆状态吗答案显然是否定的梯度爆炸1.2.1 梯度消失和梯度爆炸的详细公式推导敲黑板手写公式推导大家最迷糊的地方根据下面图示的例子我手写并反复检查了自己的过程下图请各位看官务必认真看看理解起来并不难对于别的文章随口一提的梯度消失和梯度爆炸实在是透彻太多啦我们假设损失函数 ,Y是实际值O是预测值;首先我们假设只有三层然后通过三层我们就能以此类推找出规律。反向传播我们需要对Wo,Wx,Ws,b四个变量都求偏导在这里我们主要对Wx求偏导其他三个以此类推就很简单了。为了表示更清晰笔者使用紫色的x表示乘法。根据推导的公式我们得到一个指数函数我们在高中时候就学到过指数函数的变化系数是极大的因此在t趋于比较大的时候也就是我们的句子比较长的时候如果比1小不少那么模型的一部分梯度会趋于0因此优化会几乎停止同理如果比1大一些那么模型的部分梯度会极大导致模型和的变化无法控制优化毫无意义。什么是LSTM八股文解释LSTM长短时记忆网络是一种常用于处理序列数据的深度学习模型与传统的 RNN循环神经网络相比LSTM引入了三个门输入门、遗忘门、输出门如下图所示和一个细胞状态cell state这些机制使得LSTM能够更好地处理序列中的长期依赖关系。注意小蝌蚪形状表示的是sigmoid激活函数Ct是细胞状态记忆状态是输入的信息是隐藏状态基于得到的用最朴素的语言解释一下三个门并且用两门考试来形象的解释一下LSTM遗忘门通过x和ht的操作并经过sigmoid函数得到0,1的向量0对应的就代表之前的记忆某一部分要忘记1对应的就代表之前的记忆需要留下的部分代表复习上一门线性代数所包含的记忆通过遗忘门忘记掉和下一门高等数学无关的内容比如矩阵的秩输入门通过将之前的需要留下的信息和现在需要记住的信息相加也就是得到了新的记忆状态。代表复习下一门科目高等数学的时候输入的一些记忆比如洛必达法则等等那么已经线性代数残余且和高数相关的部分比如数学运算高数的知识新的记忆状态输出门整合得到一个输出代表高数所需要的记忆但是在实际的考试不一定全都发挥出来考到100分。

您是否在寻找一个专注于广告展示的专业网站？

相关推荐