一步步教你理解LSTM
作者:王千发
编辑:田 旭
什么是LSTM
1
LSTM全名是Long Short-Term Memory,长短时记忆网络,可以用来处理时序数据,在自然语言处理和语音识别等领域应用广泛。和原始的循环神经网络RNN相比,LSTM解决了RNN的梯度消失问题,可以处理长序列数据,成为当前最流行的RNN变体。
LSTM应用举例
2
假设我们的模型的输入是依次输入一句话的每个单词,我们需要对单词做分类,比如有两句话:(1)arrive Beijing on November 2nd,这里的Beijing是目的地;(2)leave Beijing on November 2nd,这里的Beijing是出发地。如果用普通的神经网络,输入是'Beijing',那么输出一定就是确定的,但事实上我们希望在'Beijing'前面是'arrive'时,'Beijing'被识别为目的地,在'Beijing'前面时'leave'时,'Beijing'被识别为出发地。这里LSTM就会派上用场,因为LSTM可以记住历史信息,在读到'Beijing'时,LSTM还知道在前面是'arrive'还是'leave',根据历史信息来做出不同的判断,即使输入是相同的,输出也会不同。
LSTM结构剖析
3
普通的神经元是一个输入,一个输出,如图所示:
对于神经元h1来讲,输入就是x1,输出就是y1,LSTM做的就是把普通的神经元,替换成LSTM的单元。
从图中可以看到LSTM有四个输入,分别是input(模型输入),forget gate(遗忘门),input gate(输入门),以及output gate(输出门)。因此相比普通的神经网络,LSTM的参数量是它们的4倍。这3个门信号都是处于0~1之间的实数,1代表完全打开,0代表关闭。遗忘门:决定了前一时刻中memory中的是否会被记住,当遗忘门打开时,前一刻的记忆会被保留,当遗忘门关闭时,前一刻的记忆就会被清空。输入门:决定当前的输入有多少被保留下来,因为在序列输入中,并不是每个时刻的输入的信息都是同等重要的,当输入完全没有用时,输入门关闭,也就是此时刻的输入信息被丢弃了。输出门:决定当前memroy的信息有多少会被立即输出,输出门打开时,会被全部输出,当输出门关闭时,当前memory中的信息不会被输出。
LSTM公式推导
4
有了上面的知识,再来推导LSTM的公式就很简单了,图中代表遗忘门,代表输入门,代表输出门。C是memroy cell,存储记忆信息。代表上一时刻的记忆信息,代表当前时刻的记忆信息,h是LSTM单元的输出,是前一刻的输出。
遗忘门计算:
这里的是把两个向量拼接起来的意思,用sigmoid函数主要原因是得到有个0~1之间的数,作为遗忘门的控制信号。
输入门计算:
当前输入:
当前时刻的记忆信息的更新:
从这个公式可以看出,前一刻的记忆信息通过遗忘门,当前时刻的输入通过输入门,加起来更新当前的记忆信息。
输入门计算:
LSTM的输出,是由输出门和当前记忆信息共同决定的:
这样我们就明白了LSTM的前向计算过程。有了LSTM前向传播算法,推导反向传播算法就很容易了, 通过梯度下降法迭代更新我们所有的参数,关键点在于计算所有参数基于损失函数的偏导数,这里就不细讲了。
小结
5
LSTM虽然结构复杂,但是只要理顺了里面的各个部分和之间的关系,是不难掌握的。在实际使用中,可以借助算法库如Keras,PyTorch等来搞定,但是仍然需要理解LSTM的模型结构。
参考文献
https://www.youtube.com/watch?v=rTqmWlnwz_0&index=35&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49
https://zybuluo.com/hanbingtao/note/581764
http://www.cnblogs.com/pinard/p/6519110.html
http://blog.echen.me/2017/05/30/exploring-lstms/
机器学习算法全栈工程师
一个用心的公众号
进群,学习,得帮助
你的关注,我们的热度,
我们一定给你学习最大的帮助
公众号商务合作请联系
- QT Creator 快速入门教程 读书笔记(二)
- 设计模式学习笔记-命令模式
- .com域名和.cn域名的介绍
- Windows安装和使用zookeeper
- 使用MagicAjax 实现无刷新Webparts
- Python 项目实践一(外星人入侵小游戏)第五篇
- Python 项目实践一(外星人入侵小游戏)第三篇
- WordPress自定义栏目运用实例 VI:设置外链缩略图/特色图像
- Python 项目实践一(外星人入侵小游戏)第二篇
- IBatisNet配置
- WordPress设置评论到达一定数量后自动关闭评论功能
- Python 项目实践一(外星人入侵)第一篇
- 外媒:域名Covermate.com超35万终端交易
- 移除WordPress 管理后台的主题编辑功能
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 如何从最坏、平均、最好的情况分析复杂度?
- 利用Python进行MR栅格数据处理
- 利用Sql处理MR栅格数据
- Netty组件之Channel注册
- 使用 kubeadm 安装单 master kubernetes 集群
- 垃圾回收算法(4)-复制算法
- Digital-Signature-Hijack:一款针对数字签名劫持的PowerShell脚本
- 使用TensorFlow物体检测模型、Python和OpenCV的社交距离检测器
- 基于OpenCV和Tensorflow的深蹲检测器
- BBPress未经身份验证的提权漏洞分析
- 开源日志管理系统Graylog之Sidecar功能实践
- CentOS-AltArch-7(ARM版)下源码编译MySQL5.7.31
- 用BurpSuit的Burpy插件搞定WEB端中的JS加密算法
- CentOS7下安装文档协作工具Confluence7.2.1
- caret包进行机器学习