循环神经网络系列算法原理与数学表达研究 ——RNN、LSTM 与 BiLSTM

张开发
2026/4/4 20:23:26 15 分钟阅读
循环神经网络系列算法原理与数学表达研究 ——RNN、LSTM 与 BiLSTM
RNN、LSTM、BiLSTM 详解从设计动机到数学推导Form:NLP-AHU-130在处理文本、语音、时间序列这类带先后顺序的数据时RNN、LSTM 和 BiLSTM 是深度学习领域最经典的三类循环神经网络。它们的演进逻辑非常清晰RNN 解决了“怎么记住过去信息”但很快暴露出梯度消失的问题LSTM 用门控机制和细胞状态解决了长依赖BiLSTM 则在此基础上让模型能同时看到上下文信息。下面我们从设计动机、核心结构、算法流程和数学公式四个维度完整拆解这三个模型。传统 RNN序列建模的起点设计灵感RNN 的核心设计思想来自于对人类时序记忆机制的模仿当我们理解一句话时每个词的含义都依赖它前面的语境。它引入了循环连接隐藏层自环结构让信息可以在时间维度上传递。模型在不同时间步共享同一组权重参数大幅减少了参数量同时天然适配变长序列输入。致命缺陷梯度消失/爆炸虽然结构简单但标准 RNN 在处理长序列时几乎无法有效训练在反向传播过程中梯度会随时间步的增加经过矩阵乘法的反复作用而指数级衰减或放大。这导致模型无法学习到距离较远的序列依赖关系只能记住最近几十步的信息也就是我们常说的“短期记忆”。核心结构与数学表达设模型在第步的输入为隐藏状态记忆单元为输出为(1) 隐藏状态更新核心公式输入到隐藏层的权重矩阵隐藏层到隐藏层的循环权重矩阵偏置项激活函数用于引入非线性输出范围(2) 输出层可选如果是分类任务通常会在输出后接 Softmax 函数。总结与局限优点结构简单能处理任意长度的序列适合建模短序列依赖。缺点无法学习长距离依赖梯度消失问题严重几乎无法应用于长文本、语音等复杂场景。LSTM解决长依赖的记忆大师设计动机为了解决 RNN 的梯度消失问题LSTMLong Short-Term Memory在 1997 年被提出。它的设计灵感来自于计算机的内存管理系统引入了一条贯穿整个时间序列的“信息高速公路”——细胞状态让信息可以无阻碍地流动。用三个“门控”来控制信息的写入、保留和读取实现对记忆的精细化管理。核心创新细胞状态与三门控细胞状态LSTM 的“长期记忆”。它的更新以线性加法为主梯度在反向传播时能稳定流动从而避免了梯度消失。门控机制由 Sigmoid 函数实现输出值在 0 到 1 之间0 代表完全关闭1 代表完全打开遗忘门决定要丢弃哪些旧记忆。输入门决定要写入哪些新信息。输出门决定要输出哪些记忆给下一层。算法流程与数学公式在第 (t) 步LSTM 的计算分为以下 6 个步骤(1) 遗忘门控制旧记忆的保留(2) 输入门控制新信息的写入(3) 候选细胞状态生成待写入的新信息(4) 细胞状态更新核心公式这里的表示逐元素相乘Hadamard 积。 这个公式完美体现了 LSTM 的记忆逻辑用遗忘门保留旧记忆用输入门写入新记忆。(5) 输出门控制记忆的读取(6) 隐藏状态更新为什么 LSTM 能解决梯度消失关键在于细胞状态的更新方式。它主要由加法构成不像 RNN 那样全是矩阵乘法。在反向传播时梯度可以沿着细胞状态这条路径几乎无损地传递回前面的时间步从而有效缓解了梯度消失问题让模型能够学习到上千步的长距离依赖。BiLSTM同时看见过去与未来设计动机标准 LSTM 只能按时间顺序单向处理序列只能利用当前位置之前的信息。但在很多 NLP 任务中一个词的含义往往也依赖于它后面的语境例如“我去银行存钱”“银行”的含义需要“存钱”这个后文来确定。为了解决这个问题BiLSTMBidirectional LSTM被提出它可以同时利用过去和未来的上下文信息。核心结构双向 LSTMBiLSTM 由两个独立的 LSTM 组成正向 LSTM从左到右处理序列生成包含前文信息的隐藏状态。反向 LSTM从右到左处理序列生成包含后文信息的隐藏状态。最终的隐藏状态由这两个方向的状态拼接而成。数学表达(1) 正向计算(2) 反向计算(3) 状态拼接优缺点分析优点能够捕获完整的上下文信息在序列标注、命名实体识别、机器翻译等任务中效果显著优于单向 LSTM。缺点计算量翻倍约为单向 LSTM 的 2 倍且无法用于实时流式任务因为它需要等待整个序列全部输入后才能进行反向计算。三者核心对比速览特性RNNLSTMBiLSTM记忆能力短期50步长期1000步长期双向梯度问题严重消失/爆炸基本解决与 LSTM 一致上下文利用仅前文仅前文前文后文计算复杂度低中3组门控高2×LSTM典型应用场景简单时序预测语音识别、文本分类分词、NER、机器翻译总结与展望RNN序列建模的开山之作但其梯度消失的硬伤限制了它的应用。LSTM通过门控机制和细胞状态解决了长依赖问题是循环神经网络的集大成者。BiLSTM在 LSTM 的基础上引入双向建模是 NLP 任务的经典方案。虽然现在 Transformer 模型大行其道但 RNN、LSTM 作为序列建模的基础其设计思想依然深刻影响着后续模型的发展也是理解注意力机制等更复杂模型的必经之路。拓展阅读如需进一步系统学习循环神经网络相关理论与进阶内容推荐斯坦福经典NLP课程官方讲义内容与本文高度契合Stanford CS224N: Recurrent Neural Networks链接https://web.stanford.edu/class/cs224n/readings/cs224n-2019-notes05-rnn-lstm.pdf该讲义权威且体系化完整覆盖RNN→LSTM→BiLSTM全演进脉络包含详细的模型结构拆解、数学公式推导、梯度消失问题解析及双向循环机制原理与本文核心知识点一一对应是深入学习的优质资料。

更多文章