LSTM和Word Embedding的深入剖析，及RNN/Attention的改进 | “小声嘟囔”专栏 | 自由微信

查看原文

其他

LSTM和Word Embedding的深入剖析，及RNN/Attention的改进 | “小声嘟囔”专栏

From: 钟翰廷集智俱乐部 2019-09-14

开通头条号：集智俱乐部

作者简介

钟翰廷毕业于华中科技大学，现在爱因互动科技发展（北京）有限公司担任算法工程师，从事 NLP 相关工作，现为集智自然语言处理群群主。

LSTM: A Search Space Odyssey(arXiv: 1503.04069)

作者：Klaus Greff, Rupesh Kumar Srivastava, Jan Koutnik, Bas R. Steunebrink, Jurgen Schmidhuber

摘要

自 1995 年用于循环神经网络的长短期记忆单元（Long Short Term Memory, LSTM）出现以来，已经有多种 LSTM 的变体被提出来。近年来，这些网络模型已经成为各种机器学习问题中的最先进的模型，这重新引发了大家对典型 LSTM 及其变体的结构中各个计算组件的作用的兴趣。在本文中，我们以语音识别、手写识别和音乐建模这三个问题为例，对八种 LSTM 结构进行了大规模的分析。我们使用随机搜索来分别优化八种 LSTM 结构中的超参数，并用强大的 fANOVA 框架来评估这些超参的重要性。我们共进行了 5400 个实验，并从这些实验中总结出一些观点 —— 这些实验累计耗费 CPU 时间约 15 年，这是类似的对 LSTM 网络进行的研究中规模最大的。实验结果表明，相比经典的 LSTM 结构，我们实验中的八种变体并没有在三个任务上有明显的改善，同时我们证明遗忘门(forget gate)和输出激活函数(output activation)是 LSTM 中最关键的部分。我们进一步观察到模型的超参几乎是独立的，同时得到了一些对这些超参进行有效调整的指导性意见。

简评

这篇论文用大规模的数据对比了八种不同 LSTM 变体之间的效果。这八种变体有六种是去除经典 LSTM 中的一些计算组件得到的，用来验证其中一些组件的重要性；剩下两种一种是将 input gate 和 forget gate 合并的类似 GRU 的结构，还有一种是所有 gate 之间也有 recurrent 连接的 full gate recurrent 结构。实验得到的一些主要结论有：forget gate 和 output activation 是 LSTM 中最重要的部件；学习率和网络大小是 LSTM 训练中比较重要的超参，动量项几乎没什么效果；LSTM 的各个超参几乎是互相独立的。如果不想了解太多细节的讨论，可以直接看论文的 Conclusion 一节。

Understanding Neural Networks Through Representation Erasure(arXiv: 1612.08220)

作者：Jiwei Li, Will Monroe, Dan Jurafsky

摘要

虽然神经网络已经成功应用于许多自然语言处理任务，但它们在可解释上仍不够。在本文中，我们提出了一种通用的方法分析和解释了神经网络模型的决策——这种方法通过擦除输入表示的某些部分，比如将输入词向量的某些维、隐藏层的一些神经元或者输入的一些词。我们提出了几种方法来分析这种擦除的影响，比如比较擦除前后模型的评估结果的差异，以及使用强化学习来选择要删除的最小输入词集合，使用于分类的神经网络模型的分类结果发生改变。在对多个 NLP 任务（包括语言特征分类、句子情感分析、文档级别的 sentiment aspect prediction）的综合分析中，我们发现我们提出的方法不仅能提供神经网络模型决策的清晰解释，而且可以用来进行错误分析。

简评

挺有意思的一篇文章，通过分析揭示了 Word2Vec 和 Glove 产生的词向量之间存在一些明显的差异，同时也表明训练语料中的词频对产生的词的表达有很大的影响；在句子级别的情感分析上的实验表明情感词对情感分类结果影响显著，有意思的是还能找出来一些使模型误分类的词；在文档级别的 aspect prediction 实验则清晰地揭示出文档中哪部分文本和特定的 aspect 是强关联的。同时这些实验都表明，双向 LSTM 的表达能力比经典 LSTM 强，经典 RNN 则最弱。

Interactive Attention for Neural Machine Translation(arXiv: 1610.05011)

作者：孟凡东，吕正东，李航，刘群

摘要

常见的基于注意力的神经机器翻译(Neural Machine Translation, NMT)在生成目标语言时进行动态对齐。通过重复读取由 encoder 产生的源语言句子的表示，注意力机制极大地提高了 NMT 的效果。在本文中，我们提出了一种新的注意力机制，称为「Interactive Attention」，在翻译时，decoder 不仅去读取源语言句子的表示，而且还会去修改这些表示。Interactive Attention 可以记录 decoder 和源语言句子表示之间的交互过程，因此提高了翻译性能。在 NIST 中英文翻译任务上的实验表明，我们的 Interactive Attention 模型相比原始的基于注意力机制的神经机器翻译模型以及其他的一些改进模型（如 Coverage Model），在效果上都有很大的提升。在多个测试集上，使用了 Interactive Attention 的神经机器翻译系统的 BLEU 值比开源的基于注意力的系统平均高出 4.22，比开源的统计机器翻译系统 Moses 平均高出 3.94。

简评

文中提到的 Coverage Model 和本文都是为了进一步改进现有的 NMT 方法、减少 over-translation 和 under-translation 问题的工作。本文提出的办法是对 attention 机制的一个改进，思想很简单，就是将由 encoder 产生的源语言句子的表示 —— 也就是 encoder 的 hidden state 序列视为一个可读写的 memory，不仅在 decode 的时候进行加权的读取，还在每一步 decode 后进行加权的修改操作。这种思想其实还可以追溯到 2014 年的神经元图灵机，在形式上和 2015 年的 Dynamic Memory Network 也非常接近。

Coherent Dialogue with Attention-based Languge Models
(arXiv: 1611.06997)

作者：Hongyuan Mei, Mohit Bansal, Matthew R. Walter

摘要

我们通过配备动态注意力机制(dynamic attention mechanism)的 RNN 对话模型来建模连贯对话的连续性。我们的「注意力-RNN」模型在对话继续的的时候动态地增加在对话历史上的注意力作用范围，相对应的 seq2seq 模型中的标准注意力模型的作用范围则是固定的。这使得生成的单词能和对话历史上与其相关的词关联起来。我们在两个流行的对话数据集——开放域的 MovieTriples 数据集和封闭域的 Ubuntu 对话数据集评估了我们的模型，并在多样性指标、人工评价、几个指标上相较 baseline 和当前最先进的模型上都有不小的提升。我们的工作还表明，在使用灵活的长距离记忆后，一个带有动态注意力机制的简单 RNN 能比复杂的记忆模型如 LSTM 和 GRU 都表现得更好。进一步地，我们通过基于主题模型的重新排序来提高对话的连贯性。

简评

一般来说，我们看到的 attention 机制，都是用在 encoder-decoder 模型上的，这篇论文里的将 attention 机制用在 RNN 上的想法，以及有「对话是更偏向语言建模而不是机器翻译的工作」这样的观点，感觉挺有意思的。

Attention-based Memory Selection Recurrent Network for Languge Modeling（arXiv：1611.08656）

作者：Da-Rong Liu, Shun-Pro Chuang, Hung-yi Lee

摘要

循环神经网络（Recurrent Neural Networks, RNN）已经在语言建模上取得了巨大的成功。然而由于 RNN 使用固定大小的 memory，不能存储在句子中处理过的所有词的信息，因此在预测下一个词时，有用的长期记忆就被丢失了。在本文中，我们提出了基于注意力机制的记忆选择 RNN(Attention-based Memory Selection RNN, AMSRN)，该模型能查看前一时刻存储在 memory 的信息并从中选择相关信息来辅助生成输出。在 AMSRN 中，注意力机制首先存储了相关信息的 memory，然后从中提取信息。在实验中， AMSRN 英文和中文的语料上都取得了比 LSTM 语言模型更好的效果。此外，我们研究了熵来对 attention 权重进行正则化，并用之来对注意力机制在语言模型上的作用进行可视化。

简评

和《Coherent Dialogue with Attention-based Languge Models》类似的思想，直接在 RNNLM 上加上 attention，模型部分讲得很清楚，不过内容比较少就是了。

SampleRNN: An Unconditional End-to-End Neural Audio Generation Model(arXiv: 1612.07837)

作者：Soroush Mehri, Kundan Kumar, etc.

摘要

在本文中我们提出了一个新的模型，用于一次生成一个音频样本的 unconditional 的音频生成(unconditional翻译不能)。我们的模型通过层级结构将自回归的多层感知机和 RNN 结合起来，实验表明这样的模型在三个不同性质的数据集上，都能够捕获非常长跨度上的时间序列的潜在变化。人工评估，表明我们的模型相比其他音频生成模型效果更好。此外我们还展示了模型不同部分对模型整体性能的贡献是如何产生的。

简评

本文所说的层级结构大致是这样的，每层都是一个 RNN ，但是每层输入的语音特征的帧长从前到后依次减小，并且前一层的 hidden state 输出会作为下一个 RNN 层的额外输入，这样相当于增强了 RNN 得到的长期记忆，因此最后整个模型在建模长度为 512 的音频样本序列时，相比长度为 32 的音频样本序列也只是稍有变差。这种在不同层级对不同粒度的输入进行建模并且互相增强的方法，和近期一些在问答上做的分层的 attention 机制可以说有一些共通之处，即使是对音频生成没什么兴趣，也推荐稍微读一下。

查看往期精彩回顾：

关于深度神经网络压缩(上) | “小声嘟囔”专栏

关于深度神经网络压缩(下) | “小声嘟囔”专栏

想知道更多关于NLP方面的干货？

（或者点击阅读原文）

微信观看地址

自然语言处理是让计算机理解人类语言的前沿技术。深度学习革命的爆发也同样深刻地影响到了自然语言处理这一学科的发展。本系列课程将全面介绍自然语言处理与深度学习的前沿知识，是一套实惠优质的自然语言处理入门课程。其首次开展是集智俱乐部举办的从2016年7月到11月的线上系列读书会。

集智俱乐部

英文名： Swarm Agents Club ，简称“ SA Club ”，成立于 2008 年，是一个从事学术研究、享受科学乐趣的探索者的团体。倡导以平等开放的态度、科学实证的精神，进行跨学科的研究与交流，力图搭建一个中国的 “ 没有围墙的研究所 ”。

集智QQ官方群：292641157

集智俱乐部的口号：

让苹果砸得更猛烈些吧！！！

集智俱乐部的使命（即目标）：

营造自由交流学术思想的小生境，

孕育开创性的科学发现。

让苹果砸得更猛烈些吧！

长按识别二维码，关注集智Club，

让我们离科学探索更近一步。

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

微博遗存之五

性高潮到底什么感觉？真实记录多位女性的自述

微博遗存之四