归档: 2018/11

0

【论文笔记09】Teaching Machines to Read and Comprehend

本文主要做出了两个大的贡献: 给出了阅读理解数据集的构造方法,并开源了两个阅读理解数据集; 提出了三种神经网络模型作为baseline,以方便后面的研究者进行相关的研究。 1 数据构造主要是从新闻网站中抓取新闻作为文章,新闻的摘要去掉一个实体词成为query,被去掉的单词作为答案。为了防止模型对训练数据的过度依赖,于是将文章和问题中的实体进行匿名化和随机替换。具体见官方教程 2 三种神经网络模

0

【论文笔记07】End-To-End Memory Networks

1 背景(1)在记忆网络中,主要由4个模块组成:I、G、O、R,前面也提到I和G模块其实并没有进行多复杂的操作,只是将原始文本进行向量表示后直接存储在记忆槽中。而主要工作集中在O和R模块,O用来选择与问题相关的记忆,R用来回答,而这两部分都需要监督,也就是需要知道O模块中选择的记忆是否正确,R生成的答案是否正确,这种模型多处需要监督,而且不太容易使用常见的BP算法进行训练,这就限制了模型的推广。(

0

【论文笔记08】Dynamic Entity Representation with Max-pooling Improves Machine Reading

本文模型之前的模型都是用一个静态的向量来表示一个entity,与上下文没有关系。而本文最大的贡献在于提出了一种动态表示entity的模型,根据不同的上下文对同样的entity有不同的表示。模型还是采用双向LSTM来构建,这时实体表示由四部分构成,包括两个方向上的隐层状态,,以及该实体所在句子的最后隐层状态,也就是该实体所在的上下文表示。如图所示。问题向量的计算与动态实体计算过程类似,这里需要填空的

0

【论文笔记06】Memory Network

1 问题和解决办法(1)问题 当遇到有若干个句子并且句子之间有联系的时候,RNN和LSTM就不能很好地解决; 对于句子间的这种长期依赖,于是需要从记忆中提取信息; (2)解决办法 本文提出了实现长期记忆的框架,实现了如何从长期记忆中读取和写入,此外还加入了推理功能; 在QA问题中,长期记忆是很重要的,充当知识库的作用,从其中获取长期记忆来回答问题。2 模型框架(1)模型由4个模块组成,分