卷积神经网络语言模型研究.docVIP

下载本文档

0
0
约2.75千字
约 5页
2017-08-24 发布于北京
举报
版权申诉

卷积神经网络语言模型研究.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

卷积神经网络语言模型研究　　摘要：卷积神经网络在自然语言处理中的应用是近年的研究热点。文章通过对几项典型工作的分析，研究了卷积神经网络在各项自然语言处理任务中的性能与效果。并对卷积神经网络语言模型的改进规律进行了总结。　　关键词：卷积神经网络；语言模型；分析　　1 卷积神经网络语言模型　　CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵，该矩阵可以是通过Google word2vec或GloVe预训练得到的词嵌入表示，也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中，输入矩阵总是带有固定顺序的结构，因为矩阵的每一行都表示离散的符号，例如单词或者词组等。因此，使用等宽的滤波器是非常合理的设置。在这种设置下，仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知，在处理NLP问题时，卷积神经网络的滤波器尺寸一般都是指滤波器的高度。　　然后，将卷积层输出的特征映射输入池化层，通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的，CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作，可以将卷积层生成的特征连接成更抽象的高级特征，所得到的高级特征尺寸与输入的句子不再存在直接关系。　　最后，将得到的高级特征输入softmax分类层进行分类操作。在softmax层，可以选择应用dropout策略作为正则化手段，该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束，l2范数约束是指当它超过该值时，将向量的l2范数缩放到指定阈值。在训练期间，要最小化的目标是分类的交叉熵损失，要估计的参数包括滤波器的权重向量，激活函数中的偏置项以及softmax函数的权重向量。　　2 卷积神经网络语言模型应用分析　　CNN语言模型已经广泛应用于诸如文本分类，关系挖掘以及个性化推荐等NLP任务，下面将对这些应用进行具体的介绍与分析。　　2.1 CNN在文本分类中的应用分析　　kim提出了利用CNN进行句子分类的方法。该方法涉及了较小规模的参数，并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整，进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道，一种是静态通道，另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算，然后将计算结果进行拼接。在池化层采用dropout正则化策略，并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集，内容为一句话的电影评论，其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展，但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记，标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集，其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集，其分类任务是将所有问题分为六类，例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集，包括客户对MP3、照相机等数码产品的评论，其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明，该方法在这几个典型数据集上都能取得非常优异的效果。　　2.2 CNN在关系挖掘中的应用分析　　Shen等人提出了一种新的潜在语义模型，以词序列作为输入，利用卷积-池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构，通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征，将这些特征聚合成句子级特征向量。最后，应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于，输入层与卷积层之间加入了word-n-gram层与letter-trigram层，它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征，并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。　　2.3 CNN在个性化推荐中的应用分析　　Weston等人提出了一种能够利用标签（hashtag）有监督的学习网络帖子短文本特征表示的卷?e嵌入模型（Convolutional Embedding Model）。该方法利用提出的CNN模型在