基于长短期记忆多维主题情感倾向性剖析模型.docVIP

下载本文档

30
0
约9.66千字
约 17页
2018-11-13 发布于福建
举报
版权申诉

基于长短期记忆多维主题情感倾向性剖析模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于长短期记忆多维主题情感倾向性剖析模型

基于长短期记忆多维主题情感倾向性剖析模型　　摘要：针对中文微博全局性情感倾向分类的准确性不高的问题，提出基于长短期记忆模型的多维主题模型（MT-LSTM）。该模型是一个多层多维序列计算模型，由多维长短期记忆（LSTM）细胞网络组成，适用于处理向量、数组以及更高维度的数据。该模型首先将微博语句分为多个层次进行分析，纵向以三维长短期记忆模型（3D-LSTM）处理词语及义群的情感倾向，横向以多维长短期记忆模型（MD-LSTM）多次处理整条微博的情感倾向；然后根据主题标签的高斯分布判断情感倾向；最后将几次判断结果进行加权得到最终的分类结果。实验结果表明，该算法平均查准率达91%，最高可达96.5%；中性微博查全率高达50%以上。与递归神经网络（RNN）模型相比，该算法F-测量值提升40%以上；与无主题划分的方法相比，细致的主题划分可将F-测量值提升11.9%。所提算法具有较好的综合性能，能够有效提升中文微博情感倾向分析的准确性，同时减少训练数据量，降低匹配计算的复杂度。　　关键词：中文微博；情感倾向分析；长短期记忆；多层多维模型；主题标签　　中图分类号：TP181 　　文献标志码：A 　　0引言　　随着网络新媒体的飞速发展，大量用户已习惯于通过微博表达自己真实的想法和理念，从而产生了庞大的数据量和很多创造性的自由、随性的表达方式。这些新鲜的方式不仅表达了微博作者的态度和想法，还带有极高的商业、社会价值。为此，分析这些大量且复杂的微博信息中的情感已成为当下研究热点之一。　　与传统文本的情感分析不同，微博有其独特的情感特征，其不仅需要明白表面意思，更需要分析字里行间的内在含义。这就需要从不同方面对微博信息的特征进行分析，否则很难准确判断它的情感倾向，更难以得出准确结果。其次，微博具有篇章短小精悍、语言结构口语化、存在表情符号和创造性语言的特征，增加了语言处理和分析的难度。　　目前，循环神经网络（Recurrent Neural Network， RNN）模型正应用于各种机器学习所涉及的任务中，尤其适用于输入输出序列长度可变的环境中进行分类和生成任务；然而在实际应用中，由于长期目标依赖性导致训练难度极大。Socher等[1]使用张量形式的递归神经网络（Recursive Neural Network， RsNN）侧重于对整个句子的理解，但中文尤其是微博很少有完整的句子和完善的句法结构。Koutnik等[2]将循环神经网络的隐藏单元划分为组，采用不同频率时钟的发条循环神经网络（Clockwork Recurrent Neural Network， CW-RNN）模型跨时空链接信息；但不适用于正则文法表达，缺乏上下文的内在关联，使整条微博的识别性降低。近来相对有效的方法之一，是增加特殊控制单元来限制内存访问，即使用长短期记忆模型（Long Short-Term Memory， LSTM）来获得更持久的记忆，以及更轻松地捕获长期依赖项，减缓信息衰减的速率，增加深度计算的优势。Stollenga等[3]则是从线的角度出发进行扫描，代替了原先的点辐射的思想，提出金字塔型长短期记忆模型（Pyramidal Multi-Dimensional LSTM， PMD-LSTM）；但其打破了上下文的关联，且复杂度较高，影响分类效果。Li等[4]在RNN的基础上增加了自动编码模型形成了一种按等级划分的自动编码模型HNA（Hierarchical Neural Autoencoder），是一种多维的LSTM模型；但其效率不高，每句话都要反复地进行编码和解码的工作。　　针对以上问题，笔者根据中文微博的特性，提出了基于LSTM的多维主题模型（Multidimensional Topic LSTM， MT-LSTM），以提高微博情感倾向预测的准确率。它不依赖于句子的标签和形式，通过分层的方式增强词与词之间的联系，以及义群与义群、句与句之间的联系。最后，通过主题分类判断情感倾向，再将每一层结果进行加权求和得到最终的情感倾向。由此，增强了句子的特征，解决了因时间迁移导致数据模糊而无法计算的问题，降低了因长期记忆影响导致遗忘速率过快而对结果产生的不利影响，增强了分类的准确性，且更适用于口语化的中文微博。　　隐藏序列和记忆序列的计算与传统RNN不同，通过Python予以实现[5]。本文通过输入序列得到标准RNN计算出的隐藏序列和记忆序列。由于目标类会与逻辑序列产生联系，所以这种表示不会产生逻辑衰退。实验表明，通过这种组合方式进行情感分析得到的结果准确率更高。　　1相关工作　　上述控制门和记忆细胞允许LSTM单元自适应地忘记、记忆和展示记忆内容。遗忘门的开闭可以同时发生在不同的LSTM单元。基于RNN的多重LSTM单元可以同时捕捉在网