基于主题种子词情感分析方法.docVIP

下载本文档

52
0
约7.17千字
约 14页
2018-08-28 发布于福建
举报
版权申诉

基于主题种子词情感分析方法.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于主题种子词情感分析方法

基于主题种子词情感分析方法　　摘要：　　产品或服务的情感主题分析，有利于用户从海量的评论集中快速地了解到自己关注产品或服务的主题情感信息。针对现存非监督情感分析模型情感主题发现性能不足的问题，提出了一种的基于主题种子词的情感分析方法，该方法在自动构建领域主题种子词及主题文本基础上，利用主题种子词监督的情感分析模型（SAA_SSW）实现主题及其关联情感的联合发现。实验结果表明，相比传统的情感/主题联合模型（JST）和主题情感统一模型（ASUM），SAA_SSW能够识别出相同的词在不同的主题下具有的情感标签，挖掘的情感词与主题之间的相关度更高；另外，基于不同情感字典进行分类精度分析，SAA_SSW的分类精度相对于这两种模型至少提高7.5%。所以，SAA_SSW模型能很好地完成情感主题的发现，以及具有较高的情感分类精度。　　关键词：　　文字信息处理；隐藏狄利克雷分配；文本分析；主题模型；自然语言处理　　0 引言　　在网站上买过某种产品或享受过某项服务的消费者，会填写产品评论信息，表达对于产品或服务的意见。随着电子商务的普及，消费者对于产品的评论信息成为电子商务不可或缺的重要组成部分。产品评论信息是最重要的一种情感信息源，不论是从消费者还是从产品或服务所属公司的角度，产品评论信息都具有重要的意义：1）从消费者角度，消费者希望在购买某个产品或享受某项有偿服务前，通过产品或服务的评论信息，了解产品或服务各个方面的态度和意见。2）从产品或服务所属公司的角度，公司希望通过产品评论，获取消费者对于产品或服务的反馈信息，从而针对消费者的意见和态度，改进产品或服务的质量。面对海量且无结构化的评论信息，人们很难从繁杂的评论信息中快速获得产品特征情感信息[1]。如何让计算机具有分析产品评论信息的能力，使其可以在繁杂的评论信息中发现产品或服务各个方面的情感信息？　　近年来，作为非结构化信息挖掘的一个新兴领域――网络评论的情感分析受到人们关注[2]。从大量的产品评论信息中，发现消费者对于某种产品或服务的态度和意见，是自然语言或情感分析的核心任务。一般情况下，产品评论中的态度和意见都是消费者针对产品或服务某一个方面（或主题）进行描述的，例如电脑（产品）的显示器（主题）问题、酒店（服务产品）的交通（主题）问题。所以，针对产品主题进行情感分析，要比单纯分析产品的情感信息要实用得多。因此，情感信息挖掘一般由两部分构成：主题挖掘和主题的情感信息挖掘[3]。　　传统的文本挖掘方法，利用词频特征及词分布实现主题发现和分类。然而，如果文本集的规模过大，会导致词的高维性、稀疏性及和维度未归一等问题的出现。利用词频.逆向文件频率（Term FrequencyInverse Document Frequency， TF.IDF）方法，一定程度上可以实现降维。但是，这种方法却没有考虑词与词之间的语义关联问题。因此，人们进一步在文本与词之间，引入主题维度，解决语义关联问题。为了实现主题维度的自动发现，也就是主题挖掘问题，概率潜在语义索引（Probabilstic Latent Semantic Indexing， PLSI）模型被提了出来，该模型将文本描述为主题的多项式概率分布。但PLSI概率模型并不是完备的生成式模型，且随着文本数量的增加，PLSI模型的参数也线性增加，变得越来越庞大，会出现过拟合的问题[4]。此后，文献[5]中提出隐藏狄利克雷分配（Latent Dirichlet Allocation， LDA）模型，进一步克服了PLSI模型的缺点。对于完备的贝叶斯概率生成模型LDA，其参数空间的规模不会随着文本的数量增长而线性增加，适合处理大规模语料库[6]。为了进一步提高主题抽取的精度，半监督主题模型被提了出来，其通过设定先验信息的方法来帮助抽取主题[7]。基本思想是，对于一些主题，有一些比较准确的先验信息，例如，对于一些汽车产品，可以先从维基百科中提出它的各个特征的描述，然后将它们当作先验信息，帮助主题的抽取[7]。关于主题的情感信息挖掘方面，研究者们也开展了大量的研究工作。情感/主题联合模型（Joint Sentiment/Topic Model， JST）将情感信息融入到LDA模型中，实现主题和主题相关情感信息的联合发现[1]。主题情感统一模型（Aspect and Sentiment Unification Model， ASUM）进一步细化了情感信息的表达粒度，将文本的句子作为情感表达的最小单位[8]。ASUM和JST都可以同时实现主题发现以及主题的情感信息挖掘[9]。ASUM和JST最大的不同是：在JST中每一个词都可能来源于不同的语言模型；而ASUM约束一个单句中的词来源于相同的语言模型，因此推测出的每一个语言模型更注重于