无监督的主题情感混合模型.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
无监督的主题情感混合模型 现代信息技术为传统社会经济活动带来了前所未有的社会化和网络化内涵,从而显著提高了效率。越来越多的用户乐于在互联网上分享自己对于某事件、产品等的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理。如何有效地管理和使用这些评价信息成为当前的迫切需求,这促进了自动文本情感分析技术的发展。 情感分析中的两个重要任务是情感信息抽取和情感信息分类,目前主要有基于规则和基于统计两种方法。新词的不断出现、表达方式的变化以及复杂的语言处理都使得基于规则的情感分析方法难以适用。 机器学习方法和文本表示模型是基于统计的情感分析方法的两个核心内容。机器学习方法包括有监督、半监督和无监督情感分析。有监督和半监督的机器学习方法中分类器的训练需要一定数量经过标注的训练样本,然而人工标注过程相对耗时费力,成本昂贵,无监督的机器学习则无需经过标注的训练样本。 长期以来文本表示的主要方法是向量空间模型(vector space model,VSM)。VSM认为文档都是在词典空间中进行表示的,即一个文档是一个一对多的映射,表示为文档→词。随着人们对文本认识的发展,发现向量空间模型没有考虑词的同义和多义情况,忽视了词与词之间的语义联系。为挖掘文本的潜在语义,人们开始寻找更能表示文本语义的文本表示模型。潜在语义分析(latent semantic analysis,LSA)就是一种能探查词与词之间内在语义联系的方法,打破了文档都是在词典空间进行表示的思维定式,在文本和词之间加入了一个语义维度,采用线性代数的方法提取语义维度。随着概率统计分析的发展,基于概率统计分析模式逐渐取代了基于线性代数的分析模式。概率潜在语义分析(probabilistic latent semantic analysis,p LSA)就是LSA的概率拓展,它比LSA具有更坚实的数学基础。但是p LSA模型中的参数随着文本集的增长而线性增长,容易出现过拟合情况,且模型中的文档概率值与特定的文档相关,没有提供文档的生成模型,对于训练集外的文本无法分配概率。p LSA存在的问题促发了人们寻找更好的主题模型,2003年,Blei等在p LSA的基础上提出了潜在狄里克雷分配(latent Dirichlet allocation,LDA)模型。LDA模型是一个完全的生成模型,具有良好的数学基础和灵活拓展性,已经应用到文本分析的很多领域中。 本文结合无监督机器学习和LDA主题模型的优点,提出一个无监督的主题情感混合模型(unsupervised topic and sentiment unification model,UTSU),通过对每个句子采样情感标签,对每个词采样主题标签,解决了文本主题发现和主题情感分类问题。 1 在语言模型上进行研究 LDA模型是全概率生成模型,参数空间的规模与文档数量无关,适合处理大规模语料库。目前已有研究将LDA模型应用到情感分析中。 Titov等提出了一个多粒度LDA模型(multigrain LDA,MG-LDA),并应用于基于主题的情感摘要生成中,提出了多主题情感模型(multi-aspect sentiment model,MAS)。虽然Titov等用实验证明了MG-LDA模型对于提取细粒度的主题有很好的效果,但是MG-LDA需要对已标注的训练集进行训练,属于有监督学习,具有样本不容易获取和领域移植性差的缺点。同样需要监督学习的还有Zhao等提出的ME-LDA模型(Max Ent-LDA),该模型结合了最大熵组件和主题模型,需要监督学习。 为使主题模型既能获得细粒度的主题又保持无监督学习的特征,很多学者对主题模型进行了改进。Brody等直接将句子作为一个文档,建立“句子-主题-词”关系。这种方法将LDA模型没有考虑文档和文档之间的关系进一步扩大,没有考虑句子和句子之间的关系,事实上在不同的句子中同一个主题可以有着完全不同的词。而且该方法只对主题词进行了情感词识别,并没有得到文档或句子的情感分布,即没有建立情感模型。Jo等认为一个句子中所有的词都由同一个主题和同一个情感产生,因此采样主题标签时,对每个句子采样主题标签,而不是对每个词采样主题标签,建立“文档-主题-句子”关系,这种方法硬性地缩小了词之间的主题联系。 主题情感混合模型在语言模型上有两种表示方法。第一种是将主题和情感描绘成一个单一的语言模型,在模型中一个词可能同时与主题和情感都相关,如Jo等提出的ASUM模型(aspect and sentiment unification model)和Lin等提出的JST模型(joint sentiment/topic model)。另一种是将情感与主题作为分开的语言模型,一个词要么是情感词,要么是主题词,只能二选

文档评论(0)

182****7741 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档