基于情感主题特征词加权的微博评论聚类算法研究.docx

基于情感主题特征词加权的微博评论聚类算法研究.docx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

基于情感主题特征词加权的微博评论聚类算法研究

?

?

吴迪杨瑞欣申超

摘?要:为了提高微博评论的情感分析聚类效果,提出一种基于情感主题特征词加权的微博评论聚类算法。该算法首先通过定义情感主题词袋提取情感主题词;然后利用语义相似度计算获得情感主题特征词,进一步通过定义情感主题特征词重要度和分布度对其进行加权,充分考虑情感主题特征词对主题的贡献度;最后通过LDA聚类获得加权的情感主题特征词。实验结果表明,该算法表现出较好的情感分析聚类效果,对网络舆情分析有一定的指导作用。

关键词:微博评论;聚类算法;LDA聚类;情感分析;特征词加权;主题词提取

:TN911.1?34;TP391.1????????:A?????????:1004?373X(2020)23?0067?05

Abstract:Inordertoenhanceclusteringeffectofsentimentanalysisonmicroblogcomments,amicroblogcommentclusteringalgorithmbasedontheweightedsentimenttopicfeaturewordsisproposedinthispaper.Withthealgorithm,thesentimenttopicwordsareextractedbydefiningthesentimenttopicwordbag,andthenthesentimenttopicfeaturewordsareobtainedbycalculationofsemanticsimilarity.Thesentimenttopicfeaturewordsareweightedbydefiningtheirimportanceanddistribution.Thecontributionofsentimenttopicfeaturewordstothetopicisconsideredfullyinthealgorithm.TheweightedsentimenttopicfeaturewordshavebeenobtainedbylatentDirichletallocation(LDA)clustering.Theexperimentalresultsshowthatthealgorithmhasagoodclusteringeffectofsentimentanalysis,andhasacertainguidingrolefornetworkpublicopinionanalysis.

Keywords:microblogcomment;clusteringalgorithm;LDAclustering;sentimentanalysis;featurewordweighting;topicwordextraction

0?引?言

隨着网络的普及,微博已成为获取社会资讯的重要渠道[1]。用户微博上的评论包含主观情感的表达,并携带大量用户信息和数据信息,微博用户的情感表达也会对其他用户的情感甚至对政府的决策行为产生影响。因此,亟需对微博评论进行有效的情感分析,从而把握网络舆情走向[2]。

目前,主题模型已成为微博评论分析领域的热点。LDA(LatentDirichletAllocation,隐含的狄利克雷分配)主题模型是包括词项、主题和文档三层结构的文档生成概率模型[3],可以识别大规模文档集或语料库中潜在的主题信息。传统的LDA主题模型只能对微博评论中隐含的主题进行建模,仅考虑了微博评论表面语义信息之间的关系,在情感分析方面能力欠佳。

文献[4]在LDA中加入情感层与微博用户关系参数,提出基于LDA和微博用户关系的主题情感模型,该模型具有良好的情感分类能力;文献[5]在LDA主题模型的基础上提出了适用于短文本的情感分析模型,该模型可增强情感词汇之间的共现频率,提高了在情感极性分类上的效率;文献[6]基于LDA主题模型,对产业产品进行文本挖掘,利用情感词典对提取主题词进行情感标注,有效地对产品评论进行情感分析。

上述文献在情感分析方面表现出较好的性能,但在兼顾情感与语义两方面的分析效果上不太理想。文献[7]提出一种情感主题联合模型(JointSentimentTopicModelfor

文档评论(0)

183****9774 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档