- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于动态情感主题模型的在线评论分析
研究论文
基于动态情感主题模型的在线评论分析*
李 慧 胡云凤
(西安电子科技大学经济与管理学院 西安 710071)
摘要: 【目的 】对在线评论进行分析, 揭示评论文本主题的内容和情感分布变化规律。【方法 】使用融入先验信
息的SSTM 模型获得评论文档的情感分布, 以文档、文档情感分布和词项为可视变量, 提出DSTM 模型, 并估算
情感主题分布和主题词项分布。【结果 】将采集的评论数据集按时间片划分进行建模, 实验得到主题的内容和情
感随时间的变化趋势。【局限 】未考虑不同主题之间的关联关系, 建模结果可能存在一定误差。【结论 】融合时
间外部特征的DSTM 模型, 能够有效地对在线评论进行主题演化分析。
关键词: SSTM DSTM 参数估计 情感 在线评论
分类号: G350
在主题模型出现之后, 由于主题模型在建模提取
1 引 言
主题和文档降维方面效果显著, 因此被广泛用于文本
随着电商网络交易的发展, 网络上囤积了海量的 数据处理。评论属于一种特殊文本, 不仅具有主题, 同
商品评论, 这些评论不仅对潜在顾客具有价值, 对于 时具有情感。情感主题模型提供了一种简便有效的方
商家而言, 同样蕴含着商业价值。通过分析评论, 有针 法, 能够对语法结构复杂, 句式不统一, 数据量又十
对性地改进产品, 满足顾客的要求, 提高产品口碑, 分庞大的评论数据进行分析。国外较为经典的情感主
提升市场竞争力。评论文本数据与普通的文本数据不 题模型有方面主题联合模型(Aspect and Sentiment
同, 评论不仅包含主题, 还包含主观性的情感色彩, Unification Model, ASUM)[4] 和联合主题模型(Joint
书写形式也不规范, 具有口语化的特点, 如何在挖掘 Sentiment/Topic Model, JST)[5]等, ASUM 模型是在Blei
主题的同时, 进行情感分析成为一个研究热点。 等[6] 提出的潜在狄利克雷分布(Latent Dirichlet
目前已有针对评论文本分析的研究, 如 Allocation, LDA) 的基础上进行扩展, 提到的方面与
Somprasertsri 等[1]利用句法规则同时抽取属性词和评 LDA 中主题的定义十分类似。ASUM 模型假设句子为
价词; Zhuang 等[2]通过人工建立属性词典抽取评论中 分配方面和情感的最小单位, 而 JST 模型将词项作为
的属性词; 而Hu 等[3]设计的评论挖掘框架几乎涵盖了 分配情感和主题的最小单位, ASUM 和JST 均分为文
在线评论挖掘的全部子任务, 为其后的研究提供了模 档–情感–主题–词4 层结构。国内熊蜀峰等[7]提出短文
板, 该框架由以下步骤构成: 获取评论语料库、提取评 本情感主题模型(Short-text Sentiment-Topic Model,
论特征、用户观点抽取和情感倾向判别、展示仿真挖 SSTM)认为情感应依赖于主题, 提出文本–主题–情感
掘实验结果。然而此种方法需要结合有监督的信息, –词4 层结构, 并且利用词对进行建模, 结果显示要比
利用传统数据挖掘方法进行评论语料挖掘, 将特征识 ASUM 等模型效果更好, 并且与基线方法(直接对文
别和情感判断分开进行, 容易丢失一些特定特征与情 档中的词汇基于情感词典进行极性统计, 得到文档的
感之间的关系。 极性)进行对比, 情感判别的精度更高。
通讯作者: 胡云凤, ORCID: 0000-0002-7342-3755, E-mail: luleaf@ 。
*本文系国家自然
文档评论(0)