- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
评论潜在方面观点计算
评论潜在方面观点计算
2010年12月04日 3:03:23 由 vanjor 发表 [703 次阅读] 回复 ?
本文为国外09年的最新文本挖掘类别论文:
原文:Latent Aspect Rating Analysis on Review Text Data: A Rating Regression Approach
链接:原文Paper,展示PPT
个人三天时间完整翻译而成,本文对于理解话题识别,用户潜在观点挖掘,情感计算方面都有很好的借鉴意义。
目前在用户观点情感挖掘方面属于一个十分前沿的话题,广泛应用在产品研究,用户行为分析,推荐系统上。比现行的许多基于文本分类论文都是更为细致的研究,本文中大量运用统计概率学方面知识对话题识别,情感词的渐进识别,权重推断,以及结果估计验证,与应用探讨,值得深入学习。
同时个人认为一个最重要的不足的是,论文中还是主要通过挖掘文本中词语间的关联,类似tf/idf词频统计,先验概率推断等进行文本挖掘分析,而对于语义的理解,句法的解读分析仍然没有考虑在内,这样必然导致结果仍然存在很多偏差与误判,而鉴于语义理解,句法分析尚属一个十分困难的前沿研究领域。文本尤为可佳。
摘要
在本文,定义观点评估分析(LARA: Latent Aspect Rating Analysis)问题并针对含有观点意见的文本进行分析。 旨在分析在线评论中的实体,基于话题方面(topical aspects)来挖掘每个评论者在实体的每一个方面(Aspect)的潜在观点,以及分析不同方面对于评价者形成关于实体的总体评价所占权重。我们提出一种新颖概率回归评估模型来尝试以通法来解决这类文本挖掘问题。
基于酒店评论数据的经验分析实验表明这种提论可以有效的解决 LARA 问题,并且基于评论的具体挖掘与分析具有广泛的应用价值,包括类别观点概括,基于方面的实体评分,分析评论者评分表现行为。
分类:信息搜索与检索:文本挖掘(Text Mining)
主要形式:算法,实验
关键词:意见与情感分析(Opinion and sentiment analysis),评论挖掘(Review mining),潜在评估分析(Latent rating analysis)
一、简介
随着 Web2.0 的发展,越来越多的人可以对各种各样的产品和服务自由的表达观点,这些评论信息对于其他用户做出决策以及产品服务的改进具有很大价值。然而,随着评论信息快速增长,海量的信息让用户难以快速查找到所需要的信息,很多工作就是来减轻这个评价文本信息抽取的问题[18,16,26],提炼总结用户的观点,根据意见的极性分类[20,6,7],并从评论中抽取相应的观点句。尽管如此,在现有的技术下,用户仍然难以方便的从海量的评论信息中挖掘与发现信息,来支撑实体主题方面的观点。
以一个典型的酒店评价信息为例,如上图(1) ,这个评论信息涉及到了酒店的多个方面特点,包括价格,房屋条件以及服务,但是评论者只给出了宾馆的总体评分,没有提供每个单独方面的评分,其他用户就难以方便的了解到这个评论者在方面上的评级(latent rating)。透过整体评价进一步挖掘每一方面的评价是十分重要的,因为不同的评论者对于同一家酒店会有相同的总体评价,但是因为不同的方面原因。比如:一个评论者可能喜欢酒店的位置,另一个喜欢房间条件。
为了帮助用户发现这些不同,十分有必要挖掘并分析评论者在酒店的几个大的方面上的评级。此外,即使我们可以挖掘发现方面上的评价信息诸如“价格”,但仍然不够充分,因为“便宜”对于不同评论者有着不同的价格标准。而且及时同一个评论者可能因为其他方面的条件因素的诉求高低不同,而对便宜产生的不同的标准。为了理解如此微妙的差别,十分有必要挖掘发现评价者每一方面的评价与总体评价之间的权重关系。
为了进行对评论的更深入具体的的理解,我们尝试来研究这种新颖的文本挖掘问题 (LARA).
LARA任务目的: 给定一个含有总体评价信息的评论数据集,LARA旨在分析每个评论在不同话题方面的评论信息,来挖掘个体用户在每一个方面上的评级,以及不同的方面的评级对于形成总体评级的权重大小。
LARA的广泛应用价值表现在:潜在方面的评级(aspect rating)可以用来进行面向方面的意见概述;每个方面的权重(aspect weight)可以方便于分析用户的评分行为;潜在方面评价与方面评分权重可以作为实体的个性化面向方面级别评估 – 通过汇集在对应方面具有相同权重的偏好的评论的评价信息。
现有的观点概括工作将 LARA 问题挖掘到一定程度,尚没有人在单个评论在方面层级上的潜在评价信息挖掘做过研究,也没有人考虑挖掘评论者在方面上的评级与总体评级间的权重关系。
在尝试解决这个新型文本挖掘时,我们提出一种基于新颖潜在评价
文档评论(0)