- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向产品的虚假评论识别
随着网上购物成为一种最重要的日常购物方式,产品评论成为了用户是否购买卖家产品的重要依据,因而对虚假评论的识别具有重要意义。本文基于虚假评论和真实评论在情感极性上的差异,定义了8个特征并利用随机初值的局部搜索法、模拟退火法两种启发式算法进行特征选择,再通过两种聚类算法对虚假评论进行识别。最后通过对构造出的数据集进行实验,验证了算法的有效性。
【?P键词】虚假评论 情感极性 启发式算法 聚类
1 引言
互联网的发展极大地影响了人们的生活方式和消费观念,网购越来越受到消费者的欢迎。由于人货分离,消费者在消费前需要大量的信息作为参考,面向产品的评论是其中重要的一环。在现实利益的驱动下,垃圾评论快速“滋生”,特别是产品评论数量呈爆炸性趋势增长,人为地辨别垃圾评论已不切实际,因此,研究出一种能够识别和过滤垃圾评论的方法具有重要的现实意义。
2 相关工作
国内外的研究者们在博客和邮件领域的垃圾评论方面做了大量工作,取得了一定的成果,但对于产品虚假评论的识别依然困难重重。
文献[1]首次定义了三种类型的垃圾评论以及基于产品、评论内容以及评论者三类评论特征,建立Logistic回归模型进行识别。但这种方法对于虚假评论识别效果不佳。文献[2]开发了第一个识别虚假评论的“黄金”数据集,利用文本分类技术来对虚假评论进行识别。文献[3]提出通过用户所给的评价等级来识别垃圾评论制造者的方法,用计算机所得分值进行排名,从数据集中移除分值较高的评论者及其评论。文献[4]从互联网获取产品评论集,并进行手工标注的数据集训练分类器来识别虚假评论。以上方法由于人的主观因素难以确定合适的标准,使数据集中存在过多的错误标注。文献[5]现利用对评论文本进行上下文无关文法的特征建模有助于提高识别的正确率。文献[6]利用F统计量改进K均值算法,在实现评论集的自适应聚类后计算每个簇偏离的程度,从而实现对虚假评论的识别。
本文创新性地提出采用评论文本的语言结构和情感极性上的差异来定义特征,使用随机初值的局部搜索法、模拟退火法进行特征选择,然后利用聚类算法来识别虚假评论。
3 数据集
当前阻碍虚假评论研究发展的一个重要因素是缺少评估检测算法的标注数据集,为了获得可靠的已标注数据集,我们选择了西安市2家日化店,进行人工构造,具体构造方式如下:
3.1 虚假评论
虚假评论是人工无法直接从评论集中有效识别出的,故我们进行人工构造虚假评论。在10天内,我们要求周边市民(并未实际购买产品)写下正面积极、有利于产品售出的评价,共收集到300条虚假评价。
3.2 真实评论
2个月内,我们共获得437条真实的用户评论。由于评价质量良莠不齐,我们制定了一些约束条件对这437条评论进行过滤处理,与虚假评论平衡,保持长度分布一致,最终保留300条真实评论。
我们将这300条真实评论与300条虚假评论构成本文所需的数据集。
4 特征工程
根据现有对特征定义和构建的方法研究,并结合用户语言心理学知识、文本的语言结构及情感极性的分析,本文总结了以下8个特征。
4.1 特征定义
4.1.1 词汇量
虚假评论者会大肆赞美产品,使评论冗长,而真实评论言简意赅。故词汇量越大,评论真实度越低,由此定义词汇量为评论中词汇的数量。
4.1.2 修饰度
丰富的词汇种类可以用来表达用户的情感,虚假评论者使用的词汇种类少于真实评论者使用的词汇种类。为了便于统计,本文定义形容词与副词与总词汇量的比值为修饰度,修饰度越高,真实性越大。
4.1.3 人称代词词频
第一人称代词可以增加评论的真实度以及亲切感,在无亲身体验的虚假评论中,它被更多地使用。本文定义第一人称代词数量占总词汇量的比值为人称代词词频。
4.1.4 产品提及度
定义产品提及度为产品各种属性相关的词汇量占总词汇量的比值。虚假评论会更多地提及产品的品牌以及相关属性以增加评论可信度,故产品提及度越高,该评论为虚假评论可能性越大。
4.1.5 正面情感
为了强调产品的正面性,虚假评论中能表现正面情感的词汇较多。定义正面词汇(利用正面情感词典)数量占总词汇数的比值代表正面情感。
4.1.6 负面情感
与正面情感相似,虚假评论者会为了赞美产品而尽量不使用负面情感词汇。定义负面词汇(利用负面情感词典)数量占总词汇数的比值代表负面情感。
4.1.7 极端评分
虚假评论者会为了提高产品的正面性而给出极端的评分(数据集中评分满分为5分),设定5分为极端评分赋值为1,其他评分为0。
4.1.8 评分偏差
虚假评论者缺少真实的用户体验,所给出的评分常与平均评分有较大偏
文档评论(0)