垃圾评论检测算法.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垃圾评论检测算法

不太可能! 这些SR都是诚实可信的评论吗? Singleton reviews 0 + 每个评论者ID对每个商店只发表一次评论 一个人可注册多个ID进行评论 Reviewer id Store SR 非SR + 垃圾评论者 注册 0 普通评论者 评论者ID 商店 提出方法 SR评论产生的动机: 在短时间内提高店铺的评分并避免被发现 相关现象: 在短时间内,大量评论者仅撰写一条评论,并给店铺很高的评分(例如满分) 店铺评分和SR评论数是识别SR评论的关键特征 5 The algorithm 1 3 2 4 5 5 4 1 3 2 average rating: 2 review volume: 3 SR volume: 1/3 average rating: 4.6 review volume: 5 SR volume: 5/5 average rating: 2 review volume: 3 SR volume: 3/3 sorted by posting time; divided into groups Multi-dimensional time series the correlated burst 基于多个时间序列检测异常的方法 1.构建时间序列 该检测方法基于三种时间序列:评论数目、平均评分和SR所占比率 每个店铺s都有一个按评论发表时间升序排列的评论序列 其中rns为店铺s的第n个评论,tns为第n个评论发表的时间 基于多个时间序列检测异常的方法 选定时间窗口大小,记为△t 研究的时间间隔记为[t0,t0+T],那么要研究的时间间隔可分为N=T/△t个 用In表示第n个时间窗口,则 基于多个时间序列检测异常的方法 对于一个给定的时间窗口In,定义f1为平均评分,f2为评论个数,f3为SR所占比率,那么三者分别为: 基于多个时间序列检测异常的方法 对于给定的店铺s,时间间隔I=[t0,t0+T],时间窗口△t,可以得到一个聚合函数用以表示一个三维的时间序列,表示如下: 其中,fi(n)即为fi(In) 多维时间序列中联合异常模式检测 通过前面得到的一个店铺s的三维时间序列,寻找在三个序列中同时出现的异常块,也就是说这个异常块所对应的的三个时间序列应同时出现评分,评论数和SR比率的突然升高或下降。本文中仅讨论升高的情况,下降的情况相似,不再讨论。 多维时间序列中联合异常模式检测 本文使用三步法检测异常情况。 在每个时间序列上,使用贝叶斯变化点检测算法作出平滑曲线 在曲线上使用简单模版匹配算法检测突发现象 一个滑动窗口在所有时间序列上找到同时发生突发现象的时间块,即该时间块所对应的的三个时间序列应同时出现评分,评论数和SR比率的突然升高或下降 多维时间序列中联合异常模式检测 多维时间序列中联合异常模式检测 作出曲线后,首先检测每个曲线中各自发生的曲线突然升高的现象。可以将该问题转换为模版匹配问题。具体方法如下: 我们使用一个模版来表示突然升高的现象,本文中使用 模拟突然升高的情况。如果在曲线中的某一块被发现符合v,那么就认为在该曲线中发现了异常的突然升高的现象。 单个时间序列中突发检测算法 LCS算法 多维时间序列中联合异常模式检测 具有分层机构的垃圾SR检测 实验用数据集 实验结果1 实验结果2 实验结果3 the end The modified longest common substring(LCS) BACK Review Spam Detection via Temporal Pattern Discovery Sihong Xie, Guan Wang, Shuyang Lin, Philip S. Yu Department of Computer Science University of Illinois at Chicago 什么是垃圾评论 发表于评论网站以达到为不好的产品或店面制造积极印象的目的,并最终从受到垃圾评论误导的消费者身上赚取利润。 危害性:导致消费者经历较差的购物体验,并会给正规店铺带来危害 应该有一种方法识别垃圾评论,但目前依靠机器识别垃圾评论有困难。 垃圾邮件语言特点 充满溢美之词 只字不提产品 Red flag words 多次提及具体的商家名称 机器处理困难: 包含有自然语言处理过程 机器易识别的垃圾评论线索 在短时间内对同一件产品有相似的评论 (内容、评分) 机器易识别的垃圾评论线索 一组发表垃圾评论的人: 对于同样的一组产品或者店铺同时地频繁地发表相同的评论 Reviewer 1 Reviewer 2 Reviewer 3 如果相同的ID对同一件商品发表的评论过多,那么很容易被发现在发表垃圾评论 在现实的

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档