垃圾评论检测算法.ppt

下载文档 降价啦

31
0
约2.1千字
约 28页
2017-08-15 发布于天津
举报
版权申诉
保障服务

垃圾评论检测算法.ppt

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

垃圾评论检测算法

不太可能！这些SR都是诚实可信的评论吗？ Singleton reviews 0 + 每个评论者ID对每个商店只发表一次评论一个人可注册多个ID进行评论 Reviewer id Store SR 非SR + 垃圾评论者注册 0 普通评论者评论者ID 商店提出方法 SR评论产生的动机: 在短时间内提高店铺的评分并避免被发现相关现象: 在短时间内，大量评论者仅撰写一条评论，并给店铺很高的评分(例如满分) 店铺评分和SR评论数是识别SR评论的关键特征 5 The algorithm 1 3 2 4 5 5 4 1 3 2 average rating: 2 review volume: 3 SR volume: 1/3 average rating: 4.6 review volume: 5 SR volume: 5/5 average rating: 2 review volume: 3 SR volume: 3/3 sorted by posting time; divided into groups Multi-dimensional time series the correlated burst 基于多个时间序列检测异常的方法 1.构建时间序列该检测方法基于三种时间序列：评论数目、平均评分和SR所占比率每个店铺s都有一个按评论发表时间升序排列的评论序列其中rns为店铺s的第n个评论，tns为第n个评论发表的时间基于多个时间序列检测异常的方法选定时间窗口大小，记为△t 研究的时间间隔记为[t0,t0+T],那么要研究的时间间隔可分为N=T/△t个用In表示第n个时间窗口，则基于多个时间序列检测异常的方法对于一个给定的时间窗口In，定义f1为平均评分，f2为评论个数，f3为SR所占比率，那么三者分别为：基于多个时间序列检测异常的方法对于给定的店铺s，时间间隔I=[t0,t0+T],时间窗口△t，可以得到一个聚合函数用以表示一个三维的时间序列，表示如下：其中，fi(n)即为fi(In) 多维时间序列中联合异常模式检测通过前面得到的一个店铺s的三维时间序列，寻找在三个序列中同时出现的异常块，也就是说这个异常块所对应的的三个时间序列应同时出现评分，评论数和SR比率的突然升高或下降。本文中仅讨论升高的情况，下降的情况相似，不再讨论。多维时间序列中联合异常模式检测本文使用三步法检测异常情况。在每个时间序列上，使用贝叶斯变化点检测算法作出平滑曲线在曲线上使用简单模版匹配算法检测突发现象一个滑动窗口在所有时间序列上找到同时发生突发现象的时间块，即该时间块所对应的的三个时间序列应同时出现评分，评论数和SR比率的突然升高或下降多维时间序列中联合异常模式检测多维时间序列中联合异常模式检测作出曲线后，首先检测每个曲线中各自发生的曲线突然升高的现象。可以将该问题转换为模版匹配问题。具体方法如下：我们使用一个模版来表示突然升高的现象，本文中使用模拟突然升高的情况。如果在曲线中的某一块被发现符合v，那么就认为在该曲线中发现了异常的突然升高的现象。单个时间序列中突发检测算法 LCS算法多维时间序列中联合异常模式检测具有分层机构的垃圾SR检测实验用数据集实验结果1 实验结果2 实验结果3 the end The modified longest common substring(LCS) BACK Review Spam Detection via Temporal Pattern Discovery Sihong Xie, Guan Wang, Shuyang Lin, Philip S. Yu Department of Computer Science University of Illinois at Chicago 什么是垃圾评论发表于评论网站以达到为不好的产品或店面制造积极印象的目的，并最终从受到垃圾评论误导的消费者身上赚取利润。危害性：导致消费者经历较差的购物体验，并会给正规店铺带来危害应该有一种方法识别垃圾评论，但目前依靠机器识别垃圾评论有困难。垃圾邮件语言特点充满溢美之词只字不提产品 Red flag words 多次提及具体的商家名称机器处理困难: 包含有自然语言处理过程机器易识别的垃圾评论线索在短时间内对同一件产品有相似的评论 (内容、评分) 机器易识别的垃圾评论线索一组发表垃圾评论的人：对于同样的一组产品或者店铺同时地频繁地发表相同的评论 Reviewer 1 Reviewer 2 Reviewer 3 如果相同的ID对同一件商品发表的评论过多，那么很容易被发现在发表垃圾评论在现实的