- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一直以来,贴吧反spam主要做三项事情:
广告反spam
反爆吧、挖坟
黄反、敏感信息与在线相关的人工审核配套工作
目前的效果是:
线上Spam 贴存活率下降到3%以下,并保持5%以下的低位已经有3 个季度;新发主题贴
Spam贴子比例下降到20%以下,并保持此数据有3个季度;机器删贴率保持在65%以上。
爆吧、挖坟已基本妥善控制,取得了很明显的效果,整个暑假均没有发生爆吧以后处理不过
来的情况,且机器处理率均高于人工处理率。
贴吧反spam工作方法,主要从发现问题,分析问题,解决问题,综合把握方向,4个方面
介绍。
1. 发现问题
以spam问题为导向
全面掌握spam情况,找出主要问题
面对一个产品的spam 问题,首先应从基础数据入手,全面的掌握spam 问题的类型、
比例情况,最有效的办法是:大量的基础数据标注。这个办法好处非常多,除了能掌握主要
......
问题和全面的情况外,还能对spam的贴子有亲生的体会,了解spamer在想什么,管用的伎
俩有哪些,找出很多典型的例子。
在贴吧最基础的数据就是贴子,把握问题的办法是,大数量的贴子spam类型标注。例
如:在07年3月,首先进行了1万个贴子的贴吧spam 问题普查,摸清了占据60%比例的
spam问题,前三位的类型分别是:URL/QQ/TEL,获得结论是:贴子内容中直接含有spam
特征的贴子是当前贴吧最主要的问题。
贴吧大量基础数据标注工作,也演变成贴吧目前的2个机制:每3个星期一次的反spam
周报调研和每季度一次的大型数据调研。
保持发现问题的敏感性,把握spam流行趋势
大型的数据调研有一定的周期性,获得的结论一般关注的是主要问题,由于spam 问题
有着很强的时效性,反spam系统一旦出现漏洞,某一类之前可能比例较小的spam 问题也
很容易泛滥起来,因此保持敏感性,把握流行趋势很重要。在贴吧中方法是:
① 关注spam收益高的高危贴吧;
例如:在07年11月在贴吧所有的地区类贴吧,爆发了引用空间相册图片的小车广告类
的spam,迅速占领每个地区类贴吧的前5页,问题非常严重。在解决完该问题后,贴吧反
spam建立了高危贴吧巡查机制,及时掌握spam问题流行趋势。
② 注意用户反馈;
任何监控和机制,总免不了有疏漏,为了使贴吧反spam 发现机制更加完善有效,我们
也非常注意用户关于spam 问题的投诉、反馈,用户深恶痛绝的spam 问题,往往也是危害
大,容易流行起来的问题。反面例子:08 年初吉林市吧吧主,因为小车类广告和爆吧问题
对吉林吧连续的侵扰,不堪重负,录制了视频传到贴子中,愤而辞职,贴吧反spam小组的
同学,看到后惋惜的同时倍感压力,分析案例后发现,这个吧主不止一次的投诉过这个问题,
这2类spam问题也是当前的流行问题,我们都没有关注到。
2. 分析问题
1
一个产品中出现的spam 行为,也可以看成是一种用户需求,例如:热点事件出现争议
的时候贴吧中爆吧、挖坟问题频出;明星贴吧中机器盖楼的行为,当然这些用户需求是不正
常的,都是以伤害绝大多数用户体验为代价,满足小部分人的需求。反spam中,分析问题
最主要的目的,就是把这些一小撮害群之马的行为从绝大多数正常行为中,抽象化、规律化、
用机器能执行的语言分离出来,最终变成反spam策略解决掉。主要方法是:
找碴,找不同
找出spam行为与正常行为比较,机器最容易区别的,spamer变化成本高的不同点。贴
吧反spam小组一开始就明确定义了什么是反spam,时刻根据这个定义区别出spam行为。
例 1:用户A和用户B都发了URL 的贴子,如果用户B发URL贴子发的又多又快,
那么他就有spam嫌疑;如果用户B注册时间短,一直发URL贴子,那么他就有嫌疑;
例2:用户A和用户B都发了较多的URL贴子,如果用户B发的URL 以赢利为目的,
那么他就是在spam;
分析Spam问题的三个大方向
① 内容;spam行为都是以获利为目的的,在贴吧spam,最终spamer都是要把用户、流量
导入到目标网站,一般都会在内容中留下spam特征。
② 行为;凡是spam 能获利的地方,spamer都希望更快更多的获利,这就注定了spam行
为一定会走发的多发的快的路线,一定会跟正常用户有区别。
③ Spam 贴子周边信息,包括:发贴作者注册时间、作者等级(新用户、平民、会员、吧
务团
原创力文档


文档评论(0)