Web 2.0搜索引擎反作弊技术研究.docVIP

下载本文档

6
0
约3.94千字
约 7页
2017-03-13 发布于北京
举报
版权申诉

Web 2.0搜索引擎反作弊技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web 2.0搜索引擎反作弊技术研究.doc

Web 2.0搜索引擎反作弊技术研究摘要：概述Web 2.0的基本含义和主要特征，并分析在Web 2.0下常见的网页作弊方法，博客作弊、点评作弊、微博作弊和SNS作弊等，提出反作弊的3种模型――信任传播模型、不信任传播模型和异常发现模型。最后提出一个基于人工手段和技术手段相结合的综合搜索引擎反作弊框架系统。关键词：web 2.0；反作弊；搜索引擎中国分类号：TN919.5 文献标识码：A 文章编20130 引言 Web 2.0时代出现了大量以用户产生内容、内容分享与协作等为主的产品，如博客、图片分享网站、SNS网站以及现在很流行的微博等。针对大量的这些Web 2.0 网站，同时也出现了相应的Web 2.0作弊方法。本文详细分析了Web 2.0常见的作弊方法和相对应的反作弊技术。 1 Web 2.0描述 Web 2.0 是相对应Web 1.0 的新一类互联网应用的统称。对于Web 1.0，用户主要通过浏览器获取相关的信息，而Web 2.0则更加注重用户的交互作用，用户既是网站内容的发布者同时也是内容的浏览者。所以，在Web 2.0时代，用户从被动地接受互联网的信息向自动地创造互联网信息发展。Web 2.0的特征如下[14]。 1）众人参与。在Web 1.0 时代，网站的内容主要是由少数的编辑人员定制的，而在Web 2.0 里面，每个人都是内容的提供者。 2）以人为中心。在Web 2.0里面，信息是每个人贡献出来的，每个人都成为互联网信息的来源，因此可以说Web 2.0 里面人是灵魂。 3）Web 2.0 的元素。在Web 2.0里面包含了我们经常使用的服务，如博客、社区、分享服务和微博等。博客和微博是Web 2.0 里面十分重要的元素，因为它们打破了传统的门户网站的信息垄断。 4）更加个性化。Web 2.0 是对Web 1.0的信息来源的拓展，使其更加个性化和多样化。 2 Web 2.0 网页作弊方法 Web 2.0的以上特征和大量Web 2.0的网站的出现，使Web 2.0作弊方法层出不穷。只要操纵搜索引擎的搜索结果就能够带来收益，那么网页作弊的动机就一直存在，尤其在网络营销起着越来越重要的宣传作用的时代更是如此。 1）博客作弊。博客评论作弊、作弊博客和TrackBack作弊构成了常见的3种博客作弊。作弊博客是作弊者申请博客空间，而写作的博客内容是用来诱导搜索引擎转到希望提升排名的网站或者营销的网页，由于这种作弊手段成本较低，使之成为比较流行的作弊方式。博客评论作弊是博客主发布内容后，往往允许读者发布评论，有些作弊者利用这一点，在评论博客发布大量的推广产品的信息和链接。 2 ）点评作弊。目前很多网站允许商品使用者对所消费的商品或者服务做出评价，典型的例子是“淘宝网”和“京东网”等电子商务网站。这为作弊者打开了另外一条作弊通道：作弊者要么在评论里面加入与所评商品无关的广告或者链接，要么提供虚假的点评，比如对较差的产品给予较高的评价以此来打击竞争对手。 3） SNS作弊。随着Facebook和人人网等SNS平台的日益流行，在SNS平台上作弊也逐渐地发展起来。一种典型的SNS作弊手段是用户个人信息描述作弊。作弊者建立一个虚假的个人信息描述，在描述部分利用色情等信息吸引他人，并诱导其他用户点击其推广链接或者向一些用户群组发送广告信息等。 4 ）微博作弊。微博是个人信息发布平台，以信息发布及时性吸引大量的用户，象目前流行的新浪微博和腾讯微博等都拥有很大的用户群。作弊者也利用这些平台来作弊，一个十分典型的作弊方式是：作弊者大量关注他人微博，很多人出于礼貌也会将其加入关注者，在作弊者拥有一定量的关注者后，作弊者会发布广告信息，这些广告信息就会出现在其关注者阅读列表中，以达到营销的目的。 3 Web 2.0 搜索引擎反作弊技术如上所述，在Web 2.0时代，搜索引擎作弊手段层出不穷，作为应对方的搜索引擎，也应相应地调整技术思路，不断有针对性地提出反作弊技术方案，而纯粹的技术手段目前是无法彻底解决作弊问题的，所以本文提出了将人工手段和技术手段相结合的反作弊技术方案。从基本的思路看，本文将反作弊手段大致分为信任传播模型、不信任传播模型和异常发现模型。前2种模型可以进一步抽象成“链接分析”传播模型，核心思想是根据人工确定的白名单或者黑名单再由链接关系推导出其他网页是否有问题[5]。异常发现模型也是一个高度抽象的算法框架模型，核心思想是作弊网页必定有异于正常网页的特征，制定具体的算法流程找到一些作弊的网页集合，分析出异常特征，然后利用这些异常特征来识别作弊网页。 3.1 信任传播模型图1给出了信任传播模型的示意图。基本思路：在海量的网页数据中，通过人工或者一定的技术手段筛选出一定