搜索引擎反作弊的三个思路.docxVIP

下载本文档

2
0
约1.28千字
约 4页
2017-08-26 发布于重庆
举报

搜索引擎反作弊的三个思路.docx

搜索引擎反作弊的三个思路

搜索引擎反作弊的三个思路概念介绍：内容农场是一种在过去18个月里在互联网上兴起的事物，是一种用大量标题、关键词以及其他伎俩诱骗互联网用户进去看广告的“新闻网站”。这些网站使用玩弄Google排名系统的方式干扰并羞辱了Google。内容农场英文名称为“contentfarm”，通常是指专门使用软件进行制作大量的垃圾内容获取用户点击。于是，网友搜索引擎就容易找得到。内容农场的核心是“发布各种写作话题”，这个环节不是拍脑袋的。根据自行发明的一套算法，来评估两样东西：其一，什么是当前网络话题热点；其二，什么样的关键字更容易带来高广告收入。这两样东西，说白了，就是这个“按需媒体”的两个需。链接农场，其涵义是指有人将网站做成了一个养殖场，专门用于搜集网站和交换链接提升PageRank（pr值），而没有或很少有实质性的对用户有用的内容。链接养殖场通常来者不拒，而且这些被搜集的网站通常是互不相关的。链接农场是一种被搜索引擎禁止的作弊方式，在正规的SEO中不论制作或者介入链接工厂，都会受到惩罚。搜索引擎如何反作弊？内容农场与链接农场，这些都是相对较为传统的作弊方式（针对搜索引擎的一种作弊方式）。既然有作弊，为了维持良好的展现结果，搜索引擎也就会有反作弊。那么，搜索引擎会通过怎样的方式进行反作弊处理呢？总的来说，会有以下三种思路：1、信任传播模型前段时间同事A跟我说了一件事儿，他的姐姐B在国外留学，然后一天B在qq上跟A说洗衣服把手机，银行卡什么的全部洗了，让A给B的老妈打电话寄点钱来，A立刻执行，B的老妈也深信不疑，在即将打出的那一刻，B的一个电话，挽救了即将发生的损失。其实，这也是一个信任传播模型，直接在QQ上跟B的妈妈说，B的妈妈必然不会完全相信，但是经由A的口一传，就立刻不一般。因为，A在B的妈妈的信任名单中。OK，由此而来，就是一种反作弊的思路。在海量的网页数据中，通过技术或人工的手段，获取值得完全值得信任的网页设置为白名单。白名单中网页的信任值由链接顺着向外扩散而递减或者衰减。然后，设定一个值，高于此值，是OK的网页，低于此值，不好意思，你作弊了。2、不信任传播模型这个，其实跟第一种思路是及其类似的，找到一群作弊的网页，然后通过链接关系分析不信任分值。唯一一点需要注意的是，信任分值，是通过链接正向传递的，不信任分值是通过链接反向传递的。举个例子：A为垃圾页面，则指向A的链接B是垃圾页面的概率比A指向的链接C的概率要大的多。3、异常发现模型所谓异常，可以是作弊页面的特征，也可以是正常页面的特征。集合了这些特征，再由此来判定一个页面是否作弊或者是否正常，也是蛮OK的一件事情。来个简单的识别链接农场的小例子：链接农场中的链接关系，是由设计者精心布置的，由此一来，必然会有些违背自然的特征，诸如：1）、出链与入链的统计分布规律：正常的页面出链与入链满足Power-law分布，作弊的链接违反该分布；2）、作弊的链接的Url网址往往过长，包含较多的点画线及数字等；3）、诸如入链及出链的增长率等，正常网页和作弊网页在这些变化模式上是不同的。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

搜索引擎反作弊的三个思路.docxVIP