搜索引擎反作弊的三个思路.docxVIP

  • 2
  • 0
  • 约1.28千字
  • 约 4页
  • 2017-08-26 发布于重庆
  • 举报
搜索引擎反作弊的三个思路

搜索引擎反作弊的三个思路概念介绍:内容农场是一种在过去18个月里在互联网上兴起的事物,是一种用大量标题、关键词以及其他伎俩诱骗互联网用户进去看广告的“新闻网站”。这些网站使用玩弄Google排名系统的方式干扰并羞辱了Google。内容农场英文名称为“contentfarm”,通常是指专门使用软件进行制作大量的垃圾内容获取用户点击。于是,网友搜索引擎就容易找得到。 内容农场的核心是“发布各种写作话题”,这个环节不是拍脑袋的。根据自行发明的一套算法,来评估两样东西:其一,什么是当前网络话题热点;其二,什么样的关键字更容易带来高广告收入。这两样东西,说白了,就是这个“按需媒体”的两个需。链接农场,其涵义是指有人将网站做成了一个养殖场,专门用于搜集网站和交换链接提升PageRank(pr值),而没有或很少有实质性的对用户有用的内容。链接养殖场通常来者不拒,而且这些被搜集的网站通常是互不相关的。链接农场是一种被搜索引擎禁止的作弊方式,在正规的SEO中不论制作或者介入链接工厂,都会受到惩罚。搜索引擎如何反作弊?内容农场与链接农场,这些都是相对较为传统的作弊方式(针对搜索引擎的一种作弊方式)。既然有作弊,为了维持良好的展现结果,搜索引擎也就会有反作弊。那么,搜索引擎会通过怎样的方式进行反作弊处理呢?总的来说,会有以下三种思路:1、信任传播模型前段时间同事A跟我说了一件事儿,他的姐姐B在国外留学,然后一天B在qq上跟A说洗衣服把手机,银行卡什么的全部洗了,让A给B的老妈打电话寄点钱来,A立刻执行,B的老妈也深信不疑,在即将打出的那一刻,B的一个电话,挽救了即将发生的损失。其实,这也是一个信任传播模型,直接在QQ上跟B的妈妈说,B的妈妈必然不会完全相信,但是经由A的口一传,就立刻不一般。因为,A在B的妈妈的信任名单中。OK,由此而来,就是一种反作弊的思路。在海量的网页数据中,通过技术或人工的手段,获取值得完全值得信任的网页设置为白名单。白名单中网页的信任值由链接顺着向外扩散而递减或者衰减。然后,设定一个值,高于此值,是OK的网页,低于此值,不好意思,你作弊了。2、不信任传播模型这个,其实跟第一种思路是及其类似的,找到一群作弊的网页,然后通过链接关系分析不信任分值。唯一一点需要注意的是,信任分值,是通过链接正向传递的,不信任分值是通过链接反向传递的。举个例子:A为垃圾页面,则指向A的链接B是垃圾页面的概率比A指向的链接C的概率要大的多。3、异常发现模型所谓异常,可以是作弊页面的特征,也可以是正常页面的特征。集合了这些特征,再由此来判定一个页面是否作弊或者是否正常,也是蛮OK的一件事情。来个简单的识别链接农场的小例子:链接农场中的链接关系,是由设计者精心布置的,由此一来,必然会有些违背自然的特征,诸如:1)、出链与入链的统计分布规律:正常的页面出链与入链满足Power-law分布,作弊的链接违反该分布;2)、作弊的链接的Url网址往往过长,包含较多的点画线及数字等;3)、诸如入链及出链的增长率等,正常网页和作弊网页在这些变化模式上是不同的。

文档评论(0)

1亿VIP精品文档

相关文档