搜索引擎反作弊方法研究.docVIP

下载本文档

3
0
约2.66万字
约 6页
2017-03-21 发布于贵州
举报
版权申诉

搜索引擎反作弊方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索引擎反作弊方法研究

搜索引擎反作弊方法研究搜索引擎反作弊方法研究搜索引擎通过提取网页中主要信息进行索引构建，用户的检索请求提交给搜索引擎后，搜索引擎通过索引系统筛选出符合条件的待选集，然后根据内部的排序算法对待选集进行排序输出。网站的盈利模式主要通过流量，网站流量越大意味着网站可以拉到更到广告投放从而实现大面积盈利。因此存在一些网站站长为了提高自身网站的流量进行作弊，通过非正常的手段来提升自身网站搜索引擎内部的排名，搜索引擎出于公平性的考虑保证排名的合理性需要对网站站长这些作弊行为进行检测并极大程度上降低因作弊行为而导致的排名不正确性。搜索引擎的排名的依据很大程度上依赖于用户的输入字符串和网站内容的匹配程度，网站站长在自身网站上堆砌大量的关键词从而期望提高网站的排名，实际诸如此类的关键词堆砌没有实际的含义，甚至和网站内容无任何关联，这极大的拉低了网站本身的质量，搜索引擎在内容识别时需要识别当前是否存在无关关键词的大量无关使用，对此类作弊行为需要打压查询字符串和网站本身内容之间的相似度。另外还有如链接作弊等，本文主要就网站作弊中常用手段进行分析，阐释搜索引擎反作弊中常用手段。 1 搜索引擎排序策略搜索引擎排序中常用的做法是LTR 算法，LTR算法是一种机器学习算法，它在传统相似度算法的基础上融合多种排序时的相关特征进行排序学习，LTR算法如图1所示。LTR是一种基于有规则性的学习监督排序方法。LTR已经在诸多领域有着大量的应用，以文本挖掘领域为例，搜索引擎的返回结果排序、IR中召回文档的排序、推荐系统中对候选商品的选择以及机器翻译中文字的顺序等。早期的信息检索系统在排序时方法比较单一，通常按照用户检索字符串和网页内容的匹配度来排序，这样在很大程度上只能采用单一的相似度计算方式，实际上有多种因素会影响排序的效果，如经典的 TF-IDF， DL等，VSM和布尔模型都可以完成这些功能，这些传统的排序方式是无法融入多种排序因素，假设用向量空间模型来表征对象，向量空间模型中各个维度以TF-IDF来计算权值，相应的无法再利用其他额外的信息了，如果模型参数过多对模型本身的参数调节也是一个很大的挑战，参数过多也会导致过拟合和现象。则自然地联想到采用机器学习的手段来解决上述的问题，于是就产生了LTR。机器学习很容易拟合多种特征来进行模型训练，而且具有非常丰厚的理论基础，有着成熟的理论和技术来解决稀疏和过拟合的问题。模型训练的过程实际上一个参数学习的过程，选定合理的真实数据作为训练数据集合，对于特定的模型，选择合适的损失函数，通过对损失函数进行优化可以得到当前模型下最优的参数，这即是模型训练的过程，预测的过程即将需要预测的数据作为输入数据传入到模型得到模型预测分，利用该结果分即可进行相关的排序分析。 LTR一般说来有三类方法：单文档方法，文档对方法，文档列表方法。网站作弊行为网站站长通过排序作弊的方式来提高自身网站的排名，作弊的方式主要有以下几类： · 增加目标作弊词词频来影响排名； · 增加主题无关内容或者热门查询吸引流量； · 关键位置插入目标作弊词影响排名；详细来说，可以分为如下几种方式： 2.1关键词重复关键词重复是作弊中常用的手段，通过设置大量的关键词在网站中。关键词的词频信息是排序时重要的排序因子，关键词重复的本质就是通过关键词的词频来影响网站在展现时的排列顺序。 2.2无关查询词作弊为了提高网站在搜索时的展本文由论文联盟http://www.LWlm.COM收集整理现次数，尽可能多的通过增加关键词来提高和用户搜索时的匹配度，作弊时增加很多和当前网站页面主题无关的关键词也是一种词频作弊，即将原来词频为0的单词词频增加为词频大于等于1，通过提高来搜索时的匹配度来吸引流量。有些网站站长则会在网页的末尾处以隐藏的方式加入一些关键词表，也有一些作弊者在正文内容中插入一些热搜词。更有甚者，有些网站页面的内容完全是采用机器的方式生成毫无阅读性可言。 2.3图片alt标签文本作弊 alt标签作为图片的描述信息，通常不会在用户浏览网页时展示，当用户鼠标点选获得焦点时才会展示，搜索引擎会利用这一信息进行分析，因此部分网站作弊人员会利用这一信息用关键词进行填充，从而达到吸引流量的目的。 2.4网页标题作弊网页本身的标题信息作为网站内容的重要的组成部分，对于判断一个网页的主题具有非常重要的意义，搜索引擎在计算相似度时增大这一部分的比例，作弊作者会利用这一特点，将与网站无关的关键词堆砌在网站标题处达到作弊的行为。反作弊研究搜索引擎作弊手段五花八门，层出不穷，但是从最根本的作弊技术进行分析，还有能够发现一些共通的内容。从基本的思路角度，可以将反作弊手段大致划分为以下三种：“信任传播模型”、“不信任传播模型”和“异常发现模型”。其中前两种技术模型可以进