搜索引擎应对垃圾网页技术研究.docVIP

下载本文档

14
0
约6.79千字
约 13页
2018-09-10 发布于福建
举报
版权申诉

搜索引擎应对垃圾网页技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索引擎应对垃圾网页技术研究

搜索引擎应对垃圾网页技术研究　　摘要：介绍了常见的垃圾网页作弊方式。并对垃圾网页的识别方式进行了详细分析，包括基于网页内容的垃圾网页识别技术、基于链接结构来识别垃圾网页的TrustRank算法以及目前比较流行的用于垃圾页面识别的机器学习分类法。其中采用TrustRank算法与机器学习分类法来识别垃圾网页具有一定的通用性且具有与作弊方式无关的特性。最后提出了一些基于用户行为模式来识别垃圾网页的新思路。　　关键词：搜索引擎；垃圾网页；网页作弊方式；垃圾网页识别　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2015）26-0020-03 　　Research on the Technology of the Search Engine to Deal with the Web Spam 　　LI Chi，LI Lin 　　（Department of Computer Science and Software Engineering of Jincheng College， Sichuan University，Chengdu 611731， China）　　Abstract： Introduces the common cheating mode in the web spam. And the identification methods of web spam are analyzed in detail， including the identification method of web spam based on web content， TrustRank algorithm based on link structure to identify web spam and the more popular machine learning classification method used in web spam identification. The TrustRank algorithm and the machine learning classification method used in web spam identification have a certain commonality and have the character that has nothing to do with cheating mode. Finally put forward some new idea based on user behavior model to identify web spam. 　　Key words： search engine； web spam； web page cheating mode； web spam identification 　　通常我们找到一个网站的方式除了少量知名网站可以直接在浏览器地址栏中直接书写URL之外，还有一部分可能是通过导航网址或者收藏夹来访问，剩下的大部分网站实际上是通过搜索引擎找到的。另外，根据2006年所发布的《搜索引擎用户行为报告》[1]可知，大约88%的搜索引擎使用者只会浏览搜索引擎结果页面（ SearchEngine ResultsPage，SERP）的前三页。所以，对于网站的所有者来说，如何让自己的网站被搜索引擎搜到，并且排名前几页，从而带来大量的商机是需要极力力争的事情。原本网页内容质量越好，越受网民欢迎的页面就越应该排在搜索引擎结果页面的前面，但是有些网站则通过一些不道德的方式来手动或自动地制造一些网页，这些网页没有提供给用户任何有效的信息，仅仅是针对搜索引擎进行欺骗，就在搜索结果中获得了较高的排名，这种网页被称为垃圾网页[2]。　　垃圾网页的存在对用户、合法网站以及搜索引擎都会带来伤害。对用户来说需要找到其想要的有用资源，但是垃圾网页提供的是乱七八糟的内容，从而造成了严重的干扰，带来了极差的用户体验。对合法网站来说垃圾网页的内容质量比自己的差，而搜索排名反而在自己前面，这是极其不公平的。对搜索引擎来说，一方面垃圾网页带来的极差的用户体验会使其丢失一部分用户，另一方面垃圾网页会给搜索引擎公司造成资源浪费，因为网络爬虫在存储、判断、过滤和处理垃圾网页时会消耗大量的CPU、带宽、内存和磁盘资源[3]。所以，对垃圾网页的研究一直都是搜索引擎所要重点关注的问题。　　1 垃圾网页的作弊方式　　由于决定搜索引擎搜索排名的主要的两个因素是查询关键词与网页的相关度以及网页本身的重要程度。而前者由网页的内容决定，后者由网页的链接结构决定。所以我们可以将垃圾网页分为基于内容作弊的垃圾网页和基于链接