搜索引擎复制网页的算法.docVIP

下载本文档

0
0
约 3页
2015-08-15 发布于北京
举报
版权申诉

搜索引擎复制网页的算法.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索引擎复制网页的算法.doc

搜索引擎复制网页的算法首先，搜索引擎对所索引的所有网页进行页面净化和内部消重。任何一家搜索引擎在尚未进行复制网页判断这一操作之前都定然会有个网页净化和内部消重的过程。搜索引擎首先要清除噪音内容，对网页内部的广告、版权信息、共同的页眉页脚部分等进行净化，然后提取出该页面的主题以及和主题相关的内容，用以排名工作，噪音内容是不计入排名权重之中的。消重也差不多是这个意思，搜索引擎对其所收集的网页集里面主题相同或极端相似的，比如同一模板之中多次出现的共同代码，将其作为冗余内容，进行消除。我们可以这样理解，最理想的状态之下，一篇原创文章，搜索引擎仅将标题和内容计入排名之中，其他全部都消除。 DocView模型就是一个自动分类和消重的模型，当然，不是非常准确。大家可以简单了解一下，DocView模型包括网页表识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素，它通过提取DocView模型要素的方法应用在网页自动分类和网页消重之中。通过了解以上内容，我们就能大致明白，同一篇文章，为什么放到两个完全不同模板的站点之上，搜索引擎仍然能够正确识别出这是一个复制页面的原因了吧。其次，搜索引擎对净化的页面进行重复内容的判断。那么搜索引擎具体是如何判断复制页面的呢？以下内容是北大天网搜索引擎的去重算法，大部分来自对《搜索引擎——原理、技术与系统》相关知识的整理，大家可以自行参考相关文档。现有方法大致可以分为以下三类： 1、利用内容计算相似 2、结合内容和链接关系计算相似 3、结合内容，链接关系以及url文字进行相似计算现有绝大部分方法还是利用文本内容进行相似识别，其它两种利用链接关系以及URL文字的方法还不是很成熟，而且从效果看引入其它特征收效并不明显，所以从实际出发还是选择利用内容进行相似计算的算法。搜索引擎判断复制网页一般都基于这么一个思想：为每个网页计算出一组信息指纹（信息指纹，英文是Fingerprint，就是把网页里面正文信息，提取一定的信息，可以是关键字、词、句子或者段落及其在网页里面的权重等，对它进行加密，如MD5加密，从而形成的一个字符串。信息指纹如同人的指纹，只要内容不相同，信息指纹就不一样。搜索引擎在对爬取的网页建立索引的时候需要对重复内容的网页进行识别和消重，这就要用到信息指纹），若两个网页有一定数量相同的信息指纹，则认为这两个网页的内容重叠性很高，也就是说两个网页是内容复制的。注意一点，算法提取的信息不是针对整张网页，而是把网站里面共同的部分如导航条、logo、版权等这些网页的噪音信息过滤掉后剩下的文本。很多搜索引擎判断内容复制的方法都不太一样，主要是以下两点的不同： 1、计算信息指纹的算法； 2、判断信息指纹的相似程度的参数。搜索引擎判断复制网页一般都基于这么一个思想：为每个网页计算出一组信息指纹（Fingerprint），若两个网页有一定数量相同的信息指纹，则认为这两个网页的内容重叠性很高，也就是说两个网页是内容复制的。在描述具体的算法前，先说清楚两点： 1、什么是信息指纹？信息指纹就是把网页里面正文信息，提取一定的信息，可以是关键字、词、句子或者段落及其在网页里面的权重等，对它进行加密，如MD5加密，从而形成的一个字符串。信息指纹如同人的指纹，只要内容不相同，信息指纹就不一样。 2、算法提取的信息不是针对整张网页，而是把网站里面共同的部分如导航条、logo、版权等信息（这些称之为网页的“噪音”）过滤掉后剩下的文本。分段签名算法这种算法是按照一定的规则把网页切成N段，对每一段进行签名，形成每一段的信息指纹。如果这N个信息指纹里面有M个相同时（m是系统定义的阙值），则认为两者是复制网页。这种算法对于小规模的判断复制网页是很好的一种算法，但是对于像google这样海量的搜索引擎来说，算法的复杂度相当高。基于关键词的复制网页算法像google这类搜索引擎，他在抓取网页的时候都会记下以下网页信息： 1、网页中出现的关键词（中文分词技术）以及每个关键词的权重（关键词密度）； 2、提取meta descrīption或者每个网页的512个字节的有效文字。关于第2点，baidu和google有所不同，google是提取你的meta descrīption，如果没有查询关键字相关的512个字节，而百度是直接提取后者。这一点大家使用过的都有所体会。在以下算法描述中，[杭州电信宽带链接:] [PVPK30 链接:] [氯醋树脂链接:]我们约定几个信息指纹变量： Pi表示第i个网页；该网页权重最高的N个关键词构成集合Ti={t1,t2,...tn}，其对应的权重为Wi={w1,w2,...wi} 摘要信息用Des(Pi)表示，前n个关键词拼成的字符串用Con(Ti)表示，对这n个关键词排序后形