网页排重算法-信息指纹算法.docx

下载文档 降价啦

0
0
约4.03千字
约 9页
2020-12-21 发布于天津
举报
版权申诉
保障服务

网页排重算法-信息指纹算法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网页排重算法－信息指纹算法信息指纹算法判断重复网页的思想：为每个网页计算出一组信息指纹 ( Fingerprint )，若两个网页有一定数量相同的信息指纹，则认为这两个网页的内容重叠性很高，也就是说两个网页是内容复制的。判断内容复制的方法中最关键的两点： 1、计算信息指纹( Fingerprint )的算法； 2、判断信息指纹的相似程度的参数。信息指纹就是提取网页正文信息的特征，通常是一组词或者一组词 +权重，然后根据这组词调用特别的算法，例如 MD5将之转化为一组代码，这组代码就成为标识这个信息的指纹。从理论上讲，每两个不同文本的特征信息是不同的，那么得到的代码也应该是不一样的，就象人的指纹。得到预处理后的网页，然后对网页进行向量化处理，简单的讲就是分词，统计，并按照词频生成一个列表 . 例如：网页 12 搜索 10 引擎 7 然后取前N个关键词作为信息的矢量，例如：［网页12搜索10引擎7］这是可以直接进行MD5合系，或者按照其它规则进行重排后进行MD5哈系。例如本例，取前3个关键词，在进行哈系，得到的信息指纹就是： a7eb9d92a83cf438881915e0bc2df70b。这样 a7eb9d92a83cf438881915e0bc2df70b 就作为本文档的指纹和以往的文档进行比较，如果有相同的，就说明指纹上看是一样的，就可以进入消重处理。至于关键词的权重，因为有众多的提取算法，比较常用的是 nf/df 。分段签名算法这种算法是按照一定的规则把网页切成 N段，对每一段进行签名，形成每一段的信息指纹。如果这 N个信息指纹里面有M个相同时（M 是系统定义的阈值），则认为两者是复制网页。这种算法对于小规模的判断复制网页是很好的一种算法，但是对于像 google 这样海量的搜索引擎来说，算法的复杂度相当高。基于关键词的复制网页算法像 google 这类搜索引擎，他在抓取网页的时候都会记下以下网页信息： 1、网页中出现的关键词（中文分词技术）以及每个关键词的权重（关键词密度）； 2、提取meta descr i ption或者每个网页的512个字节的有效文字。关于第 2 点， baidu 和 google 有所不同， google 是提取 meta descr 1 ption ,没有查询关键字相关的512个字节，而百度是直接提取后者。在以下算法描述中，首先约定几个信息指纹变量： Pi 表示第 i 个网页；该网页权重最高的N个关键词构成集合Ti={t1,t2,...tn} ，其对应的权重为 Wi={w1,w2,...wn} 摘要信息用 Des(Pi) 表示，前 n 个关键词拼成的字符串用 Con(Ti) 表示，对这 n 个关键词排序后形成的字符串用 Sort(Ti) 表示。以上信息指纹都用MD5函数进行加密。基于关键词的复制网页算法有以下 5 种： 1、 MD5(Des(Pi))=MD5(Des(Pj)), 就是说摘要信息完全一样， i 和 j 两个网页就认为是复制网页； 2、 MD5(Con(Ti))二MD5(Con(Tj)),两个网页前n个关键词及其权重的排序一样，就认为是复制网页； 3、 MD5(Sort(Ti))=MD5(Sort(Tj)), 两个网页前n个关键词一样，权重可以不一样，也认为是复制网页。 4、 MD5(Con(Ti))二MD5(Con(Tj))并且 Wi-Wj 的平方除以 Wi 和 Wj 的平方之和小于某个阙值a，则认为两者是复制网页。 5、 MD5(Sort(Ti))=MD5(Sort(Tj)) 并且 Wi-Wj 的平方除以 Wi 和 Wj 的平方之和小于某个阙值a，则认为两者是复制网页。关于第4和第5的那个阈值a,主要是因为前一个判断条件下，还是会有很多内容部分相同的网页被认为相同而被排除掉，因此要根据权重的分布比例调节 a 的大小。以上5种算法运行的时候，算法的效果取决于 N,就是关键词数目的选取。选的数量越多，判断就会越精确，但是随之而来的计算速度也会减慢下来。所以必须考虑一个计算速度和去重准确率的平衡。据天网试验结果， 10 个左右关键词最恰当。 1.4 随机映射 (Random Projection) 算法：先给每个词语 (Token) 生成随机的特征向量，保存为一个集合，然后对网页正文进行分词，得到一系列的词语，从词语的特征向量集合中取出这些词语的特征向量 (如果词语不在在集合中，那么给词语生成一个随机的特征向量，将其加入集合 ) ，将这些特征向量按位进行一个特殊的加运算，最后得到网页的特征向量。判断两个网页是否具有相似或重复内容就可以通过判断它们特征向量