网页排重算法-信息指纹算法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网页排重算法-信息指纹算法 信息指纹算法 判断重复网页的思想:为每个网页计算出一组信息指纹 ( Fingerprint ),若两个网页有一定数量相同的信息指纹,则认为 这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。 判断内容复制的方法中最关键的两点: 1、计算信息指纹( Fingerprint )的算法; 2、判断信息指纹的相似程度的参数。 信息指纹就是提取网页正文信息的特征, 通常是一组词或者一组词 +权重,然后根据这组词调用特别的算法,例如 MD5将之转化为一 组代码,这组代码就成为标识这个信息的指纹。从理论上讲,每两个 不同文本的特征信息是不同的,那么得到的代码也应该是不一样的, 就象人的指纹。 得到预处理后的网页, 然后对网页进行向量化处理, 简单的讲就是 分词,统计,并按照词频生成一个列表 . 例如: 网页 12 搜索 10 引擎 7 然后取前N个关键词作为信息的矢量,例如:[网页12搜索10引 擎7]这是可以直接进行MD5合系,或者按照其它规则进行重排后进 行MD5哈系。例如本例,取前3个关键词,在进行哈系,得到的信息 指纹就是: a7eb9d92a83cf438881915e0bc2df70b。 这样 a7eb9d92a83cf438881915e0bc2df70b 就作为本文档的指纹和 以往的文档进行比较,如果有相同的,就说明指纹上看是一样的,就 可以进入消重处理。至于关键词的权重,因为有众多的提取算法,比 较常用的是 nf/df 。 分段签名算法 这种算法是按照一定的规则把网页切成 N段,对每一段进行签名, 形成每一段的信息指纹。如果这 N个信息指纹里面有M个相同时(M 是系统定义的阈值),则认为两者是复制网页。 这种算法对于小规模的判断复制网页是很好的一种算法, 但是对于 像 google 这样海量的搜索引擎来说,算法的复杂度相当高。 基于关键词的复制网页算法 像 google 这类搜索引擎,他在抓取网页的时候都会记下以下网页 信息: 1、 网页中出现的关键词 (中文分词技术) 以及每个关键词的权重 (关 键词密度); 2、 提取meta descr i ption或者每个网页的512个字节的有效文字。 关于第 2 点, baidu 和 google 有所不同, google 是提取 meta descr 1 ption ,没有查询关键字相关的512个字节,而百度是直接提 取后者。 在以下算法描述中,首先约定几个信息指纹变量: Pi 表示第 i 个网页; 该网页权重最高的N个关键词构成集合Ti={t1,t2,...tn} ,其对 应的权重为 Wi={w1,w2,...wn} 摘要信息用 Des(Pi) 表示,前 n 个关键词拼成的字符串用 Con(Ti) 表示,对这 n 个关键词排序后形成的字符串用 Sort(Ti) 表示。 以上信息指纹都用MD5函数进行加密。 基于关键词的复制网页算法有以下 5 种: 1、 MD5(Des(Pi))=MD5(Des(Pj)), 就是说摘要信息完全一样, i 和 j 两个网页就认为是复制网页; 2、 MD5(Con(Ti))二MD5(Con(Tj)),两个网页前n个关键词及其权重的 排序一样,就认为是复制网页; 3、 MD5(Sort(Ti))=MD5(Sort(Tj)), 两个网页前n个关键词一样,权 重可以不一样,也认为是复制网页。 4、 MD5(Con(Ti))二MD5(Con(Tj))并且 Wi-Wj 的平方除以 Wi 和 Wj 的平 方之和小于某个阙值a,则认为两者是复制网页。 5、 MD5(Sort(Ti))=MD5(Sort(Tj)) 并且 Wi-Wj 的平方除以 Wi 和 Wj 的 平方之和小于某个阙值a,则认为两者是复制网页。 关于第4和第5的那个阈值a,主要是因为前一个判断条件下,还 是会有很多内容部分相同的网页被认为相同而被排除掉, 因此要根据 权重的分布比例调节 a 的大小。 以上5种算法运行的时候,算法的效果取决于 N,就是关键词数目 的选取。选的数量越多,判断就会越精确,但是随之而来的计算速度 也会减慢下来。 所以必须考虑一个计算速度和去重准确率的平衡。 据 天网试验结果, 10 个左右关键词最恰当。 1.4 随机映射 (Random Projection) 算法: 先给每个词语 (Token) 生成随机的特征向量,保存为一个集合,然 后对网页正文进行分词, 得到一系列的词语, 从词语的特征向量集合 中取出这些词语的特征向量 (如果词语不在在集合中,那么给词语生 成一个随机的特征向量,将其加入集合 ) ,将这些特征向量按位进行 一个特殊的加运算, 最后得到网页的特征向量。 判断两个网页是否具 有相似或重复内容就可以通过判断它们特征向量

文档评论(0)

136****3783 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档