- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网页排重算法-信息指纹算法
信息指纹算法
判断重复网页的思想:为每个网页计算出一组信息指纹
( Fingerprint ),若两个网页有一定数量相同的信息指纹,则认为 这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。
判断内容复制的方法中最关键的两点:
1、计算信息指纹( Fingerprint )的算法;
2、判断信息指纹的相似程度的参数。
信息指纹就是提取网页正文信息的特征, 通常是一组词或者一组词 +权重,然后根据这组词调用特别的算法,例如 MD5将之转化为一 组代码,这组代码就成为标识这个信息的指纹。从理论上讲,每两个 不同文本的特征信息是不同的,那么得到的代码也应该是不一样的, 就象人的指纹。
得到预处理后的网页, 然后对网页进行向量化处理, 简单的讲就是 分词,统计,并按照词频生成一个列表 .
例如:
网页 12
搜索 10
引擎 7
然后取前N个关键词作为信息的矢量,例如:[网页12搜索10引 擎7]这是可以直接进行MD5合系,或者按照其它规则进行重排后进 行MD5哈系。例如本例,取前3个关键词,在进行哈系,得到的信息 指纹就是: a7eb9d92a83cf438881915e0bc2df70b。
这样 a7eb9d92a83cf438881915e0bc2df70b 就作为本文档的指纹和 以往的文档进行比较,如果有相同的,就说明指纹上看是一样的,就 可以进入消重处理。至于关键词的权重,因为有众多的提取算法,比 较常用的是 nf/df 。
分段签名算法
这种算法是按照一定的规则把网页切成 N段,对每一段进行签名, 形成每一段的信息指纹。如果这 N个信息指纹里面有M个相同时(M 是系统定义的阈值),则认为两者是复制网页。
这种算法对于小规模的判断复制网页是很好的一种算法, 但是对于 像 google 这样海量的搜索引擎来说,算法的复杂度相当高。
基于关键词的复制网页算法
像 google 这类搜索引擎,他在抓取网页的时候都会记下以下网页 信息:
1、 网页中出现的关键词 (中文分词技术) 以及每个关键词的权重 (关 键词密度);
2、 提取meta descr i ption或者每个网页的512个字节的有效文字。
关于第 2 点, baidu 和 google 有所不同, google 是提取 meta
descr 1 ption ,没有查询关键字相关的512个字节,而百度是直接提 取后者。
在以下算法描述中,首先约定几个信息指纹变量:
Pi 表示第 i 个网页;
该网页权重最高的N个关键词构成集合Ti={t1,t2,...tn} ,其对
应的权重为 Wi={w1,w2,...wn}
摘要信息用 Des(Pi) 表示,前 n 个关键词拼成的字符串用 Con(Ti) 表示,对这 n 个关键词排序后形成的字符串用 Sort(Ti) 表示。
以上信息指纹都用MD5函数进行加密。 基于关键词的复制网页算法有以下 5 种:
1、 MD5(Des(Pi))=MD5(Des(Pj)), 就是说摘要信息完全一样, i 和 j 两个网页就认为是复制网页;
2、 MD5(Con(Ti))二MD5(Con(Tj)),两个网页前n个关键词及其权重的 排序一样,就认为是复制网页;
3、 MD5(Sort(Ti))=MD5(Sort(Tj)), 两个网页前n个关键词一样,权 重可以不一样,也认为是复制网页。
4、 MD5(Con(Ti))二MD5(Con(Tj))并且 Wi-Wj 的平方除以 Wi 和 Wj 的平 方之和小于某个阙值a,则认为两者是复制网页。
5、 MD5(Sort(Ti))=MD5(Sort(Tj)) 并且 Wi-Wj 的平方除以 Wi 和 Wj 的 平方之和小于某个阙值a,则认为两者是复制网页。
关于第4和第5的那个阈值a,主要是因为前一个判断条件下,还 是会有很多内容部分相同的网页被认为相同而被排除掉, 因此要根据 权重的分布比例调节 a 的大小。
以上5种算法运行的时候,算法的效果取决于 N,就是关键词数目 的选取。选的数量越多,判断就会越精确,但是随之而来的计算速度 也会减慢下来。 所以必须考虑一个计算速度和去重准确率的平衡。 据 天网试验结果, 10 个左右关键词最恰当。
1.4
随机映射 (Random Projection) 算法:
先给每个词语 (Token) 生成随机的特征向量,保存为一个集合,然 后对网页正文进行分词, 得到一系列的词语, 从词语的特征向量集合 中取出这些词语的特征向量 (如果词语不在在集合中,那么给词语生 成一个随机的特征向量,将其加入集合 ) ,将这些特征向量按位进行 一个特殊的加运算, 最后得到网页的特征向量。 判断两个网页是否具 有相似或重复内容就可以通过判断它们特征向量
您可能关注的文档
最近下载
- 基于PLC的地铁自动售票机电气控制部分的设计.doc VIP
- Unit 4 Helping in the community 词汇句型专项训练(含答案解析)人教PEP版2025英语四年级上册.pdf
- 2025年成人高等教育学士学位英语水平考试(成人英语三级)历年参考题库含答案详解.docx VIP
- 青春期女生生理知识.pptx VIP
- Unit 4 Helping in the community 补全对话与短文专项训练(含答案解析)人教PEP版2025英语四年级上册.docx
- 碎纸屑压块机设计.docx VIP
- 一台触摸屏控制多台plc.pdf VIP
- 中医医案——颈椎病(三).docx VIP
- 《空乘旅游英语视听说》课件——In-flight Meals 飞机餐.pdf VIP
- 婴幼儿反复喘息诊治、管理、预防临床实践循证指南(2025).pptx VIP
原创力文档


文档评论(0)