- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎重复网页发现的技术剖析
搜索引擎重复网页发现技术分析;and Algorithms for Duplicate Document Detection 1999 年]
将内容重复归结为以下四个类型:;4.如果 2 篇文档有部分重要的内容相同,但是格式不同,则称
为 partial-content duplicates;更多的有效网页内容,同时也提高了 web 检索的质量。;系统在响应用户的检索请求并对输出结果排序时,应该赋予它
较高的权值。;术点,每个不同的技术基本上是由这几个技术点构成,无非是
具体采纳的技术不同而已:;3. 文档相似度计算:根据文档特征重合比例来确定是否重复
文档.;1.只是利用内容计算相似;1. 按照单词这个级别的粒度进行特征提取.;档的重合程度,但是区别是 SHINGLE 是将若干单词组成片断,
粒度比较大,而信息检索类方法其实是用单词作为比较粒度,
粒度比较小,粒度越大计算速度越快,而粒度越小计算速度越
慢,所以信息检索类方法是不实用的,而且对 SHINGLE 的改进
以及新提出的方法的发展趋势也是粒度越来越大,这样才能解
决实际使用中速度的问题。粒度最大的极端情况是每个文档用
一个 HASH 函数编码(比如 MD5),这样只要编码相同就说明文
档完全相同,但是粒度太大带来的问题是对于细微的变化文档
无法判别,只能判断是否完全相同,至于部分相同以及相同的;程度无法判断.;SHINGLE 就是将粒度放大得到的。粒度越大,好处是计算速度
越快(对于 MD5 整个文档来说,每个文档一个 HASH 编码,然
后排序,将相同的找出,是速度最快的),缺点是会遗漏很多
部分相似的文档;粒度越小,好处是招回率比较高,缺点是计
算速度减慢。;2. 完全相同网页:实现相对简单并且速度比较块,可以根据页
面 MD5 整个文档来说,每个文档一个 HASH 编码,然后排序,
将相同的找出.;大量减少,这样应该可以减少总体的计算时间..
l 按照去重的时机,可以分为以下三类;可以结合三个时机某个或者所有都结合,对于 GOOGLE 来说,很
可能是结合了 2 和 3 两种方法, GOOGLE 的很多思路建立在后台
计算和实时计算联合,比如相关度计算,后台计算重要性得分,
在用户输入查询后得到初始数据集合,然后根据这个数据集合
之间文???的关系重新调整顺序;比如去处重复,首先在后台进
行重复发现,为了增加精确度,在返回查询结果后,在返回文
档集合内,又根据描述部分重新计算哪些文档是重复的,这
样增加了准确性,估计其它很多相关算法也采取这种联合策略,
为了加快速度,实时计算部分可以和 CACHE 部分结合进行计算。;l 按照不同的特征选择方法,有几种方式:
1. 完全保留特征;(1) 一种是保留 FINGERPRINT 第 I 个位置为 0 的 SHINGLE,其;对于 SHINGLE 类方法来说,还可以区分为:定长的和变长的
block 切分算法;弃部分特征,保留部分特征,通过减少特征数目来加快计算速
度 . 另 外 一 个 策 略 是 粒 度 尽 可 能 加 大 , 比 如
SUPER-SHINGLE,MEGA-SHINGLE 甚至是文档基本;为了提高算法
效果,策略是采取变长的内容切割算法比如 CSC 算法等;这三种
策略是方法加快速度和准确性的发展方向.
一些初步的结论:;2. 从利用的信息来看,实用的系统还是应该立足于只是利用
文本内容来判别相似性,排除掉利用链接信息等方法;;5. 从去重时机考虑,可以考虑结合后台去重以及实时去重,这
样增加去重的效果;;三. 方法效率比较;度比较快;四. 目前代表性解决方法分析
1. Shingle 方法(1997 年)
a. 特征抽取;篇文档就是由所有这些 Shingle 构成的.
b. 压缩编码;(2) 包含度:指的是两者相同的 Shingle 数目占某篇文档;(4) Super Shingle:关于 Shingle 的 Shingle,从更大结构上;FingerPrint 方法;对于组成文档的 LIST 进行 FingerPrint 方
法计算;;e. 优化措施;128bit MD5 HASH 方法;每篇文章压缩编码后由若干 二元组构
成;;d. 聚类方法:Union Find 算法;(2)编码(构造 bloom filter 集合元素);bloom filter 方法:对于两个已经编码的文档(两个长度为 m
的二值数组),通过 bit 逻辑运算 AND 计算,如果两者很多位
置都同时为 1,那么两个文档被认为是近似的。
(4)优势;5.内容+链接关系(2003 年)
1.特征抽取方法;页的内容因素计算获得
您可能关注的文档
最近下载
- 2022年国家公务员考试行测试题(有答案)(地市级).pdf VIP
- CISA考试练习习题库(2025年第1部分).pdf VIP
- 基于核心素养的小学语文作业设计策略分析.docx VIP
- T_CGSS 014—2020_老年人跌倒风险综合评估规范.pdf VIP
- 选区激光熔化技术下成形件表面质量及残余应力预测方法.pdf VIP
- 机电设备安装应急处理预案.docx VIP
- 2025入党积极分子发展对象考试题库(含答案).docx VIP
- 个人简历——【标准模板】.doc VIP
- [富士康 索尼设备校正]SI-F209 Operation Manual (中文版).pdf
- 小学语文作业设计的有效策略.doc VIP
文档评论(0)