文本指纹及其在近似重复文本检测中的应用.PDF

文本指纹及其在近似重复文本检测中的应用.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本指纹及其在近似重复文本检测中的应用

摘 要   随着互联网的发展,大量近似重复的文本广泛存在于现实世界中,如何检测这 些近似重复的文本成为了一个研究的热点问题,这一技术在不同领域存在着很多应 用:数字图书馆中相似内容的自动链接、数字知识产权保护(剽窃检测)、近似重 复网页检测(搜索引擎优化)、数据去重、垃圾邮件检测等。采用传统的哈希算法 (SHA1、MD5 等)只能鉴别完全相同的文档,不适用于存在细微修改的近似文档。 当前,近似重复检测的主要方法是生成文本指纹,通过计算文本间文本指纹的距离, 衡量文本的相近程度。 本文在研究该领域的三种代表性算法(shingling、I-Match、simhash)的基 础上,提出了融合这些算法优点的改进算法并进行了系统实现和验证,主要工作包 括三个方面: (1). 提出了基于 shingle 特征的 simhash 算法。Shingling 算法以连续 词串作为特征,有利于提高检测的准确率,但生成指纹集合、计算集合基 于 Jaccard 相似度的距离,计算量大。Simhash 算法以指纹间的汉明距离 度量相似性,计算量小,且指纹占用空间小。但 simhash 算法以单词为特 征,不能很好的表征文档的语义。本文将 shingles 作为simhash 算法的输 入特征,以提高 simhash 算法的准确率。 (2). 提出了基于随机词典的多指纹simhash 算法。I-Match 算法完全依 赖单词的 IDF 值去除近似重复文本间的不同单词,检测的召回率很低。基 于随机词典的 I-Match 算法提出利用原始文档集的词典随机生成多个子词 典,子词典分别过滤文档,生成多个 I-Match 指纹,以提高 I-Match 方法 的稳定性。对于同样是生成单指纹比对的 simhash 算法,本文引入基于随 机词典的 I-Match 算法的提高召回率的方法,以提高 simhash 算法的召回 率。 (3). 以“中美百万册数字图书馆”中的图书数据构建了一个近似重复文 本检测数据集,对上述两种改进算法在该数据集上进行了的实验验证。在 最优参数、F-measure 的度量上,基于 shingle 特征的 simhash 算法的 0.7469 比原 simhash 算法的 0.6117 提高了 22%;融合算法的 0.8805 比基 于 shingle 特征的 simhash 算法的 0.7469 提高了 18%,比原始的 simhash 算法提高了 43%。实验表明两点改进思路对相应性能的提升都得到了验证, 最终的融合算法比原始 simhash算法在 F-值度量上有较大提升。 本文认为,取得如此性能提升的主要原因是,依据三种经典算法的特点,进行 了有针对性的融合,改进了 simhash 算法的特征选择策略和指纹生成策略,分别有 利于 simhash 算法准确率和召回率的提升。 关键词:近似重复文本检测、网页去重、simhash 算法      Document fingerprint and its application in near duplicate document detection Jun Fan Microelectronics Directed by Tie Junhuang With the rapid development of the World Wide Web, dissemination reproduced or plagiarism other’s literature with or without modification has become very easy. There are a huge number of these ki

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档