基于后缀树的重复文档检测.docVIP

下载本文档

2
0
约5.35千字
约 8页
2016-09-04 发布于北京
举报
版权申诉

基于后缀树的重复文档检测.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于后缀树的重复文档检测.doc

基于后缀树的重复文档检测　　摘要：传统的重复文档检测方法是以单词或n-grams为单位提取特征，造成特征集合过于庞大。针对该缺点，提出以句子块作为文档特征的提取方法，将每个文档表示成句子长度序列，使用后缀树快速匹配公共子串。实验中，使用两个标准文档集与3种经典方法在有效性和效率方面进行比较，结果表明新算法有较高的准确率和效率。　　关键词：重复文档；后缀树；句子块　　中图分类号：TP312 　　文献标识码：A 文章编号：1672-7800（2015）005-0070-04 　　作者简介：冯金波（1989-），男，江苏盐城人，江苏大学计算机科学与通信工程学院硕士研究生，研究方向为信息检索、数据挖掘。　　0 引言　　重复和近似重复（near-duplicate）文档在人们日常生活中经常出现。在互联网中，存在着大量相似网页。除常见的网页转载、抄袭外，部分重复网页为少数网站为了提高网页检索排名，作搜索引擎优化（SEO），使用多个URL指向同一个网页及镜像站点（mirror site），由于这些镜像的存在使得网络爬虫在抓取网页时产生了大量的重复网页。研究表明，在一个大型爬虫系统中，如Baidu、Google和AltaVista，大约有30%的网页是冗余信息，即这些网页和另外70%的网页完全重复或近似重复[1]。　　1 研究综述　　Broder[2]提出将文本中连续n个term序列作为文本的一个特征，称之为n-shingle。然后，根据每个文档的shingles集合计算相似度，判断两个文档是否重复。如果文档d有|d|个term，那么该文档有|d|-n+1个shingles。所提取的shingles集合过于庞大，此后Shingle算法又增加了过滤模块，对提取出的shingles集合进行过滤处理。M-Theobald等[3]提出的SpotSigs算法，以停用词（stop word）作为先行词，提取其后的k个词形成一个spot特征码，作为一个特征。停用词选择对SpotSigs算法至关重要，不同的停用词列表会影响最终特征集。Wang等[4]提出了一种句子级别的特征提取算法，以连续的句子长度序列作为一个特征，每个特征用数值字符串表示。由于该算法没有使用文本信息，且以连续的几个句子为一个特征，在大规模数据集下运行效率较高。　　2 基于句子块的特征提取算法　　以单词或者n-grams为单位提取特征码时，提取出的特征过多，为优化性能，通常需要过滤某些特征，从一定程度上降低了准确率。本文以句子作为一个基本提取单位，将匹配出的两个文档间的公共句子块作为一个特征。　　图1描述了本文算法检测一对文档的处理流程。首先，对文档预处理，比如提取文档正文内容、分割句子及去除停用词（stop word），把每个文档转换成一个字符串，其中每个字符代表一个句子的长度；然后，为匹配出所有的公共句子块，需要找出两个字符串的所有公共子串，因此使用后缀树（suffix tree）处理能够快速匹配；最后，对所得到的所有子字符串进行验证。由于本文算法是以句子长度为基本单位，且使用了后缀树求解公共子串问题，因此将该算法简称为SL+ST（Sentence Length+Suffix Tree）。　　2.1 使用后缀树匹配特征　　去除每个句子中的停用词（stop word）后，统计每个句子剩余的单词个数，即句子长度。为方便编写程序，当长度为10～35时用字母a～z替换。对本文实验所采用的两个数据集进行分析，发现去除停用词后长度超过35的句子分别只占了0.27%和0.10%，因此对于长度超过35的句子忽略不计。　　采用Kth-in-sentence选择策略对每个句子存储开始的两个词（term）作为一个过滤特征的判断条件[5]，最终将一个文档表示成一个句子长度序列的字符串，其中每个字符表示其对应的句子的长度，字符串长度则代表该文档的句子数量。　　为检测两个文档是否为重复文档，需要比较这两个文档所对应的字符串。文档查重研究可以转换成求解两个给定字符串的公共子串问题。　　文献[6]介绍了几种常用的求解公共子串的算法。对于两个长度分别为m和n的字符串，动态规划算法时间复杂度高达O（mn），而后缀树算法是线性的，为O（m+n），本文采用后缀树算法来求解公共子串。　　2.2 特征提取示例　　2.3 验证特征　　如直接将两个文档间连续的具有相同句子长度的一个句子块作为一个特征，可能会选择错误的句子块。比如匹配出的句子块虽然满足对应的句子长度相等这个条件，其实它们并不是相似的句子。因此需要对提取出的特征进行验证，以过滤掉一些不相似的句子块。　　在预处理阶段，每个句子存储了开始的两个单词（terms），通过比较句子块中每个句子