文本复制检测技术总结.docVIP

下载本文档

50
0
约3.6千字
约 7页
2018-11-16 发布于福建
举报
版权申诉

文本复制检测技术总结.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本复制检测技术总结

文本复制检测技术总结　　摘要：针对文本复制抄袭现象，分析了文本复制检测技术的发展进展，研究了文本复制检测技术的分类，并对各种复制检测技术进行比较。　　关键词：复制检测；字符串匹配；词频统计　　中图分类号：TP391.1 文献标识码：A 文章编号：1674-7712 （2013） 04-0042-02 　　一、引言　　如今，数字产品保护措施主要有两种：一种是通过对数据源加密，使用水印或者使用基于授权的方法等来防止用户的非法拷贝的“阻止法”。另一种是通过建立一个注册文档集库，将给定文档与库中文档进行对比检测，并向用户展示检测结果，通过对抄袭者采用一定的惩罚措施，从而遏制抄袭现象。　　从上世纪70年代开始，文档复制检测技术就已经出现，到了90年代，自然语言文本复制检测技术开始出现。WordCheck软件诞生，其主要用于检测查询基金申请书是否有重复。从那时起，自然语言文本复制检测技术开始迅猛发展，各种复制检测系统开始出现。Mander开发了一款名叫sift的检测工具，主要用于检测查询大规模文件系统。该软件最早使用数字指纹技术来比较文档之间的相似度，数字指纹为论文复制检测技术提供了新思路。Brin等人用数字指纹技术开发了名为COPS的检测软件，可以检测出重度复制和轻度复制，斯坦福大学“数字化图书馆”项目采用了该复制检测软件。COPS软件首次采用文档注册机制，后来的其他复制检测系统多采用该软件的系统架构[1]。　　同年，Shivakumar等采用相关频率模型（relative frequency model）开发了新的复制检测系统SCAM。SCAM从信息检索技术中的向量空间模型（vector space model）得到启发，采用优化后的余弦法来计算文档相似度。通过测试发现，SCAM性能要比COPS好。Heintze借助于数字指纹技术开发了基于Web的复制鉴别系统KOALA。Broder等使用“shingling”算法对大约150G字节的网络文档集合进行归类，取得满意结果。针对Latex格式文档，Antonio等建立了复制鉴别软件CHECK。该软件先将Latex文档分解为树型结构，再利用向量点积法来比较文档相似度。Gonostori等采用具有较高识别精度的MDR（match detect reveal）方法来确定文档的重叠度。MDR通过使用suffix tree结构来搜索字符串之间的最大公共子串，使用suffix vector结构来存储后缀树，以此提高鉴别效率。Finkel提出SE（signature extraction）方法检测文档的重叠度。该方法通过使用0 mod p的方法对文档指纹进行随机抽样，节省了一定存储指纹的空间，改善了算法的效率。但是该方法存在一定的弊端，它适合于检测内容丰富的文档，对内容较少的文档检测效果比较差。Chowdhury等研究了大规模文档集合中重复文档的快速检测方法，该方法包括文本分块、选择、摘要、分选和对比等步骤，仿照sift的技术研发出了I-Match系统。I-Match优点在于能够很有效的识别相似度很高的文档，提高了系统效率，其通过对数据进行去除高频词和低频词等一系列的预处理来实现，缺点是对相似度较低的文档识别效果不佳。Schleimer等提出数字指纹Winnowing算法来鉴别文档复制，并将其检测软件放置在服务网站MOSS上供用户使用[2]。　　二、文档复制检测技术分类　　根据检测方法的不同，将文档复制检测技术大致分为两大类，分别是基于字符串比较的方法和基于词频统计的方法。　　（一）基于字符串匹配的方法　　基于字符串匹配方法主要从文档中提取字符串，并将其作为文档检测的基本单位，然后将提取出来的字符串映射到散列表中，每个字符串都与一个数字相对应，最后统计两篇文档中相同的字符串占文本篇章的比率，通过相似度计算公式来计算出两篇文档之间的相似度，进而判别两篇文档间是否存在抄袭现象。如今，很多文档复制检测系统都是使用基于字符串的匹配方法来实现的，如COPS原型系统、MOSS原型系统、MDR原型系统等。下面就对这几个典型的系统做简单的介绍。　　COPS原型系统要求每篇要注册到文档库中的文档都必须检测。该系统以标点符号为界，首先将文档按照一个个句子划分，并通过哈希函数将句子转成相应的散列值，并通过同样的方式获得待检测文档中的句子散列值。然后，通过将检测文档中的句子散列值和文档库中文档中的句子散列值对比，通过对比结果来判断注册文档的相似程度，从而度量注册文档是否为抄袭文档。COPS对文档间的重度抄袭具有良好的检测效果，但是该系统对于轻度抄袭现象的检测效果不佳，并且不能准确的划分句子。对于有效句子的提取是一个较大的难点，因为文档中一些术语、公式和单词的缩写等常使COPS对