孙金冉-基于指纹的中文文档复制检测技术要点解析.pptVIP

下载本文档

5
0
约4.18千字
约 22页
2016-04-23 发布于湖北
举报
版权申诉

孙金冉-基于指纹的中文文档复制检测技术要点解析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 基于指纹的中文文档复制检测系统学生：孙金冉指导教师：王柠 * 主要内容应用背景 1 研究意义 2 研究方法 3 * 应用背景文档剽窃 Internet为人们提供了前所未有的便利,我们可以方便、快捷获得和传递信息，它推动着高科技不断向前发展。但是，信息资源的易获性和开放性也有不利方面，它使剽窃有机可乘，剽窃越来越容易，越来越猖獗；剽窃侵犯了著作者的著作权，严重影响了科学文化的健康发展。 Title Add your text Title Add your text 互联网重复网页互联网上的信息资源正在以指数级增长，重复网页日益增多，很多网页都存在多个版本。因此搜索引擎经常检索出具有相同信息的重复网页。这样既浪费了查询者很多宝贵的查询时间，降低了检索效率.去除重复网页成为了搜索引擎技术中一项很有意义的工作. * 研究意义在数字图书馆里文档主要以电子形式存在，所以很容易被拷贝，经常出现剽窃论文的现象，这种现象必须解决，否则信息所有者不愿意将宝贵的信息发布到图书馆中，而且这些剽窃的文档占有存储空间。在数字图书馆中加入复制检测技术可以检测出剽窃文档，保护信息所有者的知识产权。信息检索在进行信息检索时总是希望尽快找到准确的内容，一篇文档很有可能以多种格式存在，检索时可能返回多个结果，这就降低了检索效率且浪费网络资源。如果在提交此结果之前我们先加入一个复制检测系统来优先索引网页，如果新的网页被发现与已经索引的网页相似度很大,那么不再提交此网页。网上论文提交现在存在很多网上论文提交系统，在论文提交后，编辑们要处理两个问题：一是提交的论文与别人在以前的会议、杂志、学术报告上有多大的相似性；另外，还要检查现在提交的论文与作者本人以前发表论文有多少不同。数字图书馆 * 复制检测又称剽窃检测（plagiarism detection），就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或者多个文件，剽窃不仅仅意味着原封不动地照搬还包括对原文内容的移位交换、同义词替换、改变说法重述等。复制检测的定义 * 2006年，Namoh Kang等从剽窃模式的角度进行文本复制检测的研究，描述了文本复制检测从难到易的检测层次（如下面图），该模式按照难易程度将文本复制检测分为各个层次的检测，提出一个基于剽窃模式的更为精确的文本复制检测系统。易文档复制段落复制句子复制词的移位变换句子结构改变——改变说法重述文档复制检测的难易程度难 * 现有的文档复制检测方法基于词频统计的方法基于hash文本块的方法基于语义知识的方法 * 研究现状基于词频统计的文档复制检测方法把文档表示成以词为元素组成的向量，根据每个词出现的频率与逆文本频率赋以相应的权值，再通过点积或者余弦等方式度量文档间的相似度。具有代表性的词频统计方法为1995年美国Stanford大学提出的SCAM (Stanford Copy Analysis Method)模型、1997年香港理工大学建立的CHECK原型、西安交通大学2001年提出的CDSDG(Copying Detection System of Digital Goods)系统和2006年提出的高频模型HFM(Heavy Frequency Model)。缺点: (1)基于词频统计的文档复制检测方法虽然广泛应用于文本聚类、信息检索等领域，但是它并不适用于文档复制检测技术； (2)只能检测出两篇文档之间的相似度，不能发现一篇文档同时复制多篇文档的行为； (3) 检测结果准确率不高，误差大。 * 研究现状基于Hash文本块的文档复制检测方法从文档中选取一些字符串，然后把字符串映射为Hash表中的数值，这些数值被称为“指纹”。通过统计Hash表中相同的指纹数目或者比率来得出文档间的重叠度。具有代表性的Hash文本块方法为1994年ARIZONA亚利桑那州立大学提出的Sif工具、1995年Stanford大学开发的COPS(COPy detection System)系统、2000年Monostori等人建立的MDR(Match Detect Reveal)原型系统和2003年芝加哥大学提出的Winnowing算法。优点：算法简单、运算速度快缺点：该类方法实际上只是进行简单的字符串匹配，因此只能检测出完全相同的全部或部分复制文本，以及移位变换的复制文本，无法发现复杂复制方式，如同义词替换、改变说法重述等。 * 研究现状基于语义知识的文档复制检测方法从计算语言学领域出发，试图通过各种形式化的方法表示出文本的语义特征，从而度量文档间的重叠度。