抄袭检测技术.doc

下载文档 降价啦

5
0
约3.74千字
约 5页
2018-11-24 发布于河南
举报
版权申诉
保障服务

抄袭检测技术.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

抄袭检测技术摘要介绍了当前针对论文的抄袭检测技术的工作机制，具体分析了抄袭检测的核心技术，如文档分析、索引技术、查询技术，简介了两款抄袭检测产品，展望了抄袭检测技术的发展。关键词抄袭检测特征提取索引查询抄袭检测定义在Google和Baidu中对“抄袭”进行搜索，得到百度百科中对“抄袭”的定义：“抄袭指窃取他人的作品当作自己的。包括完全照抄他人作品和在一定程度上改变其形式或内容的行为。是一种严重侵犯他人著作权的行为，同时也是在著作权审判实践中较难认定的行为”。抄袭检测是从内容的相似度上对抄袭行为进行判定。主要工作机制抄袭检测技术起步于20世纪70年代，主要是软件剽窃检测方面的研究，后来自然语言的重复检测技术在90年代之后得到了较快发展。抄袭检测是基于庞大的现有文档数据库进行的，通过提取待检测文档的特征——关键词、词的使用频率、词的位置，在以词为索引以文档序号等为内容的倒排索引文件中进行搜索，搜出包含这些词的文档，然后将待检测文档的特征分别与这些文档的特征进行相似度运算，以相似度为指标得出抄袭程度的结论。此文中，文档定义为建立索引的文本单位，可以是一篇论文，也可以是段落甚至句子。抄袭检测的核心工作流程如图表 1所示。图表 1 抄袭检测系统流程图具体技术介绍文档分析以句子为单位进行内容比较是一种较为简单的实现，当前一些网站提供这样的抄袭检测服务：其利用Google、Baidu等搜索引擎分别逐条以句子为单位进行搜索，得出每一句是否为原创的判定，并最终通过计数来计算出原创度。但是这样的服务是基于反复进行网络搜索实现的，要耗用较长的时间，而且因为因一字之差就会得出两个相似的句子为不相同的结论，所以只能检测出很原始懒惰的抄袭，这样的服务实用性很差。以句子为索引进行查询几乎是不可能的。事实上查询是以词为单位进行的。待检测文档提取了这样的文档特征信息：关键词（WordID）、词的使用频率（NHits）、词的位置（HitList），如图表 2所示。图表 2 文档提取词汇信息在这里最重要的技术是分词技术，也称切词。以简单例子说明，对于“学历史学好”这个句子，人很容易正确理解，但对于机器来说，却可能分成“学历/史学/好”、“学/历史/学好”、“学/历史学/好”等。目前的分词手段主要依靠了字典和统计学的方法。具体有“最大匹配法”、“N-Gram”等方法。“最大匹配法”总是认为最大匹配的词汇最优，但是局部最优很有可能不是全局最优。“N-Gram”采取N单位长度的逐字切分方法，照顾了所有可能，但是同时其关键词表却很大，这对于要尽力压缩索引表的目标来说是很不经济的。由于语言的多样化，没有哪个分词方法能解决全部的问题，这也正是许多科学家开展更深入研究的动力。索引技术为了查询哪些文档包含了这些关键词，以及词的位置信息，需要有建立一个以词为索引以文档序号等为内容的索引文件，其基本格式如图表 3所示，称为倒排索引。图表 3 倒排索引 Wordn是一个词汇序号，通过词典找到Wordn的位置，然后通过DocList位置域存放的位置信息找到记录表。记录表中的一个记录由文档编号（DocID）、索引词在文档中命中的次数（NHits）、命中的位置列表（Hitlist）组成。倒排索引是相对于正排索引定义的，正排索引以文档序号为索引，在对文档进行分词时进行创建。正排索引不能满足全文检索的需要，它只是在创造倒排索引时存在于内存之中。其格式如图表 4所示。图表 4 正排索引部署时，若索引文件的规模很大，为了效率、安全稳定等多方面的因素，一般采取分布式部署，这样同时也能加快倒排文件的创建与更新速度。分布式索引主要有两种部署方式，以文档编号（DocID）划分的“局部倒排文件”，和索引词编号（WordID）划分的“全局倒排文件”。对于局部方案，每个索引节点负责对一个DocID区间的文档进行索引，在检索时，将检索请求广播到每个节点，最后由检索代理合并查询结果。对于全局方案，索引节点按WordID将倒排文件分布式地存储在不同的索引节点上，对于一个检索请求，有可能在一个索引节点中进行，也有可能分布在不同的索引节点上进行。局部倒排文件具有可靠性高，降低负载，提高查询效率的优势。而对于全局倒排文件，在多处理器多磁盘系统下，如果检索词均匀的被请求或索引词分布偏差不大，则能够避免局部倒排文件下检索请求时必须排队的弊端，在同时多个查询请求时表现较优。索引文件的规模是这样估计的。根据齐普夫（Zipf）法则，第i个最经常使用词汇的出现频率和1/i成正比，设词频比例常数为C，则每个词的出现频率为C/i。假设词汇数目为，则有（公式 1）假定所有文档内容大小为S，抽取词汇率为R，则布尔检索模型下的倒排索引规模为（公式 2）由此可见，索