- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
抄袭检测技术
摘要 介绍了当前针对论文的抄袭检测技术的工作机制,具体分析了抄袭检测的核心技术,如文档分析、索引技术、查询技术,简介了两款抄袭检测产品,展望了抄袭检测技术的发展。
关键词 抄袭检测 特征提取 索引 查询
抄袭检测定义
在Google和Baidu中对“抄袭”进行搜索,得到百度百科中对“抄袭”的定义:“抄袭指窃取他人的作品当作自己的。包括完全照抄他人作品和在一定程度上改变其形式或内容的行为。是一种严重侵犯他人著作权的行为,同时也是在著作权审判实践中较难认定的行为”。
抄袭检测是从内容的相似度上对抄袭行为进行判定。
主要工作机制
抄袭检测技术起步于20世纪70年代,主要是软件剽窃检测方面的研究,后来自然语言的重复检测技术在90年代之后得到了较快发展。
抄袭检测是基于庞大的现有文档数据库进行的,通过提取待检测文档的特征——关键词、词的使用频率、词的位置,在以词为索引以文档序号等为内容的倒排索引文件中进行搜索,搜出包含这些词的文档,然后将待检测文档的特征分别与这些文档的特征进行相似度运算,以相似度为指标得出抄袭程度的结论。此文中,文档定义为建立索引的文本单位,可以是一篇论文,也可以是段落甚至句子。抄袭检测的核心工作流程如图表 1所示。
图表 1 抄袭检测系统流程图
具体技术介绍
文档分析
以句子为单位进行内容比较是一种较为简单的实现,当前一些网站提供这样的抄袭检测服务:其利用Google、Baidu等搜索引擎分别逐条以句子为单位进行搜索,得出每一句是否为原创的判定,并最终通过计数来计算出原创度。但是这样的服务是基于反复进行网络搜索实现的,要耗用较长的时间,而且因为因一字之差就会得出两个相似的句子为不相同的结论,所以只能检测出很原始懒惰的抄袭,这样的服务实用性很差。
以句子为索引进行查询几乎是不可能的。事实上查询是以词为单位进行的。待检测文档提取了这样的文档特征信息:关键词(WordID)、词的使用频率(NHits)、词的位置(HitList),如图表 2所示。
图表 2 文档提取词汇信息
在这里最重要的技术是分词技术,也称切词。以简单例子说明,对于“学历史学好”这个句子,人很容易正确理解,但对于机器来说,却可能分成“学历/史学/好”、“学/历史/学好”、“学/历史学/好”等。
目前的分词手段主要依靠了字典和统计学的方法。具体有“最大匹配法”、“N-Gram”等方法。“最大匹配法”总是认为最大匹配的词汇最优,但是局部最优很有可能不是全局最优。“N-Gram”采取N单位长度的逐字切分方法,照顾了所有可能,但是同时其关键词表却很大,这对于要尽力压缩索引表的目标来说是很不经济的。由于语言的多样化,没有哪个分词方法能解决全部的问题,这也正是许多科学家开展更深入研究的动力。
索引技术
为了查询哪些文档包含了这些关键词,以及词的位置信息,需要有建立一个以词为索引以文档序号等为内容的索引文件,其基本格式如图表 3所示,称为倒排索引。
图表 3 倒排索引
Wordn是一个词汇序号,通过词典找到Wordn的位置,然后通过DocList位置域存放的位置信息找到记录表。记录表中的一个记录由文档编号(DocID)、索引词在文档中命中的次数(NHits)、命中的位置列表(Hitlist)组成。
倒排索引是相对于正排索引定义的,正排索引以文档序号为索引,在对文档进行分词时进行创建。正排索引不能满足全文检索的需要,它只是在创造倒排索引时存在于内存之中。其格式如图表 4所示。
图表 4 正排索引
部署时,若索引文件的规模很大,为了效率、安全稳定等多方面的因素,一般采取分布式部署,这样同时也能加快倒排文件的创建与更新速度。分布式索引主要有两种部署方式,以文档编号(DocID)划分的“局部倒排文件”,和索引词编号(WordID)划分的“全局倒排文件”。
对于局部方案,每个索引节点负责对一个DocID区间的文档进行索引,在检索时,将检索请求广播到每个节点,最后由检索代理合并查询结果。对于全局方案,索引节点按WordID将倒排文件分布式地存储在不同的索引节点上,对于一个检索请求,有可能在一个索引节点中进行,也有可能分布在不同的索引节点上进行。
局部倒排文件具有可靠性高,降低负载,提高查询效率的优势。而对于全局倒排文件,在多处理器多磁盘系统下,如果检索词均匀的被请求或索引词分布偏差不大,则能够避免局部倒排文件下检索请求时必须排队的弊端,在同时多个查询请求时表现较优。
索引文件的规模是这样估计的。根据齐普夫(Zipf)法则,第i个最经常使用词汇的出现频率和1/i成正比,设词频比例常数为C,则每个词的出现频率为C/i。假设词汇数目为 ,则有
(公式 1)
假定所有文档内容大小为S,抽取词汇率为R,则布尔检索模型下的倒排索引规模为
(公式 2)
由此可见,索
文档评论(0)