- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
A coarse-to-?ne framework to efficiently thwart plagiarism
一种高效防抄袭的由粗到细的框架
Haijun Zhang, Tommy W.S. Chow n
Department of Electronic Engineering, City University of Hong Kong, 83 Tat Chee Avenue, Kowloon, Hong Kong
Pattern Recognition 44 (2011) 471–487
摘要 本文呈现了一个使用多级匹配方法的语义框架用以防止抄袭(plagiarism detection PD)。多级结构,即使用“文档—段落—句子”的结构来描述一个文档。在文档和段落级,我们使用传统的降维技术将高维直方图映射到潜在的语义空间。使用EMD(Earth Mover’s Distance)来代替完全匹配方法来检索相关文档可以显著地缩小搜索范围。设计了两个抄袭检测算法,并将其用于有效的标出可疑的抄袭文档源。我们执行了大量的实验性验证包括文档检索、抄袭检测、有效参数和实验性系统响应的研究,结果证实了我们所提出的方法在执行抄袭检测上所具有的精确性和计算有效性。
Keywords: Document retrieval, Plagiarism detection, EMD, Multilevel matching
关键字: 文档检索 抄袭检测 EMD 多级匹配
1. 介绍
从餐馆预约到技术研究,因特网已经毋容置疑地成为了我们生活中不可缺少的一部分。网络在线的流行却向文本知识产权提出一个严峻的挑战,因为因特网和计算机技术能轻易地将知识信息传遍整个世界。人们可以轻松地搜索、复制、下载和重用在线资源。最令人感到罪恶昭彰的抄袭行为就是从其他的文章资源不加以任何修改地复制过来。但是这种类型的抄袭是很容易用抄袭检测系统(PD)鉴别出来的。稍不明显的例子是抄袭者将比人的文章嵌入到他们的文中,他们企图通过对已有的文章作词或句子的替换或从外源粘贴一些词语以躲开抄袭检测系统。剪切-粘贴型抄袭检测现在在教育系统里已经受到了持续的关注。高效率的抄袭检测系统现在面临的一个难题就是对源搜索的迅速查询响应,因为抄袭者可以抄袭因特网上的文档有数百万个,而每篇文档通常包含的词也有数千个。
现有的反抄袭技术包括指纹识别——专为合作抄袭而开发的技术,ranking技术——为文档检索而开发。 Hoad和Zobel[1]研究了这些技术并证明了ranking方法比指纹识别方法更优。Chow et al.[2] 通过使用ranking技术也得到了不错的结果。沿着这条线索,文本将呈现使用多级匹配的(multilevel matching MLM)由粗到细框架的抄袭检测技术,所提出的方法具有一些给力的特点包括通用性、健壮性和高效性。这些特点具体描述如下:
通用性是指文档的多级表示和它的编码特性。我们使用文档-段落-句子的结构来形成文档的由粗到细的表示。在文档和段落级别,使用传统的降维工具——主成分分析(principal component analysis PCA)来获取潜在的语义主题,除了PCA,任何其它的潜在语义分析和降维技术都可以并入这个方案。
由于使用签名匹配,所提出的系统是健壮的。通过牵涉特征每部分的长度和词条的直方图来构造文档和段落级别的签名。句子的特征化是通过使用每个特征的索引数,这些特征对应于词汇表里对应的词。在签名编码中,我们不考虑特征在句子里的顺序,因为抄袭致力于替换每个句子里的词或重组每个句子的结构来躲过PD系统。
文档的建模及应用显著地集中于计算,因为它们至少包含数千个词。我们提出的系统基于深度匹配,使用由粗到细的策略来过滤不必要的搜索域。这种剪枝能力给我们带来计算高效性。因此我们所提出的方法适用于大数据集和实际的在线应用。
本文的主要研究成果有三点。首先,我们提出了文档的多级表示和编码特征;第二,对于相关文档的检索,我们深入研究了MLM方法,即基于直方图的MLM(MLMH)和基于签名的MLM(MLMS);第三,实现了两个检测算法,通过设置合适的条件,在多级匹配之前就可以减掉期望不大的路径。
本文下面的章节安排如下:第二部分对文档建模及其应用作简要的综述,同时分别对PD、文档分类(Document Categorization)和文档识别(DR Document Recognition)的关系作出讨论;第三部分介绍多级文档的表示、文档分割、降维和特征编码,文档的分割使用HTML标签;我们在第四部分讨论基于直方图和签名的不同文档检索方法,而在第五部分,我们则实现了两种检测算法;接着,在第六部分描述了我们所执行的大量实验性验证;第七部分,基于
文档评论(0)