基于语义技术学术论文不端研究综述.docVIP

下载本文档

5
0
约5.03千字
约 9页
2018-08-30 发布于福建
举报
版权申诉

基于语义技术学术论文不端研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语义技术学术论文不端研究综述

基于语义技术学术论文不端研究综述　　摘要：针对学术不端的现状，本文首先给出了有关学术不端的定义，并在定义的基础上，从信息计量和语义两个角度，对相关的文献进行了分类和归类，以期从中对相关的研究和技术进行相应的梳理，以便于开发相关的学术研究不端软件，并制定相关的学术不端规范。　　关键词：信息计量；语义技术；学术不端；语义挖掘　　中图分类号：G643 文献标识码：A 文章编号：1001-828X（2015）005-000-02 　　一、学术不端的界定　　1989年美国公共卫生局颁布第一个正式定义。它认为学术不端行为除了包括前者所确定的行为，还应该排除对其他论文数据在进行解释和判断时作者本人的无意识误解或观点差异。　　1989年的定义虽然缩小了学术论文不端的范围，但它并没有叙述何为伪造、篡改、剽窃，也没有指明其他行为的具体范围，这降低了此定义的可操作性。因此，在2000年美国科学技术政策办公室对1989年公共卫生局颁布的定义进一步的限定和解释。它认为学术不端行为是指在建议、进行或评议研究，或在报告研究结果时发生的捏造、篡改或剽窃行为。捏造是指编造数据或结果并记录或报告它们。篡改是指伪造研究原料、设备或程序，或改变、删除数据或结果，致使在研究记录中没有正确地描述研究活动。剽窃是指把他人的观点、程序、结果或话语据为己有，而没有给予他人适当的荣誉。学术不端行为不包括无意识误解或观点差异。这一定义受到了美国的普遍认可，但不同国家和研究机构在这一定义的基础上还略有修改和调整。　　从学术论文的结构与特点层面分析，学术论文不端的主要表现形式有：在没有说明的情况下①直接使用论文中的语句或数据，并不对其进行修改；②转述其他论文中的概念或思想；③在论文中过度使用自己曾经发表的论文。　　根据不同类型的学术论文不端形式，不同的检测方法在有效性和适用性上也存在一定差别。比如一篇论文抄袭剽窃的是其他语言的论文，或者对于一篇论文抄袭剽窃了多篇文章的不同部分时，能适用的检测方法就有很大差别。下面本文将对这些检测系统和算法进行阐述。　　二、基于文本内容匹配的检测方法　　1993年，Manber提出了一个Sif工具，用于在大规模文件系统中寻找内容相似的文件。Sif工具中“近似指纹”的思想就是用基于字符串匹配的方法来度量文本之间的相似。1995年，Brin和Garcia-Molina]等人在“数字图书馆”工程中首次提出了文本复制检测机制COPS（copy protection system）系统与相应算法。COPS系统框架为以后的自然语言文本复制检测系统奠定了基础，后来的检测系统框架与COPS大同小异。在COPS的基础上，Garcia-Molina和Shivakumar等人又提出了SCAM（Stanford copy analysis method）原型。SCAM还吸收了信息检索技术中向量空间模型的思想，使用了基于词频统计的方法检测文本之间的相似性。同一时期，贝尔实验室的Heintze开发了KOALA系统用于剽窃检测。KOALA系统采用与Sif基本相同的方法，与之类似的方法还有Broder等人提出的“shingling”方法。至此，基于字词直接匹配的学术论文不端检测方法逐渐分成两大类型：基于词频统计的方法和基于字符串比较的方法。　　1.基于字符串比较的检测方法　　基于字符串比较的方法，也称为基于语法（syntactic）的方法，包括sif，COPS，KOALA，shingling，YAP3，MDR等。这类方法都要求从文档中选取一些字符串，这些字符串被称为“指纹”（fingerprint）。然后把指纹映射到Hash表中，一个指纹对应一个数字。最后统计Hash表中相同的指纹数目或者比率，作为文本相似度依据。　　（1）文本块选择　　KOALA认为30-45字符比较合适，20个字符最佳。Shingle方法选择10个连续的单词，大约50-60个字符。Sif工具选取连续50个字节。MDR选取60个字符作为块长度[16]。显而易见，块长度（粒度）越小，匹配错误的机会越大。很可能把两篇不相关的文档判定为剽窃。另一方面，块长度（粒度）越大，丢失复制文档的机会就越大。这样就会把很多复制文档漏过去。　　除此之外，在选取文本块时，如何确定文本块的边界，文本块之间是否重叠，各个系统也不相同。COPS做过的实验显示，重叠文本块的检测精度要高于非重叠文本块的检测精度。但是，重叠文本块需要更多的索引空间。另外，对于非重叠文本块而言，插入或者删除一个单词将改变文本块边界，从而会导致检测精度降低。　　（2）特征选择　　将文本看做由一系列标记组合成的句子集合是一种简单直观的方式，而每个标记分别对应一个单词、数字或标点符号。早期人们发现一些较为