- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
反论文抄袭系统概述
反论文抄袭系统概述
论文检测系统是基于论文期刊的,但是即成书籍的一般都会收录期刊中,所以也是可以检测的到的。如果你没把握,担心论文不合格,可以先检测,检测完重复的地方不合格的地方会给予红字标出,到时候修改一下这些地方就可以了,现在学校都是用中国知网提供的检测数据库。
学术不端文献检测系统
1.1 系统概述
学术不端文献检测系统(简称“AMLC”)以《中国学术文献网络出版总库》为全文比对数据库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供用户检测论文,并支持用户自建比对库。其系统示意图如图1所示。
1.2 系统技术路线介绍
AMLC采用CNKI自主研发的自适应多阶指纹(AMLFP)特征检测技术,具有检测速度快,准确率,召回率较高,抗干扰性强等特征。
支持篇章、段落、句子各层级检测;
支持文献改写,多篇文献组合等各种文献变形检测;
支持研究生论文、图书专著等超长文献的学术不端检测。
对任意一篇需要检测的文献,系统首先对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。这样的分层多阶指纹结构,不仅可以满足我们对超长文献的快速检测,而且,因为我们的最小指纹粒度为句子,因此,也满足了系统对检准率和检全率的高要求。原则上,只要检测文献与比对文献存在一个相同的句子,就能被检测系统发现。
1.3 系统功能概述
系统主要功能包括:已发表文献检测、论文检测、问题库查询、自建比对库管理等。
已发表文献检测:指检测系统能够自动将属于用户的已正式发表的论文检索出来,并对每一篇已发表文献进行实时检测,快速给出检测结果。
论文检测:主要实现论文实时在线检测功能。
问题库查询:指用户可以将检测结果中确认有问题的文献放入到问题库,便于用户集中管理。
自建比对库:指管理人员可以选择将检测文献放入个人比对库或者批量上传文献作为个人比对库,该个人比对库即可作为以后学术不端文献检测的比对数据库,该自建个人比对库完全属于用户,其他用户无权使用。
1.4 系统目的
AMLC的目的是提供辨别和处理学术不端文献的能力,为审查论文提供技术服务。检测系统在对论文进行检测之后,生成检测报告,为判断论文性质提供相关依据。 支撑技术 CNKI拥有强大的技术研发队伍,目前已经拥有了具有国际或国内领先水准的全面的数字出版的相关技术,包括资源采集技术,文本数据库加工技术,文本数据库技术, 数字资源版权保护技术, 知识挖掘技术, 自然语言处理技术、快速比对技术等。在海量的全文数据的基础上实现快速准确的检测,上述技术是基本的保证。
支撑资源
AMLC需要一个尽可能完备的全文数据比对资源库,而CNKI的《中国学术文献网络出版总库》则正好满足这一要求。到目前为止,CNKI拥有学术期刊7000余种,期刊全文文献2480万篇,期刊期数和文献收录完整率都大于99.9%,文献量居国际国内同类产品之首;出版503家硕士学位点的72万篇优秀硕士论文,368家博士学位点的9.6万篇博士论文;1286家重要会议论文106万篇;515家重要报纸500多万篇;1376种重要年鉴787万篇;600多种工具书220多万条;学术引文索引数据600多万条;这些出版物做到平均日更新20000条记录;国家标准、专利、SPRINGER数据库也集成到CNKI网络出版平台中;另外,出版平台还集成整合出版了各类第三方数据库资源1020种。
在收录资源种类上,CNKI在国内具有明显优势,收录了期刊、论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。在资源更新速度上,CNKI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。最小检测单位是句子,那么在每句话里改动一两个字就检测不出来了么?我们对句子也有相应的处理,有一个句子相似性的算法。并不是句子完全一样才判断为相同。句子有句子级的相似算法,段落有段落级的相似算法,计算一篇文献,一段话是否与其他文献文字相似,是在此基础上综合得出的。
如果是从相关书籍上摘下来的原话,但是此话已经被数据库中的相关文献也抄了进去,也就是说前面的文章也从相关书籍上摘了相同的话,但是我的论文中标注的这段话来自相关的书籍,这个算不算学术抄袭?
检测系统不下结论,是不是抄袭最后还有人工审查这一关,所以,如果是您描述的这种情况,专家会有相应判断。我们的系统只是提供各种线索和依据,让人能够快速掌握检测文献的信息。
看了一下这个系统的介绍,有个疑问,这套系统对于文字复制鉴别还是不错的,但对于其他方面的
文档评论(0)