学术不端文献检测系统培训手册.doc

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
. .. 学术不端文献检测系统 培训手册 第一章 系统简介 1.1 系统概述 学术不端文献检测系统(简称“AMLC”)以《中国学术文献网络出版总库》为全文比对数据库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供用户检测论文,并支持用户自建比对库。其系统示意图如图1所示。 图1 检测系统示意图 1.2 系统技术路线介绍 AMLC采用CNKI自主研发的自适应多阶指纹(AMLFP)特征检测技术,具有检测速度快,准确率,召回率较高,抗干扰性强等特征。 支持篇章、段落、句子各层级检测; 支持文献改写,多篇文献组合等各种文献变形检测; 支持研究生论文、图书专著等超长文献的学术不端检测。 CNKI自适应多阶指纹技术原理如图2所示: 图2 CNKI自适应多阶指纹技术原理图 对任意一篇需要检测的文献,系统首先对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。这样的分层多阶指纹结构,不仅可以满足我们对超长文献的快速检测,而且,因为我们的最小指纹粒度为句子,因此,也满足了系统对检准率和检全率的高要求。原则上,只要检测文献与比对文献存在一个相同的句子,就能被检测系统发现。 1.3 系统功能概述 系统主要功能包括:已发表文献检测、论文检测、问题库查询、自建比对库管理等。 ◆已发表文献检测:指检测系统能够自动将属于用户的已正式发表的论文检索出来,并对每一篇已发表文献进行实时检测,快速给出检测结果。 ◆论文检测:主要实现论文实时在线检测功能。 ◆问题库查询:指用户可以将检测结果中确认有问题的文献放入到问题库,便于用户集中管理。 ◆自建比对库:指管理人员可以选择将检测文献放入个人比对库或者批量上传文献作为个人比对库,该个人比对库即可作为以后学术不端文献检测的比对数据库,该自建个人比对库完全属于用户,其他用户无权使用。 1.4 系统目的 AMLC的目的是提供辨别和处理学术不端文献的能力,为审查论文提供技术服务。检测系统在对论文进行检测之后,生成检测报告,为判断论文性质提供相关依据。 第二章 检测原理及方法 2.1 支撑技术 CNKI拥有强大的技术研发队伍,目前已经拥有了具有国际或国内领先水准的全面的数字出版的相关技术,包括资源采集技术,文本数据库加工技术,文本数据库技术, 数字资源版权保护技术, 知识挖掘技术, 自然语言处理技术、快速比对技术等。在海量的全文数据的基础上实现快速准确的检测,上述技术是基本的保证。 2.2 支撑资源 AMLC需要一个尽可能完备的全文数据比对资源库,而CNKI的《中国学术文献网络出版总库》则正好满足这一要求。到目前为止,CNKI拥有学术期刊7000余种,期刊全文文献2480万篇,期刊期数和文献收录完整率都大于99.9%,文献量居国际国内同类产品之首;出版503家硕士学位点的72万篇优秀硕士论文,368家博士学位点的9.6万篇博士论文;1286家重要会议论文106万篇;515家重要报纸500多万篇;1376种重要年鉴787万篇;600多种工具书220多万条;学术引文索引数据600多万条;这些出版物做到平均日更新20000条记录;国家标准、专利、SPRINGER数据库也集成到CNKI网络出版平台中;另外,出版平台还集成整合出版了各类第三方数据库资源1020种。 在收录资源种类上,CNKI在国内具有明显优势,收录了期刊、论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。在资源更新速度上,CNKI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。 2.3 系统架构模式 2.3.1 系统架构图 图3 系统架构图 2.3.2 系统示意图 检测系统提供整套的文献学术不端行为检测,系统服务器位于CNKI中心网站,用户将待检测的论文通过网络在线提交到中心网站服务器,服务器在检测完成后,自动将检测结果返回给用户。整套系统架构为B/S结构,客户端不需要安装任何软件。其系统示意图如图4所示: 用户 用户3 用户1 Server1 监测服务 Server2 监测服务 Server3 监测服务 学位 论文 期刊 学术 文献 用户2 用户4 用户5 会议 论文 用户 自有 资源 报纸文献 Server1 监测结果 Server2 监测结果 Server3 监测结果 专利全文 图4 系统示意图 2.3.3 系统流程图 图5 系统核心流程图 2.4 用户提供的资源 实现论文的学术不端检测,用户需要提供的资源包括: 1.论文全文内容 论文全文内容是检测论文是否存在学术不端行为的基础数据。本检

文档评论(0)

hkfgmny + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档