- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
学术论文复制检测的研究进展及新方法探讨论文
学术论文复制检测的研究进展及新方法探讨全文如下:
[摘要] 综述国内外学术论文复制检测的研究现状,针对存在的问题提出以后研究的新思路:构建某一学科领域学术论文语料库;以信息论为工具,针对某学科领域建立基于学术论文语料库的统计语言模型;结合学术论文抄袭剽窃的特点,通过赋予描述资源对象语义信息的不同元数据项以不同的权函数,设计相似度算法;使用Lemur工具箱,在标准的TREC文档集上对模型和算法进行检验;与Turnitin侦探剽窃系统进行实验对比,评价该模型和算法的有效率和效果。
[关键词] 学术论文 复制检测 抄袭剽窃检测 统计语言模型 文本相似度算法
自从方舟子的“新语丝”使原本长期存在于学术界的学术不端暴露出来之后,学术论文抄袭剽窃引起社会的广泛关注。抄袭剽窃的表现形式多种多样:有些只是在语言文字的表达形式上做手脚,换成同义词或颠倒语句的表达顺序,在文章框架、主要观点和主要论据上却没有大的变化;有些直接大段地“引用”别人的内容;有些综合运用多种手段,将多篇别人的文章拼凑而成自己的;有些“学术高手”直接拿国外的论文翻译成中文发表,等等。抄袭和剽窃“手段”的越来越“高明”,给抄袭剽窃检测带来很大困难。抄袭检测又叫复制检测、剽窃检测或副本检测,根据检测对象性质不同可分为图像、声音和文本复制检测。学术论文抄袭检测是文本复制检测的一种,归根到底是判断两篇学术论文的相似程度。“召回率”和“精准率”是判断检测算法好坏的两个重要指标。为了进一步提高学术论文复制检测判断的准确率,针对学术论文的文档相似度算法的改进和创新研究变得尤为重要。
1 国内外研究现状及存在的问题
1.1 国外研究现状
国外具有代表性的文档相似度算法主要有以下几种:①Manber提出一个sif工具,其“近似指纹”是用基于字符串匹配的方法来度量文件之间的相似性;②Brin等在“数字图书馆”工程中首次提出文本复制检测机制COPScopy protection system系统与相应算法,奠定了论文抄袭检测系统的基础;③Garcia-Molin提出SCAMStanford copy analysis method原型,改进了COPS系统,用于发现知识产权冲突。他使用基于词频统计的方法来度量文本相似性,后来把检测范围从单个注册数据库扩展到分布式数据库上以及在Web上探测文本复制的方法;④贝尔实验室的Heintze开发了KOALA系统用于剽窃检测,采用与sif基本相同的算法;⑤si和Leong等人建立的CHEC系统首次把文档结构信息引入到文本相似性度量中;⑥Stein提出一种方法,这种方法能产生一种“指纹”,在某种程度上能有效防止修改;⑦MeyerzuEissen等提出通过根据写作风格上的变化来分析单篇文档,从而决定是否有潜在抄袭;⑧美国学校首先引入Tumitin侦探剽窃数据库,用于防止论文抄袭,此外还有其他类似软件系统用于进行文档相似度分析。当然不同的检测系统其相似度算法的精度也不尽相同。
1.2 国内研究现状
国内关于论文抄袭剽窃检测方面已有一些研究:①张斯?通过对中文文本进行自动分词,然后计算它们的相似度,从而判别文本是否抄袭,其对应装置包括:样本输入装置、样本数据库、自动分句分词装置、分词数据库、预处理装置、特征词数据库、相似判别装置、判别结果输出装置和控制处理装置等。②鲍军鹏通过文本的结构信息和语义信息提取文本特征,是通过运用文本剽窃判定模块中设定的探针法,估计待检测文本特征和特征库中的文本特征的最大共同语义,并给出文本雷同度量,从而判别文本是否抄袭。③沈阳是通过先找到存储空间内的格式遗留,再将这些遗留格式附近文档的关键词或/和句子或/和段落与文献库中的文献内容进行比较,从而减少被检测文档的数据量,加快了反剽窃或转载文档检测速度。④张履平通过对已植入水印的文章进行特征撷取,根据所取得的词汇输入搜寻引擎以搜寻相关可疑文章;根据与原文比对结果取得的句子进行水印解析;将所取得的水印信息与原来的水印比对,从而判断是否为剽窃。⑤金博等则对基于篇章结构相似度的复制检测算法有一些研究。
1.3 存在的问题
事实上,由于剽窃形式的多样性和隐蔽性、语法和句法的复杂性等,目前主要采用的“数字指纹”和词频统计两大类抄袭识别技术已经不能满足实际的剽窃检测需求,会造成很多漏检和误检,其“召回率”和“精准率”都有待提高。归根到底是因为其检索模型有待突破,算法亟待改进或需创造全新的算法来针对学术论文抄袭剽窃检测的实际。如何把握并充分利用学术论文的结构和语言特征,提供具有针对性的检索模型和相似度算法及其实现系统,对能否在异构的分布式学术论文资源系统中,对抄袭剽窃检测进行更精
您可能关注的文档
- 热门公司委托书三篇.docx
- 关于诚信主题的六个小故事.docx
- 关于孩子动手实践的论文.docx
- 毕业实习工作计划安排.docx
- 最美孝心少年演讲稿.docx
- 中考满分作文范文:珍视今昔.docx
- 机电一体化专业自我评价英文范文.docx
- 关于感恩父母励志的演讲稿.docx
- 关于雨中情的五年级作文.docx
- 学生文明礼仪三分钟演讲稿范文.docx
- 2025年小学教师资格《综合素质》教育案例互动分析与反思试题.docx
- 2026年国家电网招聘之经济学类考试题库500道附参考答案(夺分金卷).docx
- 2026年国家电网招聘之经济学类考试题库500道含答案【新】.docx
- 2026年国家电网招聘之经济学类考试题库500道【轻巧夺冠】.docx
- 2026年初级银行从业资格之初级银行业法律法规与综合能力考试题库500道含答案(研优卷).docx
- 统编版语文八年级上册第12课《短文二篇》(课件).pptx
- 统编版历史七年级上册第7课《百家争鸣》课件.pptx
- 人教版地理八年级上册第二章第二节《气候》第1课时课件.pptx
- 人教版英语七年级上册Unit1SectionA 1a-Pronunciation课件.pptx
- 人教版生物八年级上册4.7.4《选择健康的生活方式》课件.pptx
最近下载
- 骨质疏松症诊疗指南2025.docx VIP
- 梅赛德斯-奔驰-A级-产品使用说明书-A180-176042-Aclass.pdf VIP
- 某文体培训学校年度财务审计报告.pdf VIP
- 湖南省名校联考联合体2026届高三上学期第一次联考 化学试卷.docx VIP
- 初中中考英语试卷试题阅读理解还原短文类.docx VIP
- CYX-QEHP-28管理评审程序B0.doc VIP
- 苏教版五年级科学下册全册知识点.pdf VIP
- 22J403-1 楼梯 栏杆 栏板(一) (3).pdf VIP
- 考研英语一真题长难句分类手册.pdf VIP
- 第三章酸碱反应和沉淀反应3.4沉淀反应55课件.ppt VIP
文档评论(0)