- 1
- 0
- 约2.24万字
- 约 14页
- 2017-10-17 发布于湖北
- 举报
精品论文基于树de论文剽窃检测系统侠.pdf
Information Retrieval 金融智能与信息管理实验班
基于树的论文剽窃检测系统
(Tree-Based Plagiarism Detection System)
李 珮, 钟冠怡, 张吕江, 许 莹, 姜茜娅, 谢 娟, 高 扬
摘要:
针对目前学术论文抄袭现象日益严重的问题,我们提出一种基于文档树和语义依存树
的论文剽窃二次检测方法,并构建一个由文本分类系统、文档树分析系统、语义依存树分
析系统组成的基于树的论文剽窃检测系统的框架,利用词频统计和语义依存分析技术,进
行论文相似度计算,从而帮助用户判断论文是否剽窃。
关键词:
剽窃检测;同义词典;蕴含词典;文档树;语义依存树;知网
1. 引言
互联网的普及在提供丰富电子学术资源的同时,也为防范论文抄袭等不道德行为带来
了极大的挑战,因此,高效的论文剽窃检测系统显得尤为重要。
论文剽窃检测是针对学术论文的文本及语义复制检测,其核心任务是计算论文文本以
及语义之间的相似度。对于文本复制检测系统目前已有很多典型的系统,根据其采用的算
法,可分为两类:基于数字指纹的字符串匹配方法的系统和基于词频统计的相似度计算方
法的系统;对于语义复制检测系统,还没有明确的分类,主要以神经网络为研究方向。
本系统中,我们先通过文本分类系统对原有数据库进行预处理,使待测文章只需同其
所属类别的论文进行比较;然后,通过构建文档树系统,以较高的效率对文本复制和同义
词替换进行检测,同时对抄袭部分予以定位;最后, 我们进一步提出语义依存树分析系
统,具有较高的准确性。整个系统将结合文本复制检测系统和语义复制检测系统的优点,
可以对待测论文进行二次检测,满足不同用户的需求。
2. 基于树的论文剽窃系统框架模型
2.1基于树的论文剽窃系统 (TBS)的特点(Bright Spot)
本小组提出的基于树的论文剽窃系统(简称 TBS)是小组成员在整合大量信息检索技
术文献、参考现有剽窃检测系统(如由武汉大学提出的 ROST 反剽窃系统)和文本分类系
统的关键技术与不足之处后,结合用户实际需求、考虑个性化、效率与准确率的权衡等因
素,经过多次讨论得出的成果。具有以下创新之处:
1) 基于树的体系架构:整个论文剽窃系统的三个子系统中,后两个系统都是以树形
结构作为出发点的,充分利用树形结构层次清晰、更改方便的优点。我们分别对
这两种树命名为文档树和语义依存树,它们各自在反映文档结构和句子内部词语
之间的依存关系时起到重要作用。
2) 囊括到文本复制、同义词替换、语义替换的抄袭:现有的论文剽窃系统多为针对
文本全部复制和部分复制的检测,针对较高层次的同义词替换和改变说法重述的
检测就较少提及,但后两阶段的抄袭才是现今大多数论文剽窃的主要方式。诚
然,这对技术上的要求更加严格,但在此,研究小组仍然提出了自己对语义检测
的创新性分析构想,并提出了相关算法,希望真正的包含语义替换检测的论文剽
窃系统能够成为现实。
1 / 14
Information Retrieval 金融智能与信息管理实验班
3) 考虑到用户的个性化需求:小组提出的基于树的论文剽窃系统分为三个子系统,
其中, “文本分类系统”和 “文本树检测系统”是每篇待检验论文必须经过的系
统,是论文检查的第一阶段(检验文本复制检测和同义词替换)。检测完毕后,
系统会弹出选择界面,询问用户是否需要进行二次检测,即(检测改变说法语义
复述),用户根据自己对剽窃检测的要求进行选择。“语义依存树检测系统”与
第一阶段的检测相比,它的检测时间开销较大,但对基于语义替换剽窃的文章在
此系统具有更高的准确度。用户可根据实际需求自行选择,体现人性化的需求。
2.2剽窃检测系统用户界面模块
您可能关注的文档
最近下载
- 蓝色商务工作总结汇报模板.ppt VIP
- 人机协同伦理框架.docx VIP
- 中职生职业生涯规划教案.pdf VIP
- 电力安全工作规程电力线路部分.docx VIP
- 四川省成都市青羊区2024-2025学年七年级上学期期末考试数学试卷(含答案).docx VIP
- (高清版)B-T 14699-2023 饲料 采样.pdf VIP
- 《无损检测技术》课件.pptx VIP
- TBT3246.3-2010 机车车辆及其零部件设计准则螺栓连接 第3部分:设计--电气应用.docx VIP
- 山东省烟台市蓬莱区(五四制)2024-2025学年七年级上学期期末考试道德与法治试题.pdf VIP
- 2022年7月核算员财务专业知识答题.docx VIP
原创力文档

文档评论(0)