- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【精品论文】基于树的论文剽窃检测系统.pdf
Information Retrieval 金融智能与信息管理实验班
基于树的论文剽窃检测系统
(Tree-Based Plagiarism Detection System)
李 珮, 钟冠怡, 张吕江, 许 莹, 姜茜娅, 谢 娟, 高 扬
摘要:
针对目前学术论文抄袭现象日益严重的问题,我们提出一种基于文档树和语义依存树
的论文剽窃二次检测方法,并构建一个由文本分类系统、文档树分析系统、语义依存树分
析系统组成的基于树的论文剽窃检测系统的框架,利用词频统计和语义依存分析技术,进
行论文相似度计算,从而帮助用户判断论文是否剽窃。
关键词:
剽窃检测;同义词典;蕴含词典;文档树;语义依存树;知网
1. 引言
互联网的普及在提供丰富电子学术资源的同时,也为防范论文抄袭等不道德行为带来
了极大的挑战,因此,高效的论文剽窃检测系统显得尤为重要。
论文剽窃检测是针对学术论文的文本及语义复制检测,其核心任务是计算论文文本以
及语义之间的相似度。对于文本复制检测系统目前已有很多典型的系统,根据其采用的算
法,可分为两类:基于数字指纹的字符串匹配方法的系统和基于词频统计的相似度计算方
法的系统;对于语义复制检测系统,还没有明确的分类,主要以神经网络为研究方向。
本系统中,我们先通过文本分类系统对原有数据库进行预处理,使待测文章只需同其
所属类别的论文进行比较;然后,通过构建文档树系统,以较高的效率对文本复制和同义
词替换进行检测,同时对抄袭部分予以定位;最后, 我们进一步提出语义依存树分析系
统,具有较高的准确性。整个系统将结合文本复制检测系统和语义复制检测系统的优点,
可以对待测论文进行二次检测,满足不同用户的需求。
2. 基于树的论文剽窃系统框架模型
2.1基于树的论文剽窃系统 (TBS)的特点(Bright Spot)
本小组提出的基于树的论文剽窃系统(简称 TBS)是小组成员在整合大量信息检索技
术文献、参考现有剽窃检测系统(如由武汉大学提出的 ROST 反剽窃系统)和文本分类系
统的关键技术与不足之处后,结合用户实际需求、考虑个性化、效率与准确率的权衡等因
素,经过多次讨论得出的成果。具有以下创新之处:
1) 基于树的体系架构:整个论文剽窃系统的三个子系统中,后两个系统都是以树形
结构作为出发点的,充分利用树形结构层次清晰、更改方便的优点。我们分别对
这两种树命名为文档树和语义依存树,它们各自在反映文档结构和句子内部词语
之间的依存关系时起到重要作用。
2) 囊括到文本复制、同义词替换、语义替换的抄袭:现有的论文剽窃系统多为针对
文本全部复制和部分复制的检测,针对较高层次的同义词替换和改变说法重述的
检测就较少提及,但后两阶段的抄袭才是现今大多数论文剽窃的主要方式。诚
然,这对技术上的要求更加严格,但在此,研究小组仍然提出了自己对语义检测
的创新性分析构想,并提出了相关算法,希望真正的包含语义替换检测的论文剽
窃系统能够成为现实。
1 / 14
Information Retrieval 金融智能与信息管理实验班
3) 考虑到用户的个性化需求:小组提出的基于树的论文剽窃系统分为三个子系统,
其中, “文本分类系统”和 “文本树检测系统”是每篇待检验论文必须经过的系
统,是论文检查的第一阶段(检验文本复制检测和同义词替换)。检测完毕后,
系统会弹出选择界面,询问用户是否需要进行二次检测,即(检测改变说法语义
复述),用户根据自己对剽窃检测的要求进行选择。“语义依存树检测系统”与
第一阶段的检测相比,它的检测时间开销较大,但对基于语义替换剽窃的文章在
此系统具有更高的准确度。用户可根据实际需求自行选择,体现人性化的需求。
2.2剽窃检测系统用户界面模块
文档评论(0)