- 9
- 0
- 约3.62万字
- 约 43页
- 2019-03-30 发布于上海
- 举报
目 录
摘 要
Abstract
引 言 1
1 文档复制检测技术分析 3
1.1 国内外研究现状 3
1.1.1 复制检测技术的由来 3
1.1.2 复制检测技术分类 4
1.1.3 程序复制检测技术的发展 4
1.1.4 自然语言文本复制检测技术发展 5
1.2 基础理论 7
1.2.1 文档分解 7
1.2.2 文本块的选择规则 8
1.2.3 普通操作检测 9
1.2.4 相似度度量 10
1.2.5 文档特征提取方式 10
1.3 典型系统分析 11
TOC \o 1-1 \h \z \u HYPERLINK \l _TOC_250004 COPS 原型系统 11
HYPERLINK \l _TOC_250003 MDR 原型系统 12
HYPERLINK \l _TOC_250002 SCAM 原型系统 13
HYPERLINK \l _TOC_250001 CHECK 原型系统 14
HYPERLINK \l _TOC_250000 CDSDG 原型系统分析 15
2 文本预处理与系统结构设计 17
2.1 文件格式 17
2.2 句子划分 18
2.3 句子清理 19
2.4 指纹与 LCS 20
2.5 系统设计 22
3 相似度检测框架及其实现 24
3.1 目标模型 24
3.2 文章相似度检测框架( PSEF ) 24
3.3 句子相似度检测框架( SSEF ) 26
PSEF 和 SSEF 的实现 27
平行相似度模型( Parallel Similar Model) 27
SSEF 的实现 29
4.2.1 数学依据 29
4.2.2 性质及论证 30
4.3 系统设计与实现 30
5 实验结果及分析 32
结 论 36
参考文献 37
作 者 简 历 41
学位论文数据集 43
-
- PAGE 10 -
引 言
目前, 几乎所有的数字产品都需要进行知识产权的保护。这些数字产品包括文本、 图像、音频、视频等多种表现形式。其中文本是互联网信息中最常用的组成部分,因为 它复制起来非常容易,而且可以很轻易的完成部分复制,部分修改,把复制的原作修改 得不易辨认。因此,文本就成了最容易遭受复制的对象。近年来,尤其在学术界,复制 现象很是严重,而且屡禁不止。所以国内外很多研究机构都对于复制的检测工作进行了 研究。目前数字知识产权主要有两种保护措施:一种是“阻止”法;另一种是“检测” 法。“阻止”法就是对文本加密、嵌入水印或其它载体以防止被复制,“检测”法的思 想是通过对怀疑的文章和样本文章的对比,找出其中的相似部分,从而给出文章是否复 制行为的结果,这就是文本复制检测技术,具体来讲,又有很多种算法和产品。本文所 关注和尝试解决的问题,也就是通过“检测”的方法,给出文章的相似程度。
具体来说,本文旨在解决如下问题:
(1) 对于给定的两篇文章,如何检测出其相近程度和相似的内容。
(2) 对于现有的检测方法,分析其应有的性质,发现其不足,并提出通用的框架。
(3) 对于得出的框架给出实现,并给出实验验证。 显然,如果能够对任意给的两篇文章作出其相似程度的检测,那么,就可以针对现
有的文章库进行整体的相似度检测,从而发现文章的原创性或是复制程度。只要有大量 的原创文章库,就能为文章的知识产权保护提供准确而科学的依据。在当前情况下, CNKI[8]、IEEE[15]和 Spinger[30]等中英文学术论文库的存在,为检测技术提供了海量的样 本文章,可用来比对,所以从文章库方面而言,这项技术是完全可行的。问题的核心就 在于,“如何比较任意两篇文章的相似度”,这也正是本文要解决的问题。
针对同样两篇文章,应用不同的检测方法,可能得到不同的检测结果,给出的相似 度可能是不同的。正是因为这样,本文要找出这些检测的共同依据,并找出一种通用的、 合理的框架模型。
本文的接下来的组织结构如下:
第 1 章分析了当前研究成果的优缺点,讨论了本文框架模型产生的理论基础。
第 2 章通过对要解决的各种问题的分析,相应地给出了解决方案,也就形成了复 制检测系统各个模块的设计思路。
第 3 章详细讨论了本文提出的“文章相似度检测框架” PSEF 和“句子相似度检 测框架” SSEF 的设计思想,并给出了相应的理论论证。
第 4 章给出了 PSEF 和 SSEF 的实现——平行相似度模型( PSM )。
第 5 章给出了 PSM 的实验结果,并与基本余弦公式作了对比,实验表明, PSM
的设计和实现完全符合本文的预期效果,可以合理地给出文章的相似度和相似部分。 “结论”分析了本文框架的
您可能关注的文档
- 基于网络安全的政府监管分析-行政管理专业论文.docx
- 基于塑性和弹性模型的日元美元汇率波动实证研究-金融学专业论文.docx
- 基于数据挖掘的体育成绩管理与体能分析系统-软件工程专业论文.docx
- 基于前景理论的随机模糊多属性决策方法的研究-管理科学与工程专业论文.docx
- 基于生活情境的中学物理教学对学生能力培养的研究-课程与教学论(物理)专业论文.docx
- 基于利益相关者的企业社会责任与企业价值关系研究-会计学专业论文.docx
- 基于决策树的港口后方堆场辅助决策应用的研究计算机技术专业论文.docx
- 基于碳排放的 产品质量设计与推广策略研究-企业管理专业论文.docx
- 基于随机波动率和随机利率的亚式期权定价-应用数学专业论文.docx
- 基于数据挖掘的高校成绩分析系统的设计与实现-计算机技术专业论文.docx
最近下载
- 2025年山东力明科技职业学院单招语文测试试卷大全.docx VIP
- 高考物理机械能常用模型最新模拟题精练专题31机械能+弹簧连接体+计算题(原卷版+解析).docx VIP
- 2025年湖南铁路科技职业技术学院单招职业技能考试题库及参考答案1套.docx
- 高考物理真题5年分类汇编专题10磁场(全国通用)(含解析).docx VIP
- 2025年成都七中自主招生物理试题 .pdf VIP
- 2025年城市管理协管员招聘考试(城市管理执法)历年参考题库含答案详解.docx VIP
- 保安服务方案 投标方案(技术标).doc
- 2024-2025学年人教版九年级上册化学期末专项训练:计算题(含解析).pdf VIP
- 【泰国投资促进委员会(BOI)】2025年投资促进项目申请指南.docx
- 陕西省09计价规则.pdf VIP
原创力文档

文档评论(0)