- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(A20080613971
http://www.paper.
中文文档相似度检测技术的研究及应用
黄玲莉 1,吴国新 2
1.东南大学计算机科学与工程学院,江苏南
,210096
hllseu@
摘要:在对现有的文档相似度算法等技术研究的基础上,本文提出一种中文文档相似度
算法,主要通过利用同义词库将词进行标准化以及分层相似度比较对文档进行相似性验证。
关键字:相似度算法
分词 同义词
文档剽窃
中图分类号:TP
1. 言
随着网络的发展,人们可以便捷的从网络中得到想要的信
,但同时也带来了诸如非法
复制、非法分发等文档侵权等问题。为了用户的文档版权,在制定网络版权法的同时更需要
技术上的支持。网络中的文档侵权主要体现在非授权的文档分
,而保护版权的关键是版权
验证,验证的核心是文档内容的相似度检测,现今已经有很多针对剽窃的方法被开发出来和
投入使用[1]。在允许用户获得需要的信息的同时防止对信息的违法拷贝和发布是文档版权管
理技术发展中的一个重要问题[2]。常规的版权验证方法是设置版权验证服务器,对提交的文
档进行相似检测,合法的文档将注册、存档和统一分发。
文档的相似检测技术利用文档相似度算法进行内容的相似度验证[1]。现有的文档相似度
检测算法都针对一个相对固定的文档集合[3],如向量空间模型(VSM)中,文档集合中文档
的总数是固定的。通过对文档集合的分析,统计词的权重,进而将文档表示成一个以词的权
重为元素的空间向量。由于版权验证服务器中注册的文档具有递增性,因此,利用一般的文
档相似度算法具有一定的困难。为了使得文档的增长不会或尽
少的影响到算法的执行,本
文提出一种针对这个问题的文档相似度计算方法,利用引入的同义词库来确定词与词之间的
关系,而不需要再通过一个文档集合来计算词频。文档版权管理系统保护已经收录在数据库
中的有版权文档不被剽窃,文档版权所有者可以设定一个等级(如以段落为单位,允许该文
档被拷贝的段落数)。现有的文档相似度算法,如基于 VSM 的相似度算法等,关注的是整个
文档的相似程度,但是部分的高相似度和整个文档的相似度之
并不存在必然的联系。所以
需要引入探测部分相似度的技术,以更高效的识别剽窃行为。本文提出的算法通过分层验证
文档的相似度。在段落相似度比较层次记录相似度高于某个阈
文档版权所有者设定的值做比较,来确定是否存在剽窃行为。
2.相关研究
的段落的个数。将这个值和
2.1 中文分词
- 1 -
http://www.paper.
由于汉语自身的特点,词与词之间没有明显的分割符号,中文文档处理的第一步就是进
行分词处理。词是最小的能够独立活动的有意义的语言成分,是自然语言处理系统中重要的
知识载体与基本操作单元。中文分词就是由计算机自动识别文本中词边界的过程,它是中文
信息处理最重要的预处理。汉语分词是中文信息处理的基础。汉语分词系统的实现及效果依
赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类
[4]:
(1)机械分词法。机械分词法主要有最大匹配法(MM 法)、逆向最大匹配法(RMM、OMM、
IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法等。
(2)语义分词法。语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的
处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。
(3)人工智能法,又称理解分词法,如专家系统法、神经网络方法等。
本文使用中国科学院计算技术研究所研制的基于多层隐马模型的汉语词法分析系统
ICTCLAS(Institute of Computing Techno2logy,Chinese Lexica l Analysis System)对输
入的文档进行分词处理,该系统的功能有中文分词、词性标注、未登录词识别等。
2.2 目前常见的一些相似度计算方法
相似度算法可以分为主题相似和结构相似两类
结构相似度算法主要针对那些存在明显
的结构的文档,如 XML 文档、HTML 文档或者程序代码文档等结构化的文档。目前也有将没
有结构的文本文档进行结构化,然后再利用结构相似度算法来
行比较的算法,取得了比较
好的效果[5]。主题相似度算法研究的比较多,一个文档通常有一个或者几个主题,文档的主
题相似度是指两个文档的主命题相似。相似度计算通常是基于词或词组的联合出现的频率。
如果两个文档相同的词或词组很多,同时不同的词或词组很少,则认为它们主题相似。这类
相似度在文本的处理中得到了广泛的应用,也开发了很多不同
方法来评价它们。流行的主
题相似度算法包括:余弦算法、Jacca
您可能关注的文档
- (5、常见抗氧化的食物.doc
- (5、二项式定理.doc
- (5投资项目市场与规模评估.doc
- (5日均线战法详解.doc
- (5月25日教育面对面.doc
- (5时政1感动中国6月12日.doc
- (5毕业论文设计学生工作日志工作管理规定排版打印规范评分标准文献综述写作要求文献翻译要求工作日志.doc
- (5男生女生之间.doc
- (5种食物30岁女人越吃越年轻.doc
- (5种英语基本句型1.doc
- 《GB/T 32879-2025电动汽车更换用电池箱连接器》.pdf
- 中国国家标准 GB/T 21649.2-2025粒度分析 图像分析法 第2部分: 动态图像分析法.pdf
- 中国国家标准 GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定.pdf
- 《GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定》.pdf
- GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定.pdf
- 《GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法》.pdf
- GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法.pdf
- 中国国家标准 GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法.pdf
- GB/T 45910-2025信息技术 生物特征识别模板保护方案的性能测试.pdf
- 《GB/T 45910-2025信息技术 生物特征识别模板保护方案的性能测试》.pdf
最近下载
- 《成人住院患者静脉血栓栓塞症的预防护理2023版团体标准》解读.pptx
- 开题报告医学PPT模板.pptx VIP
- 2011中考英语作文指导及范文.doc VIP
- 高考英语总复习-第二部分-语法填空专项突破-专题二-无提示词填空-第六讲-并列句和状语从句-市赛课公.pptx VIP
- 工会招聘考试试题及答案.doc VIP
- 河北省中考英语复习指导课件.pptx VIP
- 供应商评级管理办法.docx VIP
- 2025年人教版高一下学期期末考试数学试题与答案解析(共五套) .pdf VIP
- 2025年河北沧州渤海新区黄骅市事业单位公开招聘工作人员130名笔试备考试题及答案解析.docx VIP
- 党纪党规知识测试题及答案_党规知识测试题及答案.doc VIP
文档评论(0)