(A20080613971.docVIP

下载本文档

3
0
约7.92千字
约 11页
2017-01-25 发布于北京
举报
版权申诉

(A20080613971.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

查看更多

(A20080613971

http://www.paper. 中文文档相似度检测技术的研究及应用黄玲莉 1，吴国新 2 1.东南大学计算机科学与工程学院，江苏南，210096 hllseu@ 摘要：在对现有的文档相似度算法等技术研究的基础上，本文提出一种中文文档相似度算法，主要通过利用同义词库将词进行标准化以及分层相似度比较对文档进行相似性验证。关键字：相似度算法分词同义词文档剽窃中图分类号：TP 1. 言随着网络的发展，人们可以便捷的从网络中得到想要的信，但同时也带来了诸如非法复制、非法分发等文档侵权等问题。为了用户的文档版权，在制定网络版权法的同时更需要技术上的支持。网络中的文档侵权主要体现在非授权的文档分，而保护版权的关键是版权验证，验证的核心是文档内容的相似度检测，现今已经有很多针对剽窃的方法被开发出来和投入使用[1]。在允许用户获得需要的信息的同时防止对信息的违法拷贝和发布是文档版权管理技术发展中的一个重要问题[2]。常规的版权验证方法是设置版权验证服务器，对提交的文档进行相似检测，合法的文档将注册、存档和统一分发。文档的相似检测技术利用文档相似度算法进行内容的相似度验证[1]。现有的文档相似度检测算法都针对一个相对固定的文档集合[3]，如向量空间模型（VSM）中，文档集合中文档的总数是固定的。通过对文档集合的分析，统计词的权重，进而将文档表示成一个以词的权重为元素的空间向量。由于版权验证服务器中注册的文档具有递增性，因此，利用一般的文档相似度算法具有一定的困难。为了使得文档的增长不会或尽少的影响到算法的执行，本文提出一种针对这个问题的文档相似度计算方法，利用引入的同义词库来确定词与词之间的关系，而不需要再通过一个文档集合来计算词频。文档版权管理系统保护已经收录在数据库中的有版权文档不被剽窃，文档版权所有者可以设定一个等级（如以段落为单位，允许该文档被拷贝的段落数）。现有的文档相似度算法，如基于 VSM 的相似度算法等，关注的是整个文档的相似程度，但是部分的高相似度和整个文档的相似度之并不存在必然的联系。所以需要引入探测部分相似度的技术，以更高效的识别剽窃行为。本文提出的算法通过分层验证文档的相似度。在段落相似度比较层次记录相似度高于某个阈文档版权所有者设定的值做比较，来确定是否存在剽窃行为。 2.相关研究的段落的个数。将这个值和 2.1 中文分词 - 1 - http://www.paper. 由于汉语自身的特点，词与词之间没有明显的分割符号，中文文档处理的第一步就是进行分词处理。词是最小的能够独立活动的有意义的语言成分，是自然语言处理系统中重要的知识载体与基本操作单元。中文分词就是由计算机自动识别文本中词边界的过程,它是中文信息处理最重要的预处理。汉语分词是中文信息处理的基础。汉语分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类 [4]： (1)机械分词法。机械分词法主要有最大匹配法(MM 法)、逆向最大匹配法(RMM、OMM、 IMM)、逐词匹配法、部件词典法、词频统计法、设立标志法等。 (2)语义分词法。语义分词法引入了语义分析，对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。 (3)人工智能法，又称理解分词法,如专家系统法、神经网络方法等。本文使用中国科学院计算技术研究所研制的基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Techno2logy,Chinese Lexica l Analysis System)对输入的文档进行分词处理，该系统的功能有中文分词、词性标注、未登录词识别等。 2.2 目前常见的一些相似度计算方法相似度算法可以分为主题相似和结构相似两类结构相似度算法主要针对那些存在明显的结构的文档，如 XML 文档、HTML 文档或者程序代码文档等结构化的文档。目前也有将没有结构的文本文档进行结构化，然后再利用结构相似度算法来行比较的算法，取得了比较好的效果[5]。主题相似度算法研究的比较多,一个文档通常有一个或者几个主题，文档的主题相似度是指两个文档的主命题相似。相似度计算通常是基于词或词组的联合出现的频率。如果两个文档相同的词或词组很多，同时不同的词或词组很少，则认为它们主题相似。这类相似度在文本的处理中得到了广泛的应用，也开发了很多不同方法来评价它们。流行的主题相似度算法包括：余弦算法、Jacca

您可能关注的文档

最近下载

文档评论（0）

64348377 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧，让你安心创作及上传更多优质地内容及提供知识服务！上传QQ群（最新）：751299218。
有任何问题，请随时联系智能客服，侵权专属客服QQ：2885784724！其它问题点击联系我们！本站内容，未经授权，不得采集、搬运！包括但不限于Al采集后用于训练，侵权必究！

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992