基于VSM的论文相似度检测方法研究.doc

下载文档

7
0
约4.41千字
约 7页
2018-03-28 发布于重庆
举报
版权申诉
保障服务

基于VSM的论文相似度检测方法研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于VSM的论文相似度检测方法研究

基于VSM的论文相似度检测方法研究 1 背景随着计算机技术和网络技术的飞速发展，特别是INTERNET应用的普及，互联网已经成为人们传递和交流信息的重要平台。在网上信息量迅速膨胀的同时，网络搜索引擎、自动分类、信息抽取等信息技术也在研究和成熟之中，为人们高效、准确地获取信息提供了有利的保证。网络信息资源以文本、图像、视频、音频等形式存在，在我国，据中国互联网发展统计报告，文本信息占网上资源的70％这些电子形式的数据为广大学者和师生提供丰富的信息资源和便利的交流机会，促进科学技术的发展。与此同时，电子资源获取的便利及电子资源本身简单的“复制“粘贴功能，为学术论文的抄袭与剽窃等不道德行为提供了方便。我国学术论文抄袭现象频频发生，引起社会各界的广泛关注。为防止学术论文抄袭，端正学术风气，进行中文学术论文复制检测技术的研究非常有意义。现在，在我国应用比较良好的中文学术期刊数据库，包括中国知网的中国学术期刊网、万方数字化资源系统和重庆维普资源系统，收录了全国大部分有价值的中文学术期刊的学术论文、各高校的学位论文、重要会议论文等学术资源，并提供了高效的论文检索和下载平台。以中国知网为例，目前就全文学术期刊来说，其收录期刊的总共有八千多种，总共收录从1979年至今的两千万篇论文全文，并以每天几千篇的速度增长。所以，论文抄袭识别如果仅仅靠人工来做，工作量巨大，效果也没有办法保证，必须在技术上研究学术论文的非法复制防止和检测技术，进行自动的文本复制检测。论文复制防止和检测技术的应用，也有利于论文数据库的查重、去重工作，提高数据库检索效率[1]。 2 向量空间模型(VSM) 首先提一下文本相似度计算。文本相似度计算是指利用计算机自动计算文本间的相似度，文本相似度是表示两个或多个文本之间匹配程度的一个度量参数，相似度越大表明文件相似程度越高。在自然语言处理领域，在统计学的方法中文本的表示主要采用VSM模型，这种方法认为每篇文本都包含一些用概念词表达的揭示其内容的独立属性。这些概念属性构成了文章的主体，同时这些属性可以看成一个维数，文本可以表示成这些维数的集合。对需要比较相似度的文本进行分析，根据文本中的词语将文本映射为，z维空间向量，然后通过比较向量间的余弦系数确定文本间的相似度，余弦值越大其相似度越高[2]。向量空间模型(VSM)是20世纪60年代末由Salton等人[3]提出来的，可先用一个高度概括的向量来表示一篇文本，将文本集概括成一个向量集，然后通过对文本集对应的向量集进行相关的分析，达到对文本相似度的判定的目的。这是一种基于统计的方法，利用文本在特征集合上的分布来近似表示语义。现己成为最经典、最实用的文本表示方法。 2.1 关于相似度检测的几个概念文档D(Document)：泛指文档或文档中的一个片段(如文档中的标题、摘要、关键词、正文等)[4]。特征项T(Term)：指出现在文档中能够代表文档性质的基本语言单位(如字、词等)，这样一个文档D就可以表示为D(t1，t2,…,tn)，其中n就代表了特征项的数量。特征项权重wk(Term Weight)：指特征项tn能够代表文档D能力的大小，体现了特征项在文档中的重要程度。这样文档D的向量可以表示为D(wn1，wn2，…,wnm)，其中wn1，wn2，…,wnm分别代表文档D特征项t1，t2,…,tn的特征项权重。相似度S(Similarity)：指两个文档内容相关程度的大小，当文档以向量来表示时，可以使用向量文档向量间的距离来衡量，一般使用内积或夹角的余弦来计算，两者夹角越小说明相似度越高。 2.2 基于VSM的相似度计算方法用VSM方法将文档表示成向量后，在基于向量的信息检索中，有许多种计算相似度的方法，常用的相似度计算方案有内积、Dice系数、Jaccard系数和余弦系数[5]。设Di=(d1i,d2i,…,dmi)T,Dj=(d1j,d2j,…,dmj)T。内积 Di与Dj之间的相似度用内积表示如下： Sim（Di，Dj）= （1.1） Dice系数文档Di与Dj的Dice系数定义为： Sim（Di，Dj）= （1.2） Jaccard系数文档Di与Dj的Jaccard系数定义为： Sim（Di，Dj）= （1.3）（4）余弦系数文档n与Dj之间的相似度用余弦系数表示，公式如下： Sim（Di，Dj）= （1.4）