基于文本空间表示模型文本相似度计算研究.docVIP

下载本文档

5
0
约5.18千字
约 10页
2018-08-30 发布于福建
举报
版权申诉

基于文本空间表示模型文本相似度计算研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于文本空间表示模型文本相似度计算研究

基于文本空间表示模型文本相似度计算研究　　〔摘要〕在分析现有文本表示法的基础之处，提出一种以段落、语句、词语为层次结构的文本表示方法——文本空间表示模型，并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法，以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验，结果表明此方具有较好的相似文本发现效果。　　〔关键词〕文本相似度；文本空间表示模型；段落；算法　　〔中图分类号〕TP391.1〔文献标识码〕A〔文章编号〕1008-0821（2013）02-0021-03 　　文本相似计算具有重要作用和广泛应用，它主要应用于基于著作权保护的文本相似检测、信息检索以及自动文本摘要等领域。在文本复制检测方面，相似文本的检测可保护创作者的合法权益免受他人侵犯；在信息检索领域，相似文本的检测可以略去大量冗余信息；在自动文本摘要领域，主要为web页面自动生成摘要，便于web信息检索[1-2]。目前文本相似计算在信息检索以及自动文本摘要领域应用较为普及，在文本复制检测领域的主要实现方法是对整个文本进行词汇抽取，利用关键词顺序匹配的方法实现相似文本的检测[3-4]。　　对于一个大型数据集，当给定任意一个待检测文本，相似文本计算算法应该能够以较短的计算时间完成相似性检测任务，即：发现与该文本在语言表达上有一定相似度的文本，如果系统中事先存在这样的文本的话。基于算法执行时间和执行效率的考虑，本研究将文本分解为段落，进一步将段落分解为语句，语句又分解为若干词语的集合，以此构成三维的文本空间表示模型。只要在语句和段落维度上发现被检测的两个文本存在相似处，则判定被检测对象存在相似之处。最后利用已有的测试集检测算法执行结果。　　1相似度判定的层次分析　　从文本属性这个角度来看，文本相似检测可以从两个层面进行：内容相似和语言表达相似。对于任意一个文本而言，内容与语言表达并非相互独立的两个方面[5]。内容相似的文本，其语言表达形式并不一定就相似，例如以下两个例句：“大年三十晚上，街上冷冷清清，看不见一个人影”，“除夕夜晚，马路上空空荡荡，一片寂静的景象”，二者要表达的内容是一样的，但表达所使用的语言词汇却又很大的不同；而语言表达相似的文本——包括词汇以及词汇间的相对次序相似，其内容在很大程度上则是相似的。现今搜索引擎采用同义词技术，如：“大年三十”和“除夕”、“夜晚”和“晚上”等，能将包含检索词的同义词或近义词的文本搜索出来，所以信息检索更多的是从内容相似这个角度进行相似文本计算；而基于著作权保护的文本相似检测则是从表达相似这个角度进行文本相似计算[6]。现今的著作权法只保护作者思想的外在表达形式，并不保护作品反映的思想或观点，因而本文将从表达相似这个角度探讨文本相似检测的思想和算法。　　从文本结构这个角度来看，相似文本检测可以从多个层次进行：全文、段落、语句、词语。不同层次上的相似度检测可用于不同的研究领域，如：判定词语间的相似度计算可用于机器翻译领域[7]；判定词语与句子或段落之间，或者句子与段落之间的相似度计算可用于信息检索领域，例如：我们在检索信息时，通常输入的是若干个词语或者是一个句子，其将作为查询向量输入检索系统，并与文本库中的文本向量进行距离计算；段落与段落之间、全文与全文之间的相似度计算则主要应用于基于著作权保护的文本相似检测领域。上述3个检测层次的对象粒度依次递增，而处于较高粒度层次的相似度检测是建立在较低粒度层次相似度检测基础之上的。本研究对于文本相似的计算建立在段落与段落间的相似度计算基础之上。之所以选择段落为计算单位，除了上述因素外，还因为发生全文相似的概率相比较发生段落相似的概率小得多，并且段落相似的计算结果完全能够包含全文相似的计算结果。而语句相似多数情况下则包含了正常的文献引用情况。　　2013年2月11第33卷第2期11现？代？情？报11Journal of Modern Information11Feb.，201311Vol.33No.22013年2月11第33卷第2期11基于文本空间表示模型的文本相似度计算研究11Feb.，201311Vol.33No.22文本的结构化表示法　　2.1现有的文本表示法　　在探讨文本相似性计算方法之前，首先回顾现有的文本表示方法。在信息检索领域内，文本的表示主要是采用向量空间模型表示法[8]。其思想是：将某个搜索系统中索引项的集合T表示为：T={t0，t1，…ti，…tn-1}，n为索引项的数目；文本集合D表示为：D={d0，d1，…，dm-1}，m为文本的数目，di是文本集合D中的一个文本；则di可表示为：di={di，0，di，1，…，di，j，…di，n-1}，其中文本向量中每个分量di，j为索引项tj在文本di中的权重。di，j