一种基于熵的文本相似性计算方法-计算机应用研究.pdf

下载文档

39
0
约2.27万字
约 4页
2018-11-27 发布于天津
举报
版权申诉
保障服务

一种基于熵的文本相似性计算方法-计算机应用研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于熵的文本相似性计算方法-计算机应用研究

第３３卷第３期计算机应用研究Ｖｏｌ３３Ｎｏ３２０１６年３月　ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓＭａｒ．２０１６一种基于熵的文本相似性计算方法 １１１ ２李圣文，凌　微，龚君芳，周长征（１．中国地质大学信息工程学院，武汉４３００７４；２．国网十堰供电公司，湖北十堰４４２０００）摘　要：文本比较是求解两个文本间相似度的过程，文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性，忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法，在对文本间字符信息的提取基础上，建立共同子文本串度量维度，然后采用熵的方法进行相似度度量。实验表明，该方法具有更平滑的相似度曲线，从而验证了算法的有效性和准确性。关键词：文本相似性；字符串匹配；编辑距离算法；最长公共子序列中图分类号：ＴＰ３９１１　　　文献标志码：Ａ　　　　　文章编号：１００１３６９５（２０１６）０３０６６５０４ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．０３．００６Ｔｅｘｔｓｉｍｉｌａｒｉｔｙｍｅｔｈｏｄｂａｓｅｄｏｎｅｎｔｒｏｐｙ１１１ １ＬｉＳｈｅｎｇｗｅｎ，ＬｉｎｇＷｅｉ，ＧｏｎｇＪｕｎｆａｎｇ，ＺｈｏｕＣｈａｎｇｚｈｅｎｇ（１．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＧｅｏｓｃｉｅｎｃｅｓ，Ｗｕｈａｎ４３００７４，Ｃｈｉｎａ；２．ＳｔａｔｅＧｒｉｄＳｈｉｙａｎＥｌｅｃｔｒｉｃＰｏｗｅｒＣｏｍｐａｎｙ，ＳｈｉｙａｎＨｕｂｅｉ４４２０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｅｘｔｃｏｍｐａｒｉｓｏｎｉｓｔｈｅｐｒｏｃｅｓｓｔｏｆｉｎｄｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｔｈｅｔｗｏｔｅｘｔｓ，ｔｈｅｈｉｇｈｅｒｓｉｍｉｌａｒｉｔｙｂｅｔｗｅｅｎｔｈｅｔｅｘｔｓｓｈｏｗｔｈｅｔｗｏｔｅｘｔｓｔｅｎｄｔｏｌｉｋｅ．Ｔｈｅｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｗａｓｆｒｏｍｔｈｅｐｅｒｓｐｅｃｔｉｖｅｏｆｔｈｅｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｃｈａｒａｃｔｅｒｓｏｆｔｈｅｔｅｘｔ，ｉｇ ｎｏｒｅｄｔｈｅｔｅｘｔｓｉｍｉｌａｒｉｔｙｆａｃｔｏｒｏｆｔｈｅｐｌｕｒａｌｃｏｍｍｏｎｔｅｘｔｓｔｒｉｎｇｗｉｔｈｉｎｔｈｅｔｅｘｔ．Ｔｏａｄｄｒｅｓｓｔｈｉｓｐｒｏｂｌｅｍ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｔｅｘｔｓｉｍｉｌａｒｉｔｙｍｅｔｈｏｄｂａｓｅｄｏｎｅｎｔｒｏｐｙ．Ｔｈｅｍｅｔｈｏｄｔｒｉｅｄｔｏｅｘｔｒａｃｔｃｏｍｍｏｎｓｔｒｉｎｇｓｆｒｏｍｔｅｘｔｓ，ｔｈｅｎｅｓｔａｂｌｉｓｈｅｄａｃｏｍｍｏｎｓｕｂｍｅａｓｕｒｅｄｉｍｅｎｓｉｏｎｓ，ａｎｄｃａｌｃｕｌａｔｅｄｔｈｅｓｉｍｉｌａｒｉｔｙｂａｓｅｄｏｎｅｎｔｒｏｐｙ．Ｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅｍｅｔｈｏｄｈａｓａｓｍｏｏｔｈｅｒｓｉｍｉｌａｒｉｔｙｃｕｒｖｅ，ｓｏｔｈｅａｌｇｏｒｉｔｈｍｉｓｅｆｆｅｃｔｉｖｅａｎｄａｃｃｕｒａｃｙ．Ｋｅｙｗｏｒｄｓ：ｔｅｘｔｓｉｍｉｌａｒｉｔｙ；ｓｔｒｉｎｇｍａｔｃｈ；Ｌｅｖｅｎｓｈｔｅｉｎｄｉｓｔａｎｃｅａｌｇｏｒｉｔｈｍ；ｌｏｎｇｅｓｔｃｏｍｍｏｎｓｅｑｕｅｎｃｅ［５］