字符串相似度度量中LCS和GST算法比较.docVIP

字符串相似度度量中LCS和GST算法比较.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2011年第 24卷第 3期协议 ·算法及仿真E lec tron ic Sc i1 Tec 2011年第 24卷第 3期 协议 ·算法及仿真 E lec tron ic Sc i1 Tech1 /M a r115 , 2011 字符串相似度度量中 LCS和 GST算法比较 于海英 (内蒙古财经学院 计算机信息管理学院 , 内蒙古 呼和浩特 010070 ) 摘 要 就字符串相似度度量算法的 LCS和 GST在概念 、实现 、效率方面进行比较分析 , 简要探讨了两种算法的 应用领域 。 关键词 LCS算法 ; GST算法 ; 算法实现 ; 算法效率 中图分类号 TP30116 文献标识码 A 文章编号 1007 - 7820 ( 2011 ) 03 - 101 - 04 The C om pa r ison of the L C S A lgor ithm w ith the GST A lgor ithm in S tr in g s S im ila r ity M e tr ic s Yu H a iying ( Schoo l of Comp u te r Info rm a tion and M anagem en t, Inne r Mongo lia F inance and Econom ic s Co llege, Hohho t 010070 , Ch ina) A b stra c t The concep t, imp lem en tation and efficiency of the LCS algo rithm and GST a lgo rithm in strings sim i2 la rity m etrics is in troduced. The app lication s of the two algo rithm s are b riefly d iscu ssed. Keyword s LCS algo rithm; GST algo rithm; algo rithm imp lem en t; a lgo rithm effic iency 字符串相似度度量是查找两个字符串的公共子 串 , 利用公共子串的长度根据相应的公式来衡量两个 字符串的相似程度。对于待查找的两个字符串 , 把二 者中较短的作为模式串 , 用 P 表示 , P = { p1 , p2 , p3 , , pm } 。较长的作为文本串 , 用 T 表示 , T = { t1 , t2 , t3 , , tn } 。通常 , 文本串 T 是较长的字符 串 , 而模式串 P 是较短的字符串 。字符串相似度度 量算法很多 , 如 LCS 算法、L even sh te in D istance 算 法、H ecke l算法、 GST 算法及 R KR - GST 算法等。 对于同样的两个字符串 , 算法不同的度量手段不同 , 所获得的公共子串及长度也不相同 。本文就 LCS算 法和 GST算法进行比较分析 。 。例如两个字符串分别为 T = abcdefgh ijk lm u2 X vwxyz , P = ijkabc lm defghp q , 则 LCS 算法的匹配 结果 , 如图 1 所示 。 图 1 LCS算法的匹配结果 从分析得知 , LCS算法得到的公共子序列都是严 格有序的 , 且公共子序列可能不是唯一。因为 , 两个 串可以有多个长度相同的最大公共子序列 。 GST ( Greedy String Tiling)算法是一种贪婪串匹配 算法 [ 2 - 3 ] , 这一算法对两个字符串进行贪婪式搜索以 1 LCS算法和 GST算法的概念 LCS (Longe st Common Sub sequence s, 最长公共子 序列 )算法 [ 1 ]是将两个给定字符串分别删去 0 个或多 个字符 , 但不改变剩余字符的顺序后得到的长度最长 的相同字符序列。给定字符串 P、 T、X , X 称为 P 和 T的最长公共子序列是指 X 是 P 和 T 的公共子序列 , 找出最大共有子串。在描述 GST算法前 , 首先明确 几个概念 : 概念 1 最大匹配 (M axim a l - M a tch )是指在匹配 过程中 , 模式串中从 i处开始的子串 Pi 与文本串中 从 j处开始的子串 Tj 的最长可能匹配。 概念 2 tile s是 1 个集合 , 在这个集合中每个元 tile都是 T 和 P 的 1 个最大匹

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档