- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
 - 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
 - 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
 - 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
 - 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
 - 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
 - 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
 
                        查看更多
                        
                    
                2011年第 24卷第 3期协议 ·算法及仿真E lec tron ic Sc i1 Tec
2011年第 24卷第 3期
协议 ·算法及仿真
E lec tron ic Sc i1 Tech1 /M a r115 ,  2011
字符串相似度度量中 LCS和 GST算法比较
于海英
(内蒙古财经学院 计算机信息管理学院 ,  内蒙古 呼和浩特	010070 )
摘   要   就字符串相似度度量算法的 LCS和 GST在概念 、实现 、效率方面进行比较分析 ,  简要探讨了两种算法的 应用领域 。
关键词	LCS算法 ;   GST算法 ;  算法实现 ;  算法效率
中图分类号	TP30116
文献标识码	A
文章编号	1007 - 7820 ( 2011 ) 03 - 101 - 04
The C om pa r ison of the L C S A lgor ithm  w ith the GST A lgor ithm
in S tr in g s S im ila r ity M e tr ic s
Yu H a iying
( Schoo l of Comp u te r Info rm a tion and M anagem en t,   Inne r Mongo lia F inance and
Econom ic s Co llege,  Hohho t 010070 ,  Ch ina)
A b stra c t    The concep t,   imp lem en tation and efficiency of the LCS algo rithm and GST a lgo rithm in strings sim i2
la rity m etrics is in troduced.   The app lication s of the two algo rithm s are b riefly d iscu ssed.
Keyword s   LCS algo rithm;   GST algo rithm;   algo rithm  imp lem en t;   a lgo rithm effic iency
字符串相似度度量是查找两个字符串的公共子
串 ,  利用公共子串的长度根据相应的公式来衡量两个 字符串的相似程度。对于待查找的两个字符串 ,  把二 者中较短的作为模式串 ,  用 P 表示 ,    P  = { p1 ,    p2 , p3 ,       ,   pm  } 。较长的作为文本串 ,  用 T 表示 ,    T =
{ t1 ,    t2 ,   t3 ,       ,    tn } 。通常 ,  文本串 T 是较长的字符 串 ,  而模式串 P 是较短的字符串 。字符串相似度度 量算法很多 ,  如 LCS 算法、L even sh te in D istance 算
法、H ecke l算法、 GST 算法及 R KR  -  GST 算法等。 对于同样的两个字符串 ,  算法不同的度量手段不同 , 所获得的公共子串及长度也不相同 。本文就 LCS算 法和 GST算法进行比较分析 。
。例如两个字符串分别为 T =  abcdefgh ijk lm u2
X
vwxyz ,   P  =  ijkabc lm defghp q  ,  则 LCS 算法的匹配
结果 ,  如图 1 所示 。
图 1   LCS算法的匹配结果
从分析得知 ,  LCS算法得到的公共子序列都是严
格有序的 ,  且公共子序列可能不是唯一。因为 ,  两个 串可以有多个长度相同的最大公共子序列 。
GST ( Greedy String Tiling)算法是一种贪婪串匹配
算法 [ 2 - 3 ]  ,
这一算法对两个字符串进行贪婪式搜索以
1	LCS算法和 GST算法的概念
LCS (Longe st Common Sub sequence s,  最长公共子 序列 )算法 [ 1 ]是将两个给定字符串分别删去 0 个或多 个字符 ,  但不改变剩余字符的顺序后得到的长度最长 的相同字符序列。给定字符串 P、 T、X ,   X 称为 P 和 T的最长公共子序列是指 X 是 P 和 T 的公共子序列 ,
找出最大共有子串。在描述 GST算法前 ,  首先明确
几个概念 :
概念 1   最大匹配 (M axim a l - M a tch )是指在匹配 过程中 ,  模式串中从 i处开始的子串 Pi 与文本串中
从
j处开始的子串 Tj 的最长可能匹配。
概念 2	tile s是 1 个集合 ,  在这个集合中每个元
tile都是 T 和 P 的 1 个最大匹
                
原创力文档
                        

文档评论(0)