- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2.4 字符串
第2章 线性表及其顺序存储 2.4 字符串 引 言 字符串本质上也是线性表,只不过其中的数据元素为字符类型,因此,对线性表的所有运算,对字符串也适用。 内容提要 1.介绍字符串的基本概念 2.介绍字符串的顺序存储表示 3.讨论字符串上的匹配算法 一、字符串的基本概念 字符串的定义 字符串(简称为串)是由n(?0)个字符组成的有限序列。 S=“a1 a2 … an” ( n≥0 ) S=“a1 a2 … an” ( n≥0 ) 其中,S是串名,双引号括起来的字符序列是串S的值。n是串中字符个数,又称串长度,n=0的串称为空串。 要注意区分空串和空白串。“” ,“ ” 串中任意连续个字符组成的子序列称为该串的子串,包含子串的串称为主串。通常以子串的首字符在主串中的位置作为子串在主串中的位置。 7 S=“abcabcaabcbcde” P=“aabc” 二、字符串的顺序存储表示 串的顺序表示可用一维字符数组来描述。设Chs为字符串,则语句Chs=new char [maxlen+1] 动态生成一个顺序存储的字符数组。 三、字符串的模式匹配 1. 模式匹配:求子串在主串中的位置 通常以子串的首字符在主串中的位置表示。 主串 S=“abcabcaabca” 子串 P=“abcaab” 2. 简单匹配算法 该算法是从主串S中第i个字符开始与模式串P的第一个字符开始逐个比较,遇到不相等时该趟匹配失败,S回到i+1,P回到第一个字符位置,继续下一趟匹配。直到匹配成功返回P的第一个字符在S中的位置结束,或S中不存在P,匹配失败结束。 1 简单匹配算法 3. 简单匹配算法的C++程序 int Index_BF1 ( char S [ ], char T [ ], int pos ) { // 若串 S 中从第pos(1≤pos≤StrLength(S))个字符起存在 // 和串 T 相同的子串,则称匹配成功,返回第一个这样的子串 // 在串 S 中的位置,否则返回 0 i = pos-1; j = 0; while ( S[i] != \0 T[j] != \0) { if(S[i]==T[j]) { i++; j++;} //继续比较后一字符 else {i=i-j+1; j=0;} //重新开始新一轮匹配 } if (T[j]==‘\0’) return(i-j); //匹配成功 else return 0; } 简单匹配算法的渐近时间复杂度: 简单模式匹配算法在最坏情况下的时间复杂度是O(n×m)。 简单匹配算法效率不高。原因:有回溯。 KMP是一种无回溯匹配算法 KMP的时间复杂度是O(n+m)。效率高的主要原因是匹配失败时在主串中不需回朔,在子串(模式串)中也不一定要回朔到第一个字符的位置。 2 KMP算法 分析图4.6(a),当第一趟比较匹配失败S[4]?P[4]时,第二趟和第三趟的比较是否还有必要?显然是不必要的。 6 我们还发现,第一趟比较失配点的前一个字符 与子串中的第一个字符相等,即S[3]=P[0],故子串中只要回朔到j=1的位置,进行“第4趟”比较就行了。 因此确定子串回朔到什么位置,即确定j的新值是问题的关键。 ??? KMP算法的关键是确定模式串p中每个字符的最大k值,K是失配时j需向前回朔得最少的位置,即j的新值为k。于是下一趟应从si和pk开始比较。 设主串S=“s1,s2,…,sn”,模式串P=“p1,p2,…,pm ”,失配点为Si?Pj。如果发现在模式串P中有 : p1p2…pk-1 = pj-k+1pj-k+2…pj-1 是串p1p2…pj-1中“最长的相等的前缀子串和后缀子串”, 由于Si?Pj故有: pj-k+1 … pj-2pj-1 = si-k+1 … si-2si-1 因此 p1 … pk-2pk-1 = si-k+1 … si-2si-1 k 的新值确定了,下一趟就可从si 和pk 开始比较。 1. 失败函数f和next函数 失败函数f(j)定义为: 当Si?Pj匹配失败时,j需向前回朔的位置k。 函数next(j)= f(j)-1,因为C++中下标从0开始。即: 0 当j=1,{表示Si?Pj ,应从P1与Si+1开始比较} f(j)= max{ k|0kj, 且p1p2…pk-1 = pj-k+1pj-k+2…pj-
原创力文档


文档评论(0)