- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据结构与算法:Python语言描述字符串要点
正则表达式的使用 例:假设需要把一个 Python 程序里的变量和函数名都加上 my_ 前缀,可以考虑下面的做法 from keyword import iskeyword ident = r\b[a-zA-Z_]\w*\b # 标识符由字母和 _ 开头 def add_prefix(name) : return name if iskeyword(name) else my_ + name ... ... modified = re.sub( ident, add_prefix, prog_text) ... ... 处理复杂的匹配和修改情况,需要每次自己确定匹配成功的位置,完成所需操作,然后确定下次继续匹配的起始位置 这种循环应该用 while 描述:用一个位置变量 pos 记录维持匹配的起始位置位置,在循环的每次迭代中正确更新 展望和总结 模式匹配问题还有许多可能扩展: 近似匹配 串中数据是通过测量得到的,原本就不准确 并不需要准确的匹配,近似可以根据应用的需要定义 例如,定义两个串的接近程度,定义一种“距离” 其他模式匹配问题,例如,二维或者高维描述中的模式匹配(字符串是一维描述) 等等 字符串类型和操作 构造、拼接、子串替换等都是典型的字符串操作 串匹配是许多串操作的基础。存在很多串匹配算法,值得关注 正则表达式是完成字符串操作的有用工具 模式匹配问题 前面讨论的串匹配基于最简单的字符比较 以常规的字符串作为模式 比较的一方是模式串,另一方是一个字符串的所有可能子串 匹配中考察的是模式串与目标串的所有可能子串之间的相等关系 基本串匹配有很广泛的应用,前面举过一些例子,如 正文编辑器中最常用的操作是查找和替换 网络搜索引擎,基本功能就是在网页中检查检索串的匹配 实际使用中,存在着许多不同的场景,如 用一个模式串,在目标串里反复检索,找出一些或者所有出现 在一个目标串里检查是否出现了一组模式串中的任何一个 在一批目标串里检查一个或一组模式串是否出现,等等 模式匹配的进一步问题 实际中还经常需要(希望)考虑一些更一般的问题,例如 一个目录下所有以 .py 结尾的文件名 文件里所有形为 href=… 的段(HTML网页里的网页链接) DNA片段里以某碱基段开始以另一碱基段结束的片段 计算机可执行文件中的某种片段模式(例如检查病毒),以一种形式的片段开始到另一片段结束,其中出现了某些片段 等等 这种匹配中考虑的不是一个字符串,而是一集字符串 可能有穷,也可能无穷 罗列(枚举)的方式不适合这里的需要,因为可能很多或无穷多 要处理这种匹配问题,就需要考虑字符串集合的描述问题,以及是否属于一个字符串集合的匹配问题 模式匹配的进一步问题 有关字符串集合的描述和匹配,需要考虑两个问题: 怎样描述被考虑的那个串集合?需要一种严格描述方式,能描述很多(所有?)有用的字符串集合。“系统化的” 描述方式就是一种描述串检索模式的语言(简单串匹配的“模式语言”就是字符串本身) 如何(或,是否可能)高效实现所希望的检查(匹配) 模式描述语言的功能很强,就可能描述更多更复杂的模式(对应的,字符串集合),但匹配算法的复杂性也会提高。这方面有许多理论结果 模式语言变得比较复杂以后,或许只能做出具有指数复杂性的匹配算法,这种情况使模式语言变得没有实用意义 如果模式语言进一步复杂,模式匹配问题甚至可能变为不可计算问题。也就是说,根本不可能写出完成匹配的算法。这样的描述语言就完全没有实际价值了 有意义的模式描述语言是描述能力和处理效率之间的合理平衡 模式匹配的进一步问题 如果大家对 DOS 操作系统或者 Windows 命令窗口(cmd)有些了解,可能会知道描述文件名的“通配符” 在 Windows 系统里搜索文件,也会用到 Windows/DOS 的文件名描述中可以使用两个通配符 * 和 ? 写在文件名字符串里的 ? 可以与任何实际字符匹配 * 可与任意一串字符匹配 例:*.py 与所有以 py 为扩展名的文件名匹配 在普通字符串的基础上增加通配符,形成了一种功能更强的模式语言 一个模式描述一集字符串,例如 a?b 描述所有 3 个字符的串,其首字符为 a,尾字符为 b,中间字符任意 能描述无穷字符串集合,例如 a* 描述了所有以 a 开头的字符串 但,只是加入了通配符的模式语言还不够灵活(描述能力不够强) 正则表达式 一种很有意义的实用模式语言是正则表达式(Regular Expression, 或称 regex、regexp、RE、re),由逻辑学家 Kleene 提出 一个具体的正则表达式,描述字符集上的一个字符串集合 正则表达式语言的基本成分是字符集里的普通字符,另外还有几种特殊的组合结构(以及表示组合的括号) 正则表达式里的普通字符只与
您可能关注的文档
- 数据仓库与数据挖掘.ppt
- 数据库6版讲稿第六章----形式化关系查询语言.ppt
- 数据处理软件Excel 2010.pptx
- 数据库保护.ppt
- 数据库上课 第五讲 SQL语言_2(简单查询与连接).ppt
- 数据处理的基础知识.ppt
- 数据库及程序设计01.pptx
- 数据库上课 第八讲 数据库的安全性与完整性.ppt
- 数据库实验.doc
- 数据库恢复.ppt
- 专题06 经济体制(我国的社会主义市场经济体制)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题11 世界多极化与经济全球化-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 专题03 经济发展与社会进步-5年(2020-2024)高考1年模拟政治真题分类汇编(浙江专用)(解析版).docx
- 专题09 文化传承与文化创新-5年(2020-2024)高考1年模拟政治真题分类汇编(北京专用)(原卷版).docx
- 5年(2020-2024)高考政治真题分类汇编专题08 社会进步(我国的个人收入分配与社会保障)(原卷版).docx
- 专题07 探索世界与把握规律-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 5年(2020-2024)高考政治真题分类汇编专题06 经济体制(我国的社会主义市场经济体制)(原卷版).docx
- 专题11 全面依法治国(治国理政的基本方式、法治中国建设、全面推进依法治国的基本要求)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题17 区域联系与区域协调发展-【好题汇编】十年(2015-2024)高考地理真题分类汇编(解析版).docx
- 专题01 中国特色社会主义-5年(2020-2024)高考1年模拟政治真题分类汇编(原卷版).docx
文档评论(0)