编译原理及实践-第2章词法分析.ppt

  1. 1、本文档共149页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 词法分析 2.1 词法分析器的作用 2.2 正则表达式 2.3 有穷自动机 2.4 从正则表达式到DFA 2.5 用代码实现有穷自动机 2.6 利用lex自动生成词法分析程序 2.1 词法分析器的作用 词法分析器(词法分析程序)的任务:从源代码中读取输入字符,产生单词序列(生成独立的有意义的逻辑单元称作单词(token)),提交给语法分析使用。 任务:逐个读入源程序字符并按照构词规则切分成一系列单词。单词是语言中具有独立意义的最小单位,包括保留字、标识符、运算符、标点符号和常量等。 识别出源程序中的单词; 删除无用的空白字符及注释(空格、回车 等),这些信息仅增加了源程序的可读性,便于程序员阅读和维护程序,而对于语法分析是完全无用的。 进行词法检查,能够检测出输入中不能形成源语言任何单词的错误字符串。 定义逻辑项token的数据类型: typedef struct 第2章 词法分析 2.1 词法分析器的作用 2.2 正则表达式 2.3 有穷自动机 2.4 从正则表达式到DFA 2.5 用代码实现有穷自动机 2.6 利用lex自动生成词法分析程序 正则表达式: 2.2.1 基本概念和术语 字母表(符号表、符号集) 由若干元素(符号、字母)组成的有限非空集合。不同的语言可以有不同的字母表,例如汉语的字母表中包括汉字、数字及标点符号等。 符号串的连接:设x和y是符号串,它们的连接xy是把y的符号写在x的符号之后得到的符号串。 例如 x=ST,y=abu,则它们的连接 xy=STabu,|x|=2,|y|=3,|xy|=5 由于ε的含义,显然有εx=xε=x。 符号串的方幂:符号串自身连接n次得到的符号串xn 定义为 xx…x; n个x x1=x, x2=xx且x0=ε 若用?表示空集,则有: A+? = ?+A = A A? = ?A = ? {?}A = A{?} = A 例:若集合A=?ab,cde? ,集合B = ?0,1?,则AB =?ab1,ab0,cde0,cde1?; Σ的闭包:用?*表示?上的一切符号串(包括ε)组成的集合,Σ*称为Σ的闭包。 例如:Σ={a,b} Σ*={ε,a,b,aa,ab,ba,bb,aaa,aab,…} Σ的正闭包:?上除ε外的所有符号串组成的集合记为?+ ,Σ+称为Σ的正闭包。 例如:Σ={a,b} Σ+={a,b,aa,ab,ba,bb,aaa,aab,…} 2.2.2正则表达式的定义 正则表达式就是用特定的运算符及运算对象按某种规则构造的表达式。 每个正则表达式代表一个字符串的集合,我们把其称为正则集。 语言(Language)是字符串组成的集合,我们也可以把正则表达式表示的正则集称为该正则表达式表示的语言。 正则表达式和它所表示的正则集(字符串的集合)的递归定义如下: 设有字母表为Σ,辅助字母表Σ’={ф,ε, | , . , * , ( , ) } 正则表达式是表示模式的一种重要方法,每个模式匹配一个字符串集合(即正则集)。 正则集是正则表达式所定义的语言。 正则表达式可以作为字符串集合(即正则集)的名字。 2.2.3 正则式基本等价关系 A1. r|s=s|r A2. r|r=r A3. r|?=r A4. (r|s)|t=r|(s|t) A5. (rs)t=r(st) A6. r(s|t)=rs|rt A7. (s|t)r=sr|tr A8. r?=?r=? A9. r?=?r=r A10. r*=(?|r)*=?|rr* 从集合论的角度去理解! 2.2.4 正则表达式的扩展 1.一个或多个重复(+,*): 假设r是正则表达式, r的重复是通过使用标准的闭包运算来描述,写作r*。它允许r被重复0次或更多次。 用r +表示r 被重复1次或更多次。因此有: (0|1)+=(0|1)(0|1)* 可选的子表达式(?): 如果在特定的串中包括既可能出现又可能不出现的可选部分。例如, nat=[0-9]+ signedNat=nat|+nat|-nat 我们可以引入问号?来表示r 匹配的串是可选的;上面的例子可写成: nat=[0-9] + signedNat=(+|-)?nat 2.2.5 单词的正则表达式举例 每一种程序设计语言都有自己的字符集(字母表)?。 语言中的各个单词或是?上的单个字符(如运算符、分隔符等),或是?上的字符串(如常数、表示符和关键字等)。 程序设计语言的单词都能用正则式来定义.由正则式描述的单词类也称为正则集。 并非用简单术语描述的所有串都可由 正则

文档评论(0)

wendan118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档