第三章 词法分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章词法分析重点讲义

第三章 词法分析 主要内容: 词法分析概述 词法分析器的设计 词法分析器的实现 词法分析器自动生成 3.1 词法分析介绍 词法分析器功能 功能 读源程序的字符序列,逐个拼出单词,并构造相应的内部表示TOKEN.同时检查源程序中的词法错误。 单词 所谓单词是指语言中具有独立含义的最小的语义单位。 Token 单词的内部表示。编译程序总是用某种程序语言书写的程序,语言的操作对象只能是该语言规定的各种数据。而编译程序的操作对象是程序中的各种语法单位,因此,必须把它们表示成某种数据结构形式。 词法分析器的接口 CharList 3.2 词法分析器的设计 一般常用程序设计语言的单词可以分为以下几类: 1. 保留字:保留字一般是由语言系统自身定义的, 通常是由字母组成的字符串。 2. 标识符:标识符一般是由字母开头,字母、数字 或其它符号的任意组合构成的。 3. 常量:用来表示各种常量。主要包括整数常数、 实数常数、字符串常量等。 4. 特殊符号:包括运算符和界限符。运算符表示程 序中算术运算、逻辑运算、字符运算、赋值运 算的确定的字符或字符串。 单词的内部表示TOKEN的结构一般由两部分组成:单词类别和语义信息。单词类别用来区分单词的不同种类,通常可以用整数编码来表示。单词的语义信息也取决于今后处理上的方便。 对于常量和标识符还可以单独构造常量表和标识符名字表,此时,单词的语义信息的值就是指向常量表或标识符名字表中相应位置的指针。 描述程序设计语言中单词的工具主要有以下三种:正则表达式、自动机和正则文法。它们的功能彼此相当。对于一个一般的程序设计语言,各类单词的正则表达式可能如下 : 1)标识符: L(L | D)*, 其中L=[a-z, A-Z], D=[0-9] 2)整数: D1D*, 其中D1=[1-9] 3)特殊符号:+ | ;| :| := | | = | … 4)保留字: begin | end | while | … 构造识别单词的有限自动机的方法与步骤如下: 1. 根据构成规则对程序语言的单词按类构造出相应 的状态转换图。 2. 合并各类单词的状态转换图,构成一个能识别语 言所有单词的状态转换图。合并方法为: (1)将各类单词的状态转换图的初始状态合并为 一个唯一的初始状态; (2)化简调整状态冲突和对冲突状态重新编号; (3)如果有必要,增加出错状态。 状态转换矩阵法 把自动机看作一种数据结构(状态转换矩阵),由控制程序控制字符在其上运行,从而完成词法分析。转换矩阵法的优点是程序短,但占存储空间多。 State:=InitState; Read(CurrentChar); while T(State, CurrentChar)?error CurrentChar?Eof do begin State:=T(State, CurrentChar); Read(CurrentChar); end; if State?FinalStates then Accept else Error; 特点 程序短小,但占用存储空间多。 自动机实现(2) 状态转换图的形式: 每个状态对应一个带标号的case语句 转向边对应goto语句 特点:程序长,但占用存储空间少。 3.3 词法分析器的实现 保留字的识别 1)设置保留字表 事先构造好所谓的保留字表,在进行词法分析时,把保留字也当作一般标识符来识别,然后查保留字表,若有,则把它作为保留字来处理;若没有,则按一般标识符来处理。 2)自动机单独识别 在自动机中加入识别各个保留字的状态,即把保留字和一般标识符分开来识别而不统一识别。 复合单词的识别 在程序设计语言中,有一类单词是由两个或者两个以上的符号组成的,这类单词的前缀部分也可以是一个独立的单词。在处理这类单词时要特别加以注意。 数的转换 词法分析程序应该把字符串转换成数,如“123”应该转换成123。 向前看若干个字符的处理 在有些语言里,为了识别出一个单词需要向前看好几个字符。 控制字符的处理 1.无用的空格符和制表符要删掉; 2.字符串内的空格不能删; 3.换行符不能直接删除,用于错误定位。 注释的处理 源程序中的注释没有任何语法和语义上的意义,因此在进行词法分析时可以直接将注释删除,而不必生成其TOKEN 。 标识符表和常量表 直接在语义信息部分存储 语义信息的长度有限制时,可直接将标识符或常量本身存储于其TOKEN中的语义信息

文档评论(0)

dajuhyy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档