网站大量收购独家精品文档,联系QQ:2885784924

编译原理 教学课件 作者 康慕宁 林奕 讲稿_2.ppt

编译原理 教学课件 作者 康慕宁 林奕 讲稿_2.ppt

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.8从有限状态自动机转换到正规文法 从DFA转换到正规文法可使用如下的转换规则: 【算法2·7】 对于每个形如?(A,a)=B的转换函数,我们可在产生式集合中添加产生式“A→aB”; 对于DFA中的每个终止状态F,添加产生式“F→?”到产生式集合中。 例如,对于【例2·9】所得的DFA,我们可得到产生式集合: A→aB|bD B→bC C→aA|bD|? D→aB|bD|? 至此,我们已完全掌握了FSA、正规表达式、正规文法三者之间的转换方法。 其中,最常进行的转换是从正规文法或正规表达式到DFA的转换。还须指出的是,目前我们只是涉及到右线性文法,有时,我们也会遇到左线性文法定义正规集的情况。 当然,我们可以先将其转换为右线性文法后,再进行DFA的构造工作。 从左线性文法到右线性文法转换的最简单的一种方法是,首先将文法按照与【算法2·2】类似,将其转换成正规表达式,再使用【算法2·1】将所得的正规表达式转换成右线性文法。 将左线性文法转换成正规表达式的转换规则 【算法2·8】 若A→Bx B→y是文法的产生式,则令“产生式”改写为A→yx; 若A→Ax A→y是文法的产生式,则令“产生式”改写为A→yx*; A→x A→y是文法的产生式,则令产生式改写为A→x|y; 重复使用上述三项转换规则,直到文法仅余下一条产生式S→w,其中,S是原文法的开始符号,w即是合并文法产生式后最终得到的正规表达式。 2.7有限自动机在计算机中的实现 虽然我们可以从文法或正规表达式出发,使用目前已有的一些编译程序生成工具直接构造出我们需要的编译器来,但是,了解和掌握如何通过手工进行扫描器的构造是十分有益的。 一个计算机可以视为是具备输出功能的FSA。若我们忽略它的输出功能,并视它的键盘为FSA有输入带,且不具备回退功能。 也就是说,若从键盘上读入一个字符,则该字符就从输入带中永远消失了。计算机FSA的输入字母表就是键盘上的所有键。 通过编程,可以让计算机模拟FSA的工作。它把从键盘读入的每个字符作为输入符号,并根据当前状态与输入符号确定下一步动作(状态转换),或给出拒绝或接受输入符号串的结论。 【例3·10】给定FSA M: 模拟M的C程序算法参见教材P36-37 (略) 应当指出,上面程序的运行效率并不是很高。因为在实际的扫描器中,自动机往往有几十个不同的状态,不同的输入符号有数百个,构成的状态矩阵将会有数十万个元素,而相应的状态转换矩阵是很稀疏的,因此用查找矩阵方法来实现状态矩阵的转换,显然效率很低。 在实际的算法实现中,往往采用switch (case)结构对每个具体的状态进行分门别类地处理,同时,在识别单词的过程中完成一些必要的语义处理工作。 2.8扫描器实现中的特殊问题 输入符号表 在常见的扫描器FSA中,状态数大约有60个左右,若以所有ASCII字符作为输入符号集,则共有128个字符。这样,状态转换矩阵约有8000个元素。 为节约资源,常见的解决方法是,将所有性质类似的符号归并为一类,用一种符号表示。如所有的拉丁字母、所有的数字等可用letter和digit表示。 扫描器自动机中的终止状态 扫描器自动机在识别输入符号串的结束时,如何判定一个单词已被识别,或者说,如何在输入符号串中确定一个单词的结束字符呢? 例如,对于正规表达式l*l*来说,输入符号串“abcdefghi”的识别就面临无法确定第一个l*应在哪里结束,及第二个l*应在哪里开始的尴尬局面(虽然在实际的程序设计语言中这样的正规表达式是不存在的,但类似的情况却是可能的)。 另外,扫描器中的自动机还面临如何确定停止识别输入符号并停止的问题。 解决此问题的常见方法是采用最长匹配原则:即自动机先不考虑是否已到达某个终止状态,而是只要它还能“吃进”输入符号,就让其不断地进行状态变换,直到它不能再前进为止。 此时,若FSA进入到了终止状态,则接受该符号串为一单词;否则,回退到最近一次遇到的终止状态,并将此终止状态之前所识别的符号串作为识别出的单词;若在识别过程中在从未遇到终止状态,则拒绝该输入符号串。 删除空白符号与注释 在多数程序设计语言中,空白符号(空格、回车、换行、制表符等等)不是单词(Token),扫描器在识别单词的过程中会将其自动删除。 源程序中的注释一般可以出现在程序中的任何地方(在字符串常量中除外),其语法作用如同空白符号,因此也应在识别单词过程中删除掉。 需指出,在实际的实现中,FSA对于注释与空白符号相应的正规表达式的识别是必须的,只是在识别出这类符号(串)后,并不把它们作为单词回送给语法分析程序,而是重新开始识别下一个单词,直到识别出一个有意义的单词时才将其回送给语法分析程序。 例如,C语言的注释是以“/*”为开头,以“*/”为结尾的任

您可能关注的文档

文档评论(0)

118压缩包课件库 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档