- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
编译原理基础知识
?
引用
Elly的编译原理基础知识
编译是将计算机高级语言如C++、Java、C#编写的源程序翻译成可以在计算机上执行的机器语言的翻译过程。编译过程中分:词法分析、语法分析、语义分析、源代码优化、代码生成和目标代码优化几个过程。ANTLR解决的是词法分析和语法分析的问题,下面介绍一下编译原理中有关词法分析和语法分析的基本知识。
词法分析是对源程序一个一个字符地读取,从字符中识别出标识符、关键字、常量等相对独立的记号(token,也叫符号或单词),形成记号序列记号流的过程。如c、l、a、s、s五个字符构成了关键字class,2、3构成了一个整型数23。词法分析过程中会滤掉源程序中的空格、换行符和注释等不属于源程序的字符,还可以将记号归类,哪些记号属于标识符,哪些记号属于关键字、整数、浮点数等。记号流是语法分析的基础。
语法分析是根据词法分析输出的记号流,分析源程序的语法结构,并添加代表语法结构的抽象单词(如:表达式、类、方法等),按照语法结构生成语法树的过程。前面讲的词法分析后形成的记号序列是描述程序的直接标识符序列,是线性的。它没有反映出源程序的结构。而语法分析后生成的语法树是可以表示源程序结构的数据结构,语法树的叶子节点就是记号。下面举一个简单的例子说明词法分析和语法分析之关的系统,有如下的源程序:
class T{
string Name;//name of T
object GetValue(){
}
}
进行词法分析后形成记号流:
class T{string Name;object GetValue(){}}。
进行语法分析后形成语法树:
我们这里不介绍编译原理的其它部分,因为ANTLR只涉及到了词法分析和语法分析这两个部分。读者可以去参考原理的书籍。了解ANTLR在编译过程中所处的位置后。我们来详细学习一下有关词法分析和语法分析的基础概念。
2.1什么是文法
一种程序设计语言的语法是规定源程序的写法是否合法的规则,它存在于词法分析和语法分析两个阶段。如:词法分析中123表示合法整数,1_23是不合法整数。在语法分析中if(boolVar){}是合法的语句,if(boolVar){是不合法的语句。那么我们怎样来定义语法规则呢?定义语法规则的工具是文法(grammar),文法是由若干定义语法规则的推导式组成的。下面例子中用文法定义了人类语言的语法规则:
语言=(句子)+
句子=主语谓语
谓语=动词宾语
主语=名词
宾语=名词
名词=张三|代码
动词=编写
如,张三编写代码这句话在文法中的推导过程是:
语言=主语谓语
=张三动词宾语
=张三编写名词
=张三编写代码
另外编译原理中一般用大写字母表示一个文法的名称,再加上文法的启始规则组成文法的表示符号。如上面的文法如果名称为G,可以表示为G[语言]文法。
2.2符号表、符号串、推导式和句子
不管是人类语言还是计算机语言都是用符号组成的,英文由字母、数字和标点符号等组成,中文由汉字、数字和标点符等组成,计算机语言由关键字、字母、数字和一些专用符号组成。
这些组成语言的基本符号加上推导出基本符号的抽象符号集合在一起称为符号表,用V来表示,符号表是不允许为空的。如G[语言]文法的符号表是:{语言,句子,主语,谓语,宾语,名词,动词,张三,代码,编写},符号表中可以继续推导的中间符号称为非终结符,用Vn表示,不能再继续推导的符号称为终结符,用Vt表示。G[语言]文法的非终结符集合为:{语言,句子,主语,谓语,宾语,名词,动词},终结符集合为{张三,代码,编写}。
符号表中符号的任意有穷组合序列称为符号串。张三张三、张三代码编写、张三语言句子宾语宾语都是G[语言]文法符号串。很明显一种文法的符号串不一定是这种文法的合法句子。符号串是有长度的,它的长度是符号的个数,如张三张三的长度是2,张三语言句子宾语宾语的长度是5。
文法是定义语法规则的工具,语法规则简称规则(rule)又称推导式或产生式。假设a和b都是一个文法的符号串,我们用a=b表示一个规则,其中a不能为空。也就是说句子=是合法的规则=主语是不合法的,一个文法要由至少要有一个规则。规则a=b使用b来替换a的过程叫做推导,反用b来替换a的过程叫归约。
如G[S]是一个文法,S为启始规则,从S推导若干次后形成的符号串叫做G[S]文法的句型。如果推导出的符号串全都由终结符组成此符号串叫做G[S]的句子。前面示例中张三动词宾语是G[语言]文法的句型,而张三编写代码是G[语言]文法的句子。编译原理中也使用四元组来表示文法G[Vn,Vt,P,S],其中G为文法句称,Vn为非终结符的集合,Vt为终结符的集合,P是文法规则的集合,S为启始规则。
2.3文法的类型
一个文法G[S],S为启始规则,如果它的所有规则符合形如:a
文档评论(0)