- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言、形式语法与自动机
形式语法与自动机理论是口然厝言的计算机处理的基础理论。
一、形式语法与自动机理论
1.形式语法
从数学的观点看.自然语言的表达式是一个个有穷长的符号串(其中的符号可以是子、 词、音节等)。但并非每个串都是自然语言允许的合法的表达式。语法(grammar)的作用 就是以某种方式在所有有穷串的集合中“选”出一个子集,该子集中的串是“合法”的。
有两类数学“装置” 自动机(automaton)和串重写系统(string rewriting system),
可以用于从数学和计算机的角度考察语法。
一个形式i吾法(fonnal grammar).简称“语法”,实质上可以看作是一个基于公理和推 演规则的推演系统。
定义1形式语法
一个形式语法是一个四元组<V7. Vn,S,R>其中:
V7称终结符字母表(the icrminal alphabet),直观上是语言中全部表层符号的有穷集合。
称非终结符字母表(lhe non-cerniinal alphabet),直观上是表示语法范畴的符号的有穷 集合.
V7与%相交为空.
S 称初始符号(initial symbol), 5eVVo
R称規则集(the sei of rules),直观上是一系列形如的规则的集合,其中<p和屮 是符号串。设Z=VrUV.v, £*={sls 是有穷E串}, £*%£*= {CZIa,cE£*, bW 明,有穷 集心必£*X£*。
定义 2 派生(derivation)
设G=<Vn,S,R>是一个语法。一个G的派生是一个符号串的序列m...,,其中X。
=5, M是由应用某条中的规则得出的
定义3生成(generate)
语法G生成串当且仅当,存在一个G的派生ao,...,x”,
i吾法G生成的语言UG)={sEVt^s由G生成
例4形式语法举例
Gi=v0Kv,S./?,其中 V『={a.b}, Vy={S.A.B}, S=S, R 如下:
S-ABS.
S-e (空串),
AB-BA.
BA-AB,
A—a.
Bf
则G如何生成串abba?
S n ABS = ABABS = ABAB = ABBA = ABbA = aBbA = abbA = abba。
不难发现L(G)= {sw (a. b}*l s中a与b个数相等}。
G\=Vr. S. R.其中 *={P,f c.m A.f ▽.(.)}, Kv={ Form. Term, Con, Var} 5=Form, R 如下:
Form -i Form
Form (Form A Fonn)
Form V Var Form
Form — FTcrm
Term -* Con
Term -* Var
Term -* /Term
9 Var xo
9+〃 Var f 心
不难发现 口 G)=Fomhyc])B
一个“零”至“九十九”的汉语数字词的形式语法。
ZERO-* 零
DIG- —
DIG-二
DIG-九
TEN-十
DEC-TEN DIG
SfZERO
S-DIG
S-TEN
S-DEC
S-TEN DIG
S-DEC DIG
i吾法生成串的过程以及串的i吾法结构可以通过(有序)树形图清晰地表现出来。树可以
表现出:句子成分的层及分组信息、语法类型信息和顺序信息.
例5根据例4 (3),字符串“五十三”的树:
S
DEC DIG
DIGTEN
DIG
TEN
一个Parser程序。
几个关于树的语法分析中经常用到的概念。
统御(dominance),直接统御:
福于(belongs),统制/命令(command), c.统制/命令(constituent-command):
先行(precedence)?
2.乔姆斯基层级(the Chomsky Hierarchy)
对所有形式语法进行的分类:按照重写規则的限制由弱増强,或者说i吾法生成能力的由 强减弱,分为Type 0至Type 3.
定义7 T\pe 0至l\pc 3语法
设a. p.v是任意串,A.B是非终结符,x是终结符串。
I\pc 0 (recursive enumerable grammar, unrestricted rewriting system):由定义 1 所定义的 语法。
Type 1 (context sensitive):每条规则都形如aAp—ayp,其中屮女。(或:屮—co, to不
Type 2 (context free):毎条规则都形如
Type 3 (regular, right linear, finite state grammar):每条规则都形如 A—xB 或 A—x。
命题8几种语法间的包含关系
Type ScT^pe 2。
不含空串的Type 2cTpc 1
原创力文档


文档评论(0)