- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言,形式语法及自动机
自然语言,形式语法与自动机
北京大学 哲学系 郑 植
2016.2.23
1
语言与语法
从数学的观点看,自然语言的表达式是一个个有穷长的符号串(其中的符号可以是字、词、音节等)。
但并非每个串都是自然语言允许的合法的表达式。
语法(grammar)的作用就是以某种方式在所有有穷串的集合中“选”出一个子集,使得该子集中的串是“合法”的。
设 A 是符号集,则 A* 表示 A 的全体有穷符号串的集合(包括空串 e)。
“联结”函数 ︵:A*→A*,a︵b=ab。
结构 A*, ︵, e 是幺半群:(a︵b)︵c=a︵(b︵c),a︵e=e︵a=a。
2
1.形式语法
一个形式语法(formal grammar,简称“语法”),实质上可以看作是一个基于公理和推演规则的推演系统。
3
派生与生成
4
几个形式语法的例子
5
6
7
树
8
语法生成串的过程以及串的语法结构可以通过(有序)树形图清晰地表现出来。树可以表现出:句子成分的层及分组信息、语法类型信息和顺序信息。
9
例6 一个Parser程序
几个关于树的语法分析中经常用到的概念
10
Dominance, immediately dominance
Belong to, command, constituent-command
Tom told Andy that yesterday Jack hurt himself.
himself 指谁?
Precedence
乔姆斯基层级
11
形式语法的分类:按照重写规则的限制由弱增强,或者说语法生成能力的由强减弱,分为Type 0至Type 3。
乔姆斯基层级
12
IL是Type 3。
2.自动机
13
自动机是一种理想化的数学计算装置。在自然语言语法处理中,可以想象自动机可以用来检验符号串的合法性——将一个符号串输入给自动机,由自动机依据形式语法判定其是否合法。如果合法,自动机给出结果“接受”,反之给出结果“拒绝”。
据判定规则和工作原理的不同,自动机根可分为多种。不同种类的自动机与不同类型的形式语法存在对应关系。
2.1有限状态自动机
14
15
16
17
正则语言(Type 3)就是有限状态自动机语言。
正则语言由正则语法生成,用有限状态自动机识别。
给定一个 Type 3 语法,构造一个有限自动机:
A→xB:读取x,由状态A进入状态B
A→x:读取x,由状态A进入终止状态F
给定一个有限自动机,构造一个 Type 3 语法:
若 qj 不是终止状态,qi, x, qj:qi→xqj
若 qj 是终止状态,qi, x, qj:qi→x
非终结符集即状态集,终结符集即字母表
正则语法的缺陷:只能向右扩展。
英语不是正则语言。
18
英语不是正则语言。
(1)The cat died.
(2)The cat the dog chased died.
(3)The cat the dog the rat bit chased died.
(4)The cat the dog the rat the elephant admired bit chased died.
(the + CN)n + (TV)n-1 + IV
设 A 是“the + CN”的集合,B 是 TV 的集合,则上述句型的字符串具有形式:
x1 ... xn y1 ... yn died(xi∈A,yi∈B)。
设 L={x1 ... xn y1 ... yn died | 任给 xi∈A,yi∈B,n≥1}。
L 由英语和正则语言A*︵B*︵{died}相交得到。
正则语言对交运算封闭。若英语是正则语言,则 L 也是。
但 L 不是(证明类似于{anbn| n≥0})。
因此英语不是正则语言。(Chomsky, 1956; 1957, Chapter 3)
19
英语不是正则语言。
英语中存在许多跨主谓结构的一致与对应。
Anyone1 who feels that if2 so-many3 more4 students5 whom we6 havent6 actually admitted are5 sitting in on the course than4 ones we have that3 the room had to be changed, then2 probably auditors will have to be excluded, is1 likely to agree that the curriculum needs revision. (Chomsky Miller, 1963)
1 2 3 4 5 6 6 5 4 3 2 1
{xxR| x∈{a, b}*}不是正则语言(因为它与正则语言 aa*bbaa* 的
文档评论(0)