《中文文本信息处理》 第七章 语法表示.ppt

《中文文本信息处理》 第七章 语法表示.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理的原理与应用 短语结构与语法树 定义与用途 示例 树的概念 中文文本信息处理的原理与应用 树的概念 树是图的一种,是由结点集合和边集合组成的 树与其他图的主要差别在于树中不包含任何循环 一条边上端的结点管辖边下端的结点,没有被任何结点管辖的结点称为根结点,而没有管辖任何结点的结点是叶子结点 中文文本信息处理的原理与应用 Thanks 中文文本信息处理的原理与应用 第七章 语法表示 同济大学计算机科学与技术系 中文文本信息处理的原理与应用 关于本章 实现句子识别器或句法分析器,需要预先赋予计算机两种能力:语法和语法分析算法 本章主要介绍语法的表示 本章将介绍两种表示方式:重写规则和转移网络 中文文本信息处理的原理与应用 主要内容 形式语法描述 短语结构语法 转移网络 短语结构与语法树 中文文本信息处理的原理与应用 形式语法描述 列举方法 正则表达式法 中文文本信息处理的原理与应用 列举方法 把一种语言中所有可能的句子都列举出来作为这种语言的语法 这种语法描述不是可递归的,不能完成自然语言句法分析的任务 不能对新句子进行结构分析 语法描述的改进:描述可递归语言;描述的句子应该是有内部结构的 中文文本信息处理的原理与应用 形式语法描述 列举方法 正则表达式表示法 中文文本信息处理的原理与应用 正则表达式表示法 首先建立一些语法范畴,把具有相似语法行为的词归入一个相同的语法类别。 例如:本章使用几种常用的语法类别,包括ART(冠词)、N(名词)、V(动词)、ADJ(形容词)、ADV(副词)和PRON(代词)等。 描述这些语法类别如何进一步组合为语法行为 ,列出语法类别的所有可能的组合模式。 例: ART+N;ART+N+V;ART+ADJ+N+V 这种以语法类别为单元的模式就比以词本身为单元的列举具有更强的推广能力。 中文文本信息处理的原理与应用 正则表达式表示法(续一) 引入几个记号可以大大扩展上述模式的描述能力 (1)Kleene星,记为*,例如: ART+ADJ+ADJ*+N *号出现在ADJ的右上角,表示ADJ可以出现0次或0次以上 (2)Kleene加,记为+,例如: ART+ADJ++N +号出现在ADJ的右上角,表示ADJ可以出现1次或1次以上。 中文文本信息处理的原理与应用 正则表达式表示法(续二) (3)圆括号,记为( ),例如: ART+(ADJ)+N ADJ外加一个圆括号表示ADJ可以出现1次,也可以1次也不出现。 (4)垂直线,记为 | ,例如: N | PRON + V N和PRON中间的直线表示可以是N,也可以是PRON,它们都可以与后面的V组成这个模式,但二者不能同时出现。 中文文本信息处理的原理与应用 正则表达式表示法(续三) 引入利用正则表达式来描述语法具有了一定的推广能力,但还有进一步改进的余地 。 中文文本信息处理的原理与应用 主要内容 形式语法描述 短语结构语法 转移网络 短语结构与语法树 中文文本信息处理的原理与应用 短语结构语法 重写规则: 重写规则是一种用来描述规则的形式化表示方式,例如: S→NP VP 就是一个重写规则。 其中,S代表一个句子;NP,VP表示两个短语,NP表示一个名词短语,VP表示一个动词短语。 中文文本信息处理的原理与应用 短语结构语法(续一) 定义: 包含若干条重写规则的形式语法 可以表示为四元组(T,NT,S,P) T:终结符号集合 NT :非终结符号集合 S :特殊的非终结符号 ,表示句子 P:重写规则的集合 用途: 可以描述可递归枚举语言 中文文本信息处理的原理与应用 主要内容 形式语法描述 短语结构语法 转移网络 短语结构与语法树 中文文本信息处理的原理与应用 转移网络 定义 有限状态转移网络 递归转移网络 中文文本信息处理的原理与应用 定义 由结点集合和边集合组成的一个图 边都是带标记的 结点集合中有一个结点是初始状态或称开始状态,还有一个或多个终止状态 中文文本信息处理的原理与应用 转移网络 定义 有限状态转移网络 递归转移网络 中文文本信息处理的原理与应用 有限状态转移网络 由结点集合和边集合组成的一个图 边都是带标记的 结点集合中有一个结点是初始状态或称开始状态,还有一个或多个终止状态 中文文本信息处理的原理与应用 有限状态转移网络

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档