中文信息处理的学科理论.PPTVIP

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文信息处理的学科理论

第五章 中文信息处理的学科理论 授课时间:2007年1月9日 授 课 人:徐艳华 信息处理的句法理论 信息处理的语义理论 中国计算语言学的理论影响 一、短语结构语法 语言知识的形式化表达手段主要有三种:形式语法、状态转移网络以及特征结构与合一运算。以这些表达手段为基础,对具体的一种自然语言(如汉语)的语言知识进行系统的整理,就得到了关于这种语言的形式语法理论体系。目前基于规则的自动句法分析的形式语法理论主要有短语结构语法、转换生成语法、管辖约束理论、广义的短语结构语法、功能合一语法、词汇功能语法、中心词驱动的短语结构语法、范畴语法、依存语法、树连接语法、链语法等。这些理论都是在计算语言学中经常使用的,它们是学习和研究时应该具备的计算语言学的基础知识。其中,短语结构语法是各种理论和方法的基础。 1、短语结构语法的形式化定义 短语结构语法PSG可以定义为一个四元组: G=T,N,S,P 其中,T是终结符号(terminal symbols)的集合,任何一部现代汉语词典中的词都可以成为这部语法中的终结符号。N是非终结符号的集合,包括词类标记(如名词N,动词V等等)和短语功能标记(如名词性短语NP,动词性短语VP等等)。S是N中的一个元素,称作起始符,语言中的每个句子都是从这个起始符开始推导。P代表一组式子组成的集合,P中的式子具有这样的形式:α→β。一般把具有上面这种形式的式子称为“产生式规则”(production rule)或“重写规则”(rewriting rule),式子中的箭头“→”表示替换的意思,即将左边的字符串α替换为箭头右边的字符串β。 产生式需要满足下面三个条件: α可以是T和N上的任意字符串,但不能是空字符; β可以是T和N上的任意字符串,也可以是空字符; P中至少有一个产生式中的α必须由S来充当。 一条“产生式”就是一条句法规则。不同类型的语法对规则的形式有不同的限制,句法分析前首先要确定使用什么类型的语法。 2、短语结构语法的乔姆斯基分类 乔姆斯基对短语结构语法的重写规则α→β给予不同的限制,得到了4种不同的语法,由于它们是一层套一层的,所以被人们成为“乔姆斯基层级” (1)无约束短语结构语法 又叫0型语法或无限制语法,对于该语法中的每一条产生式α→β,没有任何限制,那么它就成为乔姆斯基层级中生成能力最强的一种形式体系,即0型语法。被这种无约束短语结构语法所定义的语言叫0型语言。 (2)上下文有关语法 如果语法中的每一条产生式α→β都满足|α|≤|β|,即规则左部的符号个数少于或等于规则右部的符号个数(如ABC→AbC或者ABC→ADEC),这种语法就称为上下文有关语法或1型语法。由这种语法产生的语言成为1型语言。 α→β是抽象的产生式,其中α和β都是变量,我们不妨以具体的产生式为例来理解这种语法。如产生式: aXc→abc 这条产生式的意思是:如果X出现在上下文“a/c”中,即上文紧挨着符号串a,下文紧挨着符号串c,则非终结符X可以重写为终结符b。因为一个符号的重写依赖于其上下文,这就是这种语法被称为上下文有关语法的原因。 (3)上下文无关语法 如果一个短语结构语法中的每条规则都采用A→α的形式,其中,A∈N,α∈(T∪N),即每条产生式的左侧必须是一个单独的非终结符,规则右部是非终结符和终结符的组合或者是终结符。在这种形式体系中,规则被应用时不依赖于符号A所处的上下文,因此称为上下文无关语法,又叫2型语法。由这种语法产生的语言叫2型语言 比如规则集: S→(S) S→x 所生成的语言就是一个上下文无关语言。它可以生成成对的括号表达式:x,(x),((x))…… (4)正则语法 又称3型语法,它有两种形式:左线性语法(left-linear grammars)和右线性文法(right-linear grammars)。在一部左线性语法中,所有规则必须采用如下形式:A→Bα或者A→α;而在一部右线性语法中,所有规则必须如下书写:A→αB 或者A→α。其中,A,B∈N,α∈T,即A和B都是单个非终结符,α是终结符的组合。 以上四种形式语法,无约束短语结构语法由于不受任何约束限制,生成能力太强,因此无法设计一个程序来判别输入的字符串是不是0型语言中的一个句子,所以0型语法一般很少被使用,也未被用来描写自然语言;上下文有关语法的分析算法过于复杂,尽管1993年周明等用这种语法标注了1300个汉语简单陈述句,但获取的规则数量太大,不便于实际应用;正则语法通常用于词法分析;上下文无关语法的规则体系便于构造,其生成的语言与自然语言最相近,被广泛应用于程序设计语言和自然语言的描写中。所以,一般意义上的短语结构语法

您可能关注的文档

文档评论(0)

zhaoxiaoj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档