树邻接语法-internationallanguagecommunication.pdfVIP

  • 18
  • 0
  • 约1.23万字
  • 约 9页
  • 2017-11-24 发布于天津
  • 举报

树邻接语法-internationallanguagecommunication.pdf

树邻接语法-internationallanguagecommunication

《外语研究》2012 年,第 3 期,p1-6 。CSSCI 检索。 树邻接语法1 冯志伟 (杭州师范大学,浙江 杭州 310036 ) 摘要 树邻接语法是一种基于树的形式语法,本文比较了这种语法与短语结构语法的异同,介绍了树 邻接语法的基本组成要素及其操作模式,重点介绍了接插和替换两种操作,并介绍了推导关系树、树集合、 串语言等概念,最后介绍树邻接语法的新发展--词汇化树邻接语法。 关键词 树邻接语法,词汇化树邻接语法,接插,替换,推导关系树 1. 前言 1975 年,A. K. Joshi, L. S. Levy, M. Takahashi 等人提出“树邻接语法”(Tree Adjoining Grammar,简称 TAG ),TAG 可以识别和生成“树邻接语言”(Tree Adjoining Langrage,简 称 TAL) 。目前,在计算语言学和自然语言处理中,树邻接语法是一种颇有影响的形式语法, 它是一个形式化的树重写系统。本文简要介绍这种重要的形式语法。 树邻接语法是在短语结构语法的基础上发展起来的。它以句法结构树作为核心操作对 象,在树的基础上来组织语言知识,它的产生式规则也对应着树结构,它以线性的一维形式 来表达二维的树结构。 树邻接语法与短语结构语法的不同之处在于,短语结构语法是一种基于符号串的形式语 法,它以符号串 (string )作为操作对象,而树邻接语法是基于树 (tree )的形式语法,树邻 接语法的规则比短语结构语法的规则写得更加细致。例如, 汉语双宾语的树邻接语法的规则可以写为: VP  VP(V NP) NP 这个规则中包含子树 VP(V NP) ,它是一个树结构规则,因此,这个规则实际上包含了 短语结构语法的如下两条规则: VP  VP NP VP  V NP 如果我们使用短语结构语法的两条规则来生成汉语,由于第一条规则 VP VP NP 是自 嵌入的规则,在推导过程中,可以用规则右部的 VP 来不断重写规则左部的 VP ,从而产生 VP NP NP NP NP NP … NP 这样的包含若干个 NP 的符号串,显然这样的符号串在汉语中是不会出现的,是汉语中的不 合法句子。 但是,如果我们使用树邻接语法,只有 VP  VP(V NP) NP 这样包含了树结构的规则, 就只能产生 VP(V NP) NP 这样的树结构,它只包含两个 NP 作为双宾语,是符合汉语语法的。这样,就限制了短语结 1 本文受国家社会科学基金资助,项目号 03BYY019 。 构语法过强的生成能力,保证了规则的准确性。 由此可见,短语结构语法是一个基于符号串的生成系统,而树邻接语法是基于树的生成 系统。当然,由树邻接语法生成的树邻接语言仍然是符号串语言,最终的生成的结果中并不 包含树结构。树邻接语法是对于短语结构语法的重要改进,它比短语结构语法更能反映自然 语言的真实面貌。 2. 树邻接语法的基本组成要素 一个树邻接语法是一个五元组(∑,NT ,I,A ,S),其中, (i) ∑是终极符号的有限集合; (ii) NT 是非终极符号的有限集合2 ,∑∩NT= φ; (ii) S 是初始符号,它是一个特殊的非终极符号,S ∈NT ; (iv) I 是初始树3(见图 1 中I 树) 的有限集合,它有两个特征: ① 所有的非叶子结点都用非终极符号标记; ② 所有的叶子结点,或者用终极符号标记,或者用带有下箭头( ↓) 的非终极符号 标记。下箭头( ↓)是初始树的标志,它的含义是“替换”(substitution ),它表示该 结点可以被其他的树结构替换。 如果一个初始树的根结点为 X ,则这个初始树在 TAG 系统中叫做 X 类型的初始树。 (v) A 是辅助树4(见图 1 中A 树) 的有限集合,它也有两个特征: ① 所有的非叶子结点都用非终极符号标记; ② 辅助树叶子上的结点用终极符号或非终极符号标记。A 树叶子上的非终极符号

文档评论(0)

1亿VIP精品文档

相关文档