7.2自然语言处理的基本技术 7.2.4句法分析2.上下文无关文法一门语言一定有语法(也称文法),也就是词语形成句子的规则。上下文无关文法(Context-FreeGrammar,CFG),即乔姆斯基2型文法,是一种语法的形式化表达方式,它将语法表示为4元组G=(N,T,S,R),其中:1)N是“非终结”符号或变量的有限集合。N中的元素表示句子中不同类型的短语结构或子句结构。2)T是“终结符”的有限集合。T与N不相交。例如,将中文的词视作终结符。3)S是开始符,用来表示整个句子,它是N中的元素。4)R是一个规则集。每条规则(也叫产生式)表示为U→w,其中U∈N,w∈(N∪T)*。由上下文无关文法定义的语言是上下文无关语言。很多计算机语言都是上下文无关语言,自然语言的语法也可以表示为上下文无关文法,但是可能会生成诸如“咬死猎人的猎人”、“咬死狗的狗”和“咬死狗的猎人”这样的合法句子,显然这些句子不太可能出现在人们日常的对话中。这也意味着CFG产生的合法句子数量将是无限的,但是大多数都没有意义。因此,一门采用CFG表示的自然语言的合法语句理论上是无限的,但实际上人类常用的语句并不是无限的。7.2自然语言处理的基本技术 7.2.4句法分析3.概率上下文无关文法根据CFG文法,采用不
原创力文档

文档评论(0)