- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于语义类的汉语句法分析研究 李辉 2013.04.01 句法分析的困难 句法分析的最主要的困难有两点: 第一个难点是歧义“自然语言区别于人工语言的一个显著特点就是它存在大量的歧义现象”人类可以依靠大量的先验知识有效地消除各种歧义现象,而机器由于在知识表示和知识获取方面的不足还难以像人类那样进行句法分析。 第二个难点是搜索空间巨大“同一般的分类问题相比,句法分析是一个更为复杂的问题”因为分类问题只需要在预先指定好的数目确定的若干种类型中做出一个选择就可以了,而在进行句法分析时,不同的句子会有不同的候选分析树“给定一个长度为n个词的句子,其可能的候选句法分析树的个数高达n的指数级”因此在设计句法分析模型时不仅仅要加强模型消除歧义的能力,还必须要控制好模型的复杂度,从而保证解码器能够在可接受的时间内搜索到最优的句法分析树。 基于语义类的汉语句法分析 一般情况下,训练数据的规模越小,句法分析模型的性能就越低“主要原因有两个:第一个原因是数据稀疏问题,参数估计得不准确;第二个原因是训练数据缺乏容易引起过拟合(overtfinig)现象,使模型的泛化能力降低”针对这两个问题,本章将以最小描述长度原则为基础,探索基于语义类的汉语句法分析模型“在基于词类的汉语句法分析模型中,我们用语义类来代替词汇信息”这种方法。 基于语义类模型的输入是一个由词汇,词性和语义类组成的三元组序列: W,POS,SC 其中W(w1,,,wn)为词序列,wi表示第i个词;SC=(sc1,,,scn)为语义类序列,sci表示第i个词的语义类;POS=(t1,,,tn)为词性序列,ti表示第i个词的词性。 给定W,POS,SC,我们仍然是用统计方法来消除句法歧义,认为条件概率最大的句法分析树是最好的,即 根据贝叶斯公式并略掉常数项,我们有: 为了简化模型,我们假设词序列砰的产生仅仅依赖于SC。 在做句法分析时,W,sc都是给定的,因此, 是一个可以被省略的常数,我们有: 模型总是先产生词性,然后以词性为基础再产生语义类因此,只有词性相同的词语被划分在同一个语义类中才有意义根据语料库中的数据,我们为每一个词性都建立一棵七层的语义分类树,树的根节点为词性,叶节点为词汇,中间的五层为语义类代码例如:词性NR(专有名词)的语义分类树的一部分如图所示: 为每一个词性都划分好这样的语义分类树之后,就可以应用文献所提出的方法,把词语的聚类问题简化为语义分类树的剪枝问题语义分类树的每一种剪枝方式都对应着一种词汇聚类结果例如,在图中,靠近根节点的剪枝方式把所有的词汇分成了如下的3类: 第一类(A):{克林顿尼克松毛泽东邓小平} 第二类(D):{中国美国意大利安徽省福建省中科院鞍钢} 第三类(B):{长城白宫} 类似地,在图中,靠近叶节点的剪枝方式把所有的词语分成了如下 7类: 第一类(Afloc12):{克林顿尼克松} 第二类(Afloe13):{毛泽东邓小平} 第三类(oioZAo3):{中国} 第四类(Di02C):{美国意大利安徽省福建省} 第五类(omolB):{中科院} 第六类(omO3C):{鞍钢} 第七类(BnolC):{长城白宫} 我们可以用两个极端方式对语义分类树进行剪枝:第一种剪枝方式是只保留根节点(词性信息),其它节点全部剪掉,这相当于回到了PCFG模型。第二种剪枝方式是不剪枝,保留所有叶子节点(词汇信息),这相当于是词汇化模型。我们知道PCFG模型过于简单,消歧能力差;而词汇化模型使用词汇信息却引起数据稀疏。因此,上述两种方式都是不可取的,比较合理的剪枝应该是介于两个极端方式之间的。本文采用最小描述长度(MniimumDescriPtinoLnegth,MDL)原则,自动地为句法分析模型在两个极端方式之间寻找一个平衡点。 对于一棵剪枝后的语义分类树,其描述长度为: 其中,lGl为所有候选剪枝方式数目; lSl为样本数,即该分类树下的所有词语出现次数之和;k为剪枝后的语义分类树的自由参数的个数。 语义分类树的参数个数为其叶节点数目。每个叶节点对应着一个概率值,由于所有概率之和必须为1,则此约束限定了一个参数。因此自由参数的个数为叶节点数目减一。 其中,sc为w所属的语义类,f(sc)是其出现的次数,lscl伪语义类sc中所包含的词语数目。上式的基本思想是把某个语义类sc的概率平均分配给该语义类所包含的
文档评论(0)