- 4
- 0
- 约3.02千字
- 约 14页
- 2017-05-30 发布于北京
- 举报
基于语义类的汉语句法分析研究 李辉 2013.04.01 句法分析的困难 句法分析的最主要的困难有两点: 第一个难点是歧义“自然语言区别于人工语言的一个显著特点就是它存在大量的歧义现象”人类可以依靠大量的先验知识有效地消除各种歧义现象,而机器由于在知识表示和知识获取方面的不足还难以像人类那样进行句法分析。 第二个难点是搜索空间巨大“同一般的分类问题相比,句法分析是一个更为复杂的问题”因为分类问题只需要在预先指定好的数目确定的若干种类型中做出一个选择就可以了,而在进行句法分析时,不同的句子会有不同的候选分析树“给定一个长度为n个词的句子,其可能的候选句法分析树的个数高达n的指数级”因此在设计句法分析模型时不仅仅要加强模型消除歧义的能力,还必须要控制好模型的复杂度,从而保证解码器能够在可接受的时间内搜索到最优的句法分析树。 基于语义类的汉语句法分析 一般情况下,训练数据的规模越小,句法分析模型的性能就越低“主要原因有两个:第一个原因是数据稀疏问题,参数估计得不准确;第二个原因是训练数据缺乏容易引起过拟合(overtfinig)现象,使模型的泛化能力降低”针对这两个问题,本章将以最小描述长度原则为基础,探索基于语义类的汉语句法分析模型“在基于词类的汉语句法分析模型中,我们用语义类来代替词汇信息”这种方法。 基于语义类模型的输入是一个由词汇,词性和语义类组成的三元组序列: W,POS,SC 其中W(w1,,,wn)为词序列,wi表示第i个词;SC=(sc1,,,scn)为语义类序列,sci表示第i个词的语义类;POS=(t1,,,tn)为词性序列,ti表示第i个词的词性。 给定W,POS,SC,我们仍然是用统计方法来消除句法歧义,认为条件概率最大的句法分析树是最好的,即 根据贝叶斯公式并略掉常数项,我们有: 为了简化模型,我们假设词序列砰的产生仅仅依赖于SC。 在做句法分析时,W,sc都是给定的,因此, 是一个可以被省略的常数,我们有: 模型总是先产生词性,然后以词性为基础再产生语义类因此,只有词性相同的词语被划分在同一个语义类中才有意义根据语料库中的数据,我们为每一个词性都建立一棵七层的语义分类树,树的根节点为词性,叶节点为词汇,中间的五层为语义类代码例如:词性NR(专有名词)的语义分类树的一部分如图所示: 为每一个词性都划分好这样的语义分类树之后,就可以应用文献所提出的方法,把词语的聚类问题简化为语义分类树的剪枝问题语义分类树的每一种剪枝方式都对应着一种词汇聚类结果例如,在图中,靠近根节点的剪枝方式把所有的词汇分成了如下的3类: 第一类(A):{克林顿尼克松毛泽东邓小平} 第二类(D):{中国美国意大利安徽省福建省中科院鞍钢} 第三类(B):{长城白宫} 类似地,在图中,靠近叶节点的剪枝方式把所有的词语分成了如下 7类: 第一类(Afloc12):{克林顿尼克松} 第二类(Afloe13):{毛泽东邓小平} 第三类(oioZAo3):{中国} 第四类(Di02C):{美国意大利安徽省福建省} 第五类(omolB):{中科院} 第六类(omO3C):{鞍钢} 第七类(BnolC):{长城白宫} 我们可以用两个极端方式对语义分类树进行剪枝:第一种剪枝方式是只保留根节点(词性信息),其它节点全部剪掉,这相当于回到了PCFG模型。第二种剪枝方式是不剪枝,保留所有叶子节点(词汇信息),这相当于是词汇化模型。我们知道PCFG模型过于简单,消歧能力差;而词汇化模型使用词汇信息却引起数据稀疏。因此,上述两种方式都是不可取的,比较合理的剪枝应该是介于两个极端方式之间的。本文采用最小描述长度(MniimumDescriPtinoLnegth,MDL)原则,自动地为句法分析模型在两个极端方式之间寻找一个平衡点。 对于一棵剪枝后的语义分类树,其描述长度为: 其中,lGl为所有候选剪枝方式数目; lSl为样本数,即该分类树下的所有词语出现次数之和;k为剪枝后的语义分类树的自由参数的个数。 语义分类树的参数个数为其叶节点数目。每个叶节点对应着一个概率值,由于所有概率之和必须为1,则此约束限定了一个参数。因此自由参数的个数为叶节点数目减一。 其中,sc为w所属的语义类,f(sc)是其出现的次数,lscl伪语义类sc中所包含的词语数目。上式的基本思想是把某个语义类sc的概率平均分配给该语义类所包含的
您可能关注的文档
- 域名基础知识(ZB).ppt
- 域名服务器组织结构.ppt
- 培养中学生健康的交往习惯课件.ppt
- 初一数学含2016年中考题1.2展开与折叠课件.ppt
- 培养卓越竞争力的思考路径.ppt
- 培养汽车创新人才-郭孔辉院士.ppt
- 初一数学含2016年中考题1.5.2科学计数法课件.ppt
- 培训专业知识及技能 (2).ppt
- 培训中的基本学习原理.ppt
- 培训学校规章制度.ppt
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- DL∕T 781-2021电力用高频开关整流模块_PDF解密.docx VIP
- 2025公务员采矿专业测试题及答案.docx VIP
- 【历史】开学第一课课件--2024-2025学年统编版七年级历史下册.pptx VIP
- 大数据技术在企业会计风险管理中的创新应用 .docx VIP
- 新英语900句(中英文).pdf VIP
- 2025最新高一英语单项选择精编500题.docx VIP
- GBT 28259-2012 石油天然气工业 井下设备 井下安全阀.docx VIP
- 项目九 小学科学教学设计与实施.pptx VIP
- 2025年统编版中考语文课内文言文《桃花源记》三年中考试题+模拟题(学生版+解析).pdf VIP
- 山东省日照市2026届高三上学期期末考试政治试卷(含答案).pdf VIP
原创力文档

文档评论(0)