《中文文本信息处理》 第八章 语法分析.ppt

《中文文本信息处理》 第八章 语法分析.ppt

  1. 1、本文档共122页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文文本信息处理的原理与应用 概率上下文无关文法(PCFG) 定义 本章用到的符号 句子概率的计算公式 PCFG模型假设所基于的条件 文法示例 中文文本信息处理的原理与应用 句子概率的计算公式 一个句子的概率由以下公式给出: t是句子的分析树 而且,我们很容易利用PCFG模型确定一棵树的概率,只需把构造它的各个子树的规则概率相乘即可 中文文本信息处理的原理与应用 概率上下文无关文法(PCFG) 定义 本章用到的符号 句子概率的计算公式 PCFG模型假设所基于的条件 文法示例 中文文本信息处理的原理与应用 PCFG模型假设所基于的条件 这个模型的假设所需要的条件是: 位置不变性。 is the same 上下文无关性。 祖先无关性。 中文文本信息处理的原理与应用 概率上下文无关文法(PCFG) 定义 本章用到的符号 句子概率的计算公式 PCFG模型假设所基于的条件 文法示例 中文文本信息处理的原理与应用 文法示例 中文文本信息处理的原理与应用 文法示例(续1) 利用上表中的语法分析句子“astronomers saw stars with ears ”则有两个概率语法分析树: 中文文本信息处理的原理与应用 文法示例(续2) 中文文本信息处理的原理与应用 概率上下文无关文法分析 概率上下文无关文法(PCFG) 概率上下文无关文法的一些特征 概率上下文无关文法的问题 词串概率的计算 内部-外部算法的问题 中文文本信息处理的原理与应用 概率上下文无关文法的特征 为了覆盖一个庞大而且变化多端的文本语料库中的语言现象,需要不断扩展语法,这样就会使语法出现越来越多的歧义,因而对于大部分词序列开始出现很多结构不同的分析。一个PCFG给出了计算这些不同分析的合理度的一些思路 一个PCFG并没有给出一个计算不同分析的合理度的好思路,因为它的概率估计是基于纯粹的结构因素的,并没有考虑词汇的同现因素。 中文文本信息处理的原理与应用 概率上下文无关文法的特征 (续1) PCFG有利于语法归纳。 鲁棒性。 PCFG给出了一个英语的概率语言模型(然而CFG没有)。 如果用熵来衡量,那么一个PCFG的预测能力要比一个有相同参数的有限状态语法更强。 中文文本信息处理的原理与应用 概率上下文无关文法的特征 (续2) 在实践中,对于英语而言PCFG是一个比n元语法模型描述能力更差的语言模型。一个n元语法模型可以考虑局部词汇上下文,但是一个PCFG却没有利用它。 就PCFG本身而言,它并不是很好的模型,但是我们希望把一个PCFG和三元语法模型结合起来。 PCFG有一些不合适的偏置。 中文文本信息处理的原理与应用 概率上下文无关文法分析 概率上下文无关文法(PCFG) 概率上下文无关文法的一些特征 概率上下文无关文法的问题 词串概率的计算 内部-外部算法的问题 中文文本信息处理的原理与应用 概率上下文无关文法的问题 对应于一个语法G,句子 的概率P( |G)是什么? 句子最可能的分析是什么: arg maxt P( t| , G)?? 我们怎样选择语法G的规则概率才能使一个句子的概率最大:arg maxGP( |G)?? 中文文本信息处理的原理与应用 概率上下文无关文法分析 概率上下文无关文法(PCFG) 概率上下文无关文法的一些特征 概率上下文无关文法的问题 词串概率的计算 内部-外部算法的问题 中文文本信息处理的原理与应用 词串概率的计算 内部概率的使用 外部概率的使用 确定句子的最佳句法分析结果 概率上下文无关文法的训练 中文文本信息处理的原理与应用 内部概率的使用 计算一个词串的总概率的有效方法是内部算法(inside algorihtm),它是一种基于内部概率的动态规则算法 : 基本形式:我们希望得到 ,即规则 的概率大小: 中文文本信息处理的原理与应用 词串概率的计算 内部概率的使用 外部概率的使用 确定句子的最佳句法分析结果 概率上下文无关文法的训练 中文文本信息处理的原理与应用 外部概率的使用 利用外部概率来计算词串的概率,对于任意k,1≤k≤m 外部概率的推导计算需要参考内部概率 中文文本信息处理的原理与应用 外部概率的使用(续) 基本形式:就是非终结符作为根节点时的概率: 当 中文文本信息处理的原理与应用 词串概率的计算 内部概率的使用 外部概率的使用 确定句子的最佳句法分析结果 概率上下文无关文法的训练 中文文本信息处理的原理与应用 确定句子的最佳句法分析 结果 算法思想:通过使用内部算法寻找总体最优来构建一个Viterb

文档评论(0)

lizhencai0920 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6100124015000001

1亿VIP精品文档

相关文档