8、概率句法分析.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
8、概率句法分析

概率句法分析 徐志明 哈工大语言技术中心 语言的描述 语言的描述 统计学的方法: 语言是个概率分布。 构造概率模型,描述语言句子的概率分布。 例如:n-gram模型、HMM。 代数学的方法 语言是一个句子集合。 定义一种文法,它可推导出该语言的所有句子。 通过能否推导出完整的句法分析树,判断句子的合法性。 上述两种方法结合 概率文法:将概率引入到语言文法中,分析句子的句法结构。 用概率指导句法结构歧义的消解。 语言文法 语言文法: 四元组:G=(VN ,VT ,R,S) VN:非终结符的集合,表示句子结构分析的中间成分 VT :终结符的集合,相当于词汇表。 R :规则集 :基本形式: 。其中: , 。 S :初始符号,代表语言的句子。 例如:句子:The man ate the apple. 文法的类型 0-型(无约束文法) – 无限制 1-型(上下文相关文法) αAβ ? αγβ 2-型(上下文无关文法) A ? γ 3-型(正则文法) A ? aB A ? a 上下文无关文法 上下文无关文法 (Context Free Grammar,CFG) 四元组:G=(VN ,VT ,R,S) VN:非终结符的集合 VT :终结符的集合。 R :规则集。基本形式: 。其中: , 。 S :初始符号。 概率上下文无关文法(Probabilistic Context Free Grammar,PCFG) 将概率引入到CFG文法中。 每条规则 ,附带一个概率值 。 约束: PCFG:例子 句法分析 句法分析(Parsing) 和句法分析器(Parser) 任务: 词序列 ? 句法分析树。 本质:线性序列 ? 非线性序列。 动机:自然语言是一种非线性的符号序列。句子结构表现为复杂的嵌套性,而N-gram和HMM只能处理线性序列。 句法分析例子: 输入句子:I saw the dog with the telescope. 输出该句子的句法分析树 CFG:句法分析树表示 (S (NP (Pro I)) (VP (VP (V saw) (NP (Det the) (N dog))) (PP (P with) (NP (Det the) (N telescope))))) 句法分析模型 Parser Model 计算句法分析树概率: 。 计算句子概率: 句法歧义消解:选择概率最大的句法分析树: 句法分析树概率计算 句法分析树:假设 位置无关 子树的概率与构成子树所在的位置无关。 类似于HMM中的时间无关。 上下文无关 子树的概率与子树以外的词无关。 祖先无关 子树的概率与子树以外的节点无关。 PCFG规则概率估计 语言学文法 构造CFG。编写语言规则。 语料库建设 建立基于CFG的句法树库(Tree Bank): 带有句法标注的语料库。 句法分析树的集合。如Pen Tree Bank 文法训练:规则概率 对于规则 ,在树库上统计该规则及其非终结符A的频度。 然后可估计规则概率 应用: 应用概率Parser进行句法分析。 PCFG规则概率估计—例子 句法分析的难点 句法分析的难点: 句法歧义:一个句子对应着几种可能的句法分析结果(多颗句法分析树) 句法分析的核心任务是消解句子在句法结构上的歧义。 符号注释 一些符号的注释 句子 句法分析树:T 文法G =(VN ,VT ,R,S) 假设文法G的规则 形式只有两种形式: 可以通过范式化处理,使CFG 规则满足上述形式。 PCFG的三个基本问题 与HMM相似,PCFG也有三个基本问题。 问题1: 给定文法G,计算由G生成句子S 的概率 ? 问题2: 寻找句子S最优句法分析树? 问题3: 如何从语料库W中训练G的概率参数,使得P(W|G)最大 模型参数训练问题 问题12 思路 采用动态规划算法,将句法分析树的概率计算转换成句法分析树的子树的概率计算。 问题1:向内算法 向内变量 非终结符A的内部概率(Inside probability)(可理解成子树概率)。根据文法G从A推出词串 的概率。 问题1:向

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档