- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第七章 句法分析技术 什么是句法分析 判断输入的词序列能否构成一个合乎语法的句子,确定合乎语法句子的句法结构 运用句法规则和其他知识将输入句子中词之间的线性次序,变成一个非线性的数据结构(例如短语结构树或有向无环图) 为什么要进行句法分析 例一:音字转换例 一只小花猫 例二:机器翻译例(Prepositional Phrase Attachment) Jan hit the girl with long hair Jan hit the girl with a hammer 例三:信息检索例 哪个球队获得了亚洲杯冠军? 日本队击败中国队获得亚洲杯冠军 句法分析的难点 句法分析的难点: 语法歧义:一个句子对应着几种句法分析结果 “咬死了猎人的狗” “那只狼咬死了猎人的狗” “那只咬死了猎人的狗失踪了” 汉语句法分析的独特性(朱德熙《语法答问》《语法讲义》) 汉语没有形态 语序灵活 词类和句法成分不存在一一对应的关系 汉语句子的构造原则与词组的构造原则基本上是一致的 汉语语法形式化工作滞后 深层分析与浅层分析 句法分析系统 一个句法分析系统通常由两部分组成 形式语法体系 匹配模式 短语结构语法 扩充转移网络 树邻接语法(TAG) 基于合一运算的语法(广义短语结构语法、词汇功能语法、功能合一语法、基于中心词驱动的短语结构语法(HPSG)) 基于词的语法(链语法、依存语法、配价语法) 分析控制机制 模式匹配技术 基于短语结构语法分析算法(厄尔利( Earley )分析算法、富田胜( Tomida )分析算法、线图(Chart)分析算法、确定性分析算法等等) 基于扩充转移网络的分析算法 链分析算法 概率上下文无关文法(Probabilistic (Stochastic) Context Free Grammar) 随机上下文无关语法可以直接统计语言学中词与词、词与词组以及词组与词组的规约信息,并且可以由语法规则生成给定句子的概率。 定义:一个随机上下文无关语法(PCFG)由以下5部分组成: (1)一个非终结符号集N (2)一个终结符号集∑ (3)一个开始非终结符S∈N (4)一个产生式集R (5)对于任意产生式r∈R,其概率为P(r) 产生式具有形式X→Y,其中,X∈ N, Y ∈(N∪ ∑)* PCFG的三个基本假设 CFG的简单概率拓广 基本假设 位置无关(Place invariance) 上下文无关(Context-free) 祖先无关(Ancestor-free) 分析树的概率等于所有施用规则概率之积 举例 给定如下概率文法G (1)S-AA p1=1/2 (2)S-B p2=1/2 (3)A-a p3=2/3 (4)A-b p4=1/3 (5)B-aa p5=1/2 (6)B-bb p6=1/2 那么: P(tree1)=1/2*2/3*2/3=2/9 P(tree2)=1/2*1/3*1/3=1/18 P(tree3)=1/2*1/2=1/4 P(tree4)=1/2*1/2=1/4 PCFG的三个基本问题 1、一个语句W=w1w2….wn的P(W|G),也就是产生语句W的概率? 2、在语句W的句法结构有歧义的情况下,如何快速选择最佳的语法分析(parse) ? 3、如何从语料库中训练G的概率参数,使得P(W|G)最大 问题12 思路 运用动态规划以及剪枝技术计算得出一个语句的多个句法分析形式的概率,选择概率最高的结果作为句法分析的结果 向内(Inside)算法 非终结符A的内部概率(Inside probability)定义为根据文法G从A推出词串 的概率,记为 称为向内变量 问题1 1、一个语句W=w1w2….wn的P(W|G),也就是产生语句W的概率? 向内概率公式 向内算法(自底向上) 输入: G=(S,N,∑,R,P),字符串 输出: 1、初始化: 2、归纳计算:j从1到n,i从1到n-j,重复下面计算 3、结束: 向内算法计算示例 S→NP VP 1.0 NP→NP PP 0.4 PP→P NP 1.0 NP→John 0.1 VP→V NP 0.7 NP→bone 0.18 VP→VP PP 0.3 NP→star 0.04 P→with 1.0 NP→fish 0.18 V→ate 1.0 NP→telescope 0.1 向内算法计算示例 向内算法计算示例 初始化 1 NP→John 0.1 2 V→ate 1.0 3 NP→fish 0.18 4 P→with 1.0 5 NP→bone 0.18
文档评论(0)