- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概率句法分析的研究(Statistical Parsing) 张浩 中科院计算技术研究所 2002.3 概率在句法分析中的作用 决定最有可能的句子(Probabilities for determining the sentence),主要用于语音识别。 加速分析器(Probabilities for speedier parsing) 排歧(Probabilities for choosing between parses) PCFG——最简单的概率语法模型 CFG的简单概率拓广 基本假设 位置无关(Place invariance) 上下文无关(Context-free) 祖先无关(Ancestor-free) 分析树的概率等于所有施用规则概率之积 例子 PCFG的三个基本问题 一个语句W=w1w2….wn的P(W|G),也就是产生语句W的概率? 在语句W是歧义的情况下,如何快速选择最佳的语法分析(parse) ? 如何调节G的概率参数,使得P(W|G)最大? 向内变量 向内变量αij(A)=P(A=wiwi+1…wj) 动态规划递归公式 特别地, 向内算法示图 韦特比算法 韦特比变量γij(A)为非终结符A经由某一推导而产生wiwi+1…wj的最大概率。 动态规划公式 特别地, PCFG的参数训练 向内向外算法 迭代过程 与初始参数相关 从树库直接统计——Treebank Grammar 最大似然估计 依赖于艰巨的工程:树库建设 向外变量 向外变量βij(A)=P(S=w1…wi-1A wj+1…wn) 动态规划递归公式 向外算法示图 向内向外算法 EM算法运用于PCFG的参数估计的具体算法。 初始化:随机地给P(A-μ) 赋值,使得ΣμP(A- μ) =1.由此得到语法G0. i-0. EM步骤: E步骤:计算期望值C(A-BC) 和C(A-a) M步骤:用E-步骤所得的期望值,利用: 重新估计P(A-μ) ,得到语法Gi+1 循环计算:i++,重复EM步骤,直至P(A-μ)收敛. 语法规则使用次数的期望值 PCFG estimation from a treebank: Charniak(1996) Penn Tree Bank Maximum likelihood PCFG, with very little corrections. Suggestions: Perhaps the majority of parsing decisions can be handled quite well by an unlexicalized PCFG. Supervised machine learning. Evaluation: PARSEVAL measures Evaluation of the component pieces of a parse. Precision: Recall: Crossing Brackets: Charniak(1996) Results PCFG的优点 化解结构歧义(structurally different parses) 加速语法分析(尽早删除小概率子结构) 增强分析器鲁棒性(use of low probabilities) 定量比较语法(language model) 便于语法归纳(grammar induction) PCFG的缺点 合理性差(单纯依据结构给出概率估计) 作为语言模型不如n元语法(importance of lexical context) 明显的偏向性(smaller tree, small number of expansions will be favored) 突破PCFG的上下文独立性假设 上下文与独立性假设 语境影响句子理解(priming) 符合语义直觉的解释优先 这些因素共同作用左右句法分析 如何结合此类信息 前文(prior text)可以作为语境的指示 共现(collocation)信息有助于局部语义排歧 出路 必须考虑词汇上下文和结构上下文 提供充分的区别能力 避免激增参数,造成数据稀疏问题 依赖于结构上下文的概率 PCFG的另一不足:structural context-freeness 做主语的NP和做宾语的NP的扩展规则的概率分布非常不同。 做第一宾语的NP和做第二宾语的NP的扩展规则的概率分布非常不同。 研究方案 利用树库资源进行汉语概率句法分析(只考虑词性标记) 机器翻译系统小型树库(4000左右,平均句长8词左右) 宾州大学中文树库(3000左右,平均句长30词左右) 将词语共现概率结合进来,形成词汇化的概率句法分析器。 概率型角色反演分析算法 角色反演算法——改进型的Cha
文档评论(0)