自然语言处理和信息抽取.20110828.ppt

  1. 1、本文档共399页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言处理和信息抽取.20110828.ppt

基于搜索策略融合的方法(Duan et al., ECML-PKDD 2007) (1/2) 目标:解决基于决策的方法的贪婪性 基本思想:将整个决策式依存句法分析过程看作是马尔科夫链。每一步分析中有若干个候选分析动作。句法分析的目标是在马尔科夫假设下寻找最有可能的分析动作序列 优点:该模型既可以利用丰富的上下文特征,又从全局的视角对决策动作建模 算法复杂度介于决策式方法和动态规划方法之间 基于搜索策略融合的方法(Duan et al., ECML-PKDD 2007) (2/2) 中文实验结果: 依存句法分析方法 基于语法驱动的方法(规则方法) 人工编写规则费时费力 人工编写规则覆盖度低 处理歧义问题效果不佳 基于数据驱动的方法(统计方法) 不需要语法规则,任何一种句法结构都有可能存在 句法结构是由统计模型来决定的 能够比较灵活地处理歧义结构 基于数据驱动依存句法分析的框架(McDonald, 2006; 段湘煜, 2008) 句法分析的一般性框架,其中X是输入的句子,Y是输出的 与X对应的句法树 基于数据驱动方法的分类 根据依存分析过程分解方式: 基于动态规划的方法 直接对依存图进行分解 基于决策的方法 将依存分析过程分解成决策序列 基于约束满足的方法 将依存分析过程分解成去除不满足约束的过程 只在德语依存分析中使用过 基于动态规划的方法 早期方法:将依存图中的节点看作短语结构中的节点,从而可以应用上下文无关文法中成熟的CKY算法(Gaifman, 1965) 时间复杂度为O(n5) 双词汇语法的方法(Bilexical Grammar) 产生式方法(Eisner, 1996) 判别式方法(McDonald et al., 2005; McDonald, 2006) 时间复杂度为O(n3) NN 经济 发展* vmod sbj 经济 快速 VV* VV sbj vmod ADV 快速 VV 发展 生成式方法(Eisner, 1996) 基本思想:采用联合概率模型生成一系列依存句法树并赋予其概率分值,然后采用相关算法找到概率打分最高的分析结果作为最后的输出 Eisner提出了三种生成式的概率依存模型 模型A:二元亲和词汇模型(Bigram Lexical Affinities) 模型B:优先选择模型(Selectional Preferences) 模型C:递归生成模型(Recursive Generation) 模型A:二元亲和词汇模型 该模型利用一个三元马尔可夫模型进行词性标注,并确定任意一个词对是否是一个依存对 由于对交叉依存、多支配词等现象没有加以限制,这个模型是有疏漏的,可能有多个父节点,而违背单一头词这个约束 依存关系 两个词之间是否有依存关系 模型B: 优先选择模型 与模型A相比,不再对进行所有的词对进行穷举,而是利用每个词的优先选择信息(preference(i)) ,限制为每个词只选择一个父节点,因此不会有多个头词的问题 但是,该模型可能会违背无环的约束,因此也是有疏漏的 词i优先选择的词,使之与词i构成依存关系 模型C: 递归生成模型 与模型A和B相比,该模型中每一个词生成自身的所有子节点,而不是像模型A一样对所有词对进行穷举,或者像模型B一样为每个词做优先选择(有可能形成环),因此该模型不再是疏漏的 在该模型中使用了两个马尔可夫链:左依存节点链和右依存节点链。词、词性、依存边的联合概率: 其中tw(i)是指第i个带有词性标记的词,lc(i)和rc(i)分别是 第i个词的所有左子节点和所有右子节点 小结 Eisner提出了生成式的概率模型,使得可以灵活地应用多种动态规划算法,取得了同短语结构句法分析可比的效果(Eisner, 1996) 由于考虑了依存句法特性,利用跨度(span)代替子树(subtree),不再用词汇化的上下文无关文法常用的子树分析形式,算法的时间复杂度减少为O(n3) 判别式方法(McDonald et al., 2005) (1/2) 基本思想:将依存分析看作是在一个依存图上寻找最大生成树(MST)的问题,该生成树满足上述三个约束条件:连通、单一父节点、无环 判别式方法(McDonald et al., 2005) (2/2) 对于一个经过分词和词性标注的句子: 模型:利用给定的训练数据,学习一个全局最优的依存句法分析模型用来描述和刻画整棵句法树 特征:词、词性及其组合 训练算法:在线学习算法 解码算法:CKY动态规划算法 代表性成果:Eisner96, McDonald05, McDonald06, Carreras07, Wang et al.,07 判别式方法:模型(1/2) X:一个输入句子 Y: 一个候选依存

文档评论(0)

cai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档