自然语言处理和信息抽取.20110828.ppt

下载文档 降价啦

20
0
约6.81万字
约 399页
2017-08-14 发布于江西
举报
版权申诉
保障服务

自然语言处理和信息抽取.20110828.ppt

1、本文档共399页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于搜索策略融合的方法(Duan et al., ECML-PKDD 2007) (1/2) 目标：解决基于决策的方法的贪婪性基本思想：将整个决策式依存句法分析过程看作是马尔科夫链。每一步分析中有若干个候选分析动作。句法分析的目标是在马尔科夫假设下寻找最有可能的分析动作序列优点：该模型既可以利用丰富的上下文特征，又从全局的视角对决策动作建模算法复杂度介于决策式方法和动态规划方法之间基于搜索策略融合的方法(Duan et al., ECML-PKDD 2007) (2/2) 中文实验结果：依存句法分析方法基于语法驱动的方法(规则方法) 人工编写规则费时费力人工编写规则覆盖度低处理歧义问题效果不佳基于数据驱动的方法(统计方法) 不需要语法规则，任何一种句法结构都有可能存在句法结构是由统计模型来决定的能够比较灵活地处理歧义结构基于数据驱动依存句法分析的框架(McDonald, 2006; 段湘煜, 2008) 句法分析的一般性框架，其中X是输入的句子，Y是输出的与X对应的句法树基于数据驱动方法的分类根据依存分析过程分解方式：基于动态规划的方法直接对依存图进行分解基于决策的方法将依存分析过程分解成决策序列基于约束满足的方法将依存分析过程分解成去除不满足约束的过程只在德语依存分析中使用过基于动态规划的方法早期方法：将依存图中的节点看作短语结构中的节点，从而可以应用上下文无关文法中成熟的CKY算法(Gaifman, 1965) 时间复杂度为O(n5) 双词汇语法的方法（Bilexical Grammar）产生式方法(Eisner, 1996) 判别式方法(McDonald et al., 2005; McDonald, 2006) 时间复杂度为O(n3) NN 经济发展* vmod sbj 经济快速 VV* VV sbj vmod ADV 快速 VV 发展生成式方法(Eisner, 1996) 基本思想：采用联合概率模型生成一系列依存句法树并赋予其概率分值，然后采用相关算法找到概率打分最高的分析结果作为最后的输出 Eisner提出了三种生成式的概率依存模型模型A：二元亲和词汇模型(Bigram Lexical Affinities) 模型B：优先选择模型(Selectional Preferences) 模型C：递归生成模型(Recursive Generation) 模型A：二元亲和词汇模型该模型利用一个三元马尔可夫模型进行词性标注，并确定任意一个词对是否是一个依存对由于对交叉依存、多支配词等现象没有加以限制，这个模型是有疏漏的，可能有多个父节点，而违背单一头词这个约束依存关系两个词之间是否有依存关系模型B: 优先选择模型与模型A相比，不再对进行所有的词对进行穷举，而是利用每个词的优先选择信息(preference(i)) ，限制为每个词只选择一个父节点，因此不会有多个头词的问题但是，该模型可能会违背无环的约束，因此也是有疏漏的词i优先选择的词，使之与词i构成依存关系模型C: 递归生成模型与模型A和B相比，该模型中每一个词生成自身的所有子节点，而不是像模型A一样对所有词对进行穷举，或者像模型B一样为每个词做优先选择（有可能形成环），因此该模型不再是疏漏的在该模型中使用了两个马尔可夫链：左依存节点链和右依存节点链。词、词性、依存边的联合概率：其中tw(i)是指第i个带有词性标记的词，lc(i)和rc(i)分别是第i个词的所有左子节点和所有右子节点小结 Eisner提出了生成式的概率模型，使得可以灵活地应用多种动态规划算法，取得了同短语结构句法分析可比的效果(Eisner, 1996) 由于考虑了依存句法特性，利用跨度(span)代替子树(subtree)，不再用词汇化的上下文无关文法常用的子树分析形式，算法的时间复杂度减少为O(n3) 判别式方法(McDonald et al., 2005) (1/2) 基本思想：将依存分析看作是在一个依存图上寻找最大生成树(MST)的问题，该生成树满足上述三个约束条件：连通、单一父节点、无环判别式方法(McDonald et al., 2005) (2/2) 对于一个经过分词和词性标注的句子：模型：利用给定的训练数据，学习一个全局最优的依存句法分析模型用来描述和刻画整棵句法树特征：词、词性及其组合训练算法：在线学习算法解码算法：CKY动态规划算法代表性成果：Eisner96, McDonald05, McDonald06, Carreras07, Wang et al.,07 判别式方法:模型(1/2) X：一个输入句子 Y: 一个候选依存