自然语言理解-词性标注.pptVIP

下载本文档

27
0
约5.79千字
约 43页
2018-10-21 发布于河北
举报
版权申诉

自然语言理解-词性标注.ppt

1、本文档共43页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自然语言理解-词性标注

词性标注词性标注自然语言处理的最终目的是要分析并理解语言，但是距离这个目标我们仍然相去甚远。词性标注是一个中间过程。词性标注给句子中的每一个词赋予一个合适的词性。 POS tagging: 词性标注中的信息来源句法结构信息考虑在当前词上下文中的词的词性。词汇信息当前词本身提供了关于标注的大量信息。词性标注的主要方法 Markov Model Taggers Hidden Markov Model Taggers Markov模型 Markov 过程/链/模型是由 Andrei A. Markov最初发展起来的. 它们最初的确就是为了处理语言而设计的：针对俄国文学作品中的字母序列建模。但是，Markov模型之后便作为一个通用的概率工具发展了起来。为了和隐Markov模型相区别，我们有时也把Markov模型成为显Markov模型（HMM）。 Markov假设一序列（可能按时间排列）的随机变量不是相互独立的，每一个随机变量的值依赖于序列中前一个随机变量。对于许多这样的系统，我们可以合理的假设：我们只需要知道当前的随机变量的值，就可以来预测所有将来的随机变量，我们并不需要知道随机变量序列中所有过去的值。 Markov假设假设X=(X1,……,XT) 是随机变量的序列，它从某个有限集S={s1,……,sN} 中取值，这个有限集被称作是状态空间。当X满足Markov性质时，X被称作Markov链。什么是Markov性质呢？ Markov性质有限历史 Limited Horizon: P(Xt+1=sk|X1,……,Xt)=P(Xt+1=sk|Xt) 时间不变 Time invariant(stationary): P(Xt+1=sk|Xt) = P(X2= sk|X1) 这样X是一个Markov链 Markov模型中的概率随机转移矩阵 A aij=P(Xt+1=sj|Xt=si) 初始状态的概率 Markov模型和n元文法 N元文法模型是 Markov 模型 2元词模型就是Markov模型：当前的词仅依赖于前一个词，而且这个依赖型不随着词序列而变化。如果n>2, n元文法违背了有限历史假设吗? 就不是Markov模型了? 我们可以简单的将任何n元文法转换成Markov模型，只要将合适数量的历史编码到状态空间中。在一个n元文法模型中，状态是n-1元的。隐Markov模型 HMMs: 不清楚模型经过的状态序列，但是知道状态序列的一些概率函数。 HMMs 基于VMM。对于观察值来说需要知道符号发射概率。 HMMs vs VMMs Markov Model Taggers X—标注序列, S—标注集, O—词集 (“O” 是HMM中的观察值，那我们为什么称它为MM taggers呢? 为什么不是HMM taggers? 后面会有解释) Markov model taggers: 假定一个词的词性只依赖于前一个词的词性(有限历史) ，而且，这个依赖性不随着时间而变化（时间不变）如同大多数的概率模型，这两个Markov假设只是对于实际情况一个近似。例如，有限历史假设并不能覆盖长距离依存的问题。 VMM Tagger原理应用贝叶斯规则 VMM Tagger原理 VMM Tagger原理最终，计算一个句子的最优标注序列的公式是：训练一个 VMM tagger 有一个大的带标训练集最大似然估计平滑为什么需要平滑呢？数据稀疏! 1. 收集更多的数据从实用角度这并不是一个通用的解决方法，在训练文本中总会遗漏一些情况。 2. 平滑估计在训练文本中没有出现情况的出现概率。降低已出现情况的概率，这样留下一些概率“分给”没有出现的情况。平滑因为一些冷僻词不会在训练语料中出现，所以平滑词生成概率比平滑转移概率更为的重要加一( 简单平滑 ) 高效的标注算法为了计算下面的式子，是不是需要知道长度为n的句子中所有可能的标注序列t1,n呢？ Viterbi Algorithm 动态规划寻径算法 Viterbi Algorithm Viterbi Algorithm Viterbi Algorithm Viterbi Algorithm Viterbi Algorithm Viterbi algorithm(a Trellis algorithm) 模型 μ=(A, B, ?) Viterbi algorithm 定义: 注意在训练时，我们能够观察到Markov模型的状态，但是在标注时我们只能观察到词。所以我们说在MM Tagging时我们使用的实际上是一个混合的方法：在训练时构造VMMs ，但是在标注时把它们当作是 HMMs。但为什么不称它为HMM