自然语言理解-词性标注.pptVIP

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言理解-词性标注

词性标注 词性标注 自然语言处理的最终目的是要分析并理解语言,但是距离这个目标我们仍然相去甚远。 词性标注是一个中间过程。词性标注给句子中的每一个词赋予一个合适的词性。 POS tagging: 词性标注中的信息来源 句法结构信息 考虑在当前词上下文中的词的词性。 词汇信息 当前词本身提供了关于标注的大量信息。 词性标注的主要方法 Markov Model Taggers Hidden Markov Model Taggers Markov模型 Markov 过程/链/模型 是由 Andrei A. Markov最初发展起来的. 它们最初的确就是为了处理语言而设计的:针对俄国文学作品中的字母序列建模。但是,Markov模型之后便作为一个通用的概率工具发展了起来。 为了和隐Markov模型相区别,我们有时也把Markov模型成为显Markov模型(HMM)。 Markov假设 一序列(可能按时间排列)的随机变量不是相互独立的,每一个随机变量的值依赖于序列中前一个随机变量。对于许多这样的系统,我们可以合理的假设:我们只需要知道当前的随机变量的值,就可以来预测所有将来的随机变量,我们并不需要知道随机变量序列中所有过去的值。 Markov假设 假设X=(X1,……,XT) 是随机变量的序列,它从某个有限集S={s1,……,sN} 中取值,这个有限集被称作是状态空间。 当X满足Markov性质时,X被称作Markov链。什么是Markov性质呢? Markov性质 有限历史 Limited Horizon: P(Xt+1=sk|X1,……,Xt)=P(Xt+1=sk|Xt) 时间不变 Time invariant(stationary): P(Xt+1=sk|Xt) = P(X2= sk|X1) 这样X是一个Markov链 Markov模型中的概率 随机转移矩阵 A aij=P(Xt+1=sj|Xt=si) 初始状态的概率 Markov模型和n元文法 N元文法模型是 Markov 模型 2元词模型就是Markov模型:当前的词仅依赖于前一个词,而且这个依赖型不随着词序列而变化。 如果n>2, n元文法违背了有限历史假设吗? 就不是Markov模型了? 我们可以简单的将任何n元文法转换成Markov模型,只要将合适数量的历史编码到状态空间中。在一个n元文法模型中,状态是n-1元的。 隐Markov模型 HMMs: 不清楚模型经过的状态序列,但是知道状态序列的一些概率函数。 HMMs 基于VMM。 对于观察值来说需要知道符号发射概率。 HMMs vs VMMs Markov Model Taggers X—标注序列, S—标注集, O—词集 (“O” 是HMM中的观察值,那我们为什么称它为MM taggers呢? 为什么不是HMM taggers? 后面会有解释) Markov model taggers: 假定一个词的词性只依赖于前一个词的词性(有限历史) ,而且,这个依赖性不随着时间而变化(时间不变) 如同大多数的概率模型,这两个Markov假设只是对于实际情况一个近似。例如,有限历史假设并不能覆盖长距离依存的问题。 VMM Tagger原理 应用贝叶斯规则 VMM Tagger原理 VMM Tagger原理 最终,计算一个句子的最优标注序列的公式是: 训练一个 VMM tagger 有一个大的带标训练集 最大似然估计 平滑 为什么需要平滑呢? 数据稀疏! 1. 收集更多的数据 从实用角度这并不是一个通用的解决方法,在训练文本中总会遗漏一些情况。 2. 平滑 估计在训练文本中没有出现情况的出现概率。降低已出现情况的概率,这样留下一些概率“分给”没有出现的情况。 平滑 因为一些冷僻词不会在训练语料中出现,所以平滑词生成概率比平滑转移概率更为的重要 加一( 简单平滑 ) 高效的标注算法 为了计算下面的式子,是不是需要知道长度为n的句子中所有可能的标注序列t1,n呢? Viterbi Algorithm 动态规划 寻径算法 Viterbi Algorithm Viterbi Algorithm Viterbi Algorithm Viterbi Algorithm Viterbi Algorithm Viterbi algorithm(a Trellis algorithm) 模型 μ=(A, B, ?) Viterbi algorithm 定义: 注意 在训练时,我们能够观察到Markov模型的状态,但是在标注时我们只能观察到词。所以我们说在MM Tagging时我们使用的实际上是一个混合的方法: 在训练时构造VMMs ,但是在标注时把它们当作是 HMMs。 但为什么不称它为HMM

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档