第2讲统计自然语言处理的数学基础.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2讲统计自然语言处理的数学基础

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 机器翻译中词语歧义:布什和克里—灌木丛总统和小母牛参议员 解决方法:在语料中找出和布什这个词语互信息大的词,对克里同样如此 宾夕法尼亚大学,William Gale,Kenneth Church,David Yarowsky,机器翻译 * * * 对于 N-gram 语言模型, N 值越高,其交叉熵越小,困惑度也越小,语言处理的效果也越好。 由此,我们可以根据模型 q 和一个含有大量数据的 L 的样本来计算交叉熵。在设计模型 q 时,我们的目的是使交叉熵最小,从而使模型最接近真实的概率分布 p(x)。 概念8:噪声信道模型(noisy channel model) 在信号传输的过程中都要进行双重性处理:压缩和校检 噪声信道模型的目标就是优化噪声信道中信号传输 的吞吐量和准确率,其基本假设是一个信道的输出以一定的概率依赖于输入。 求该式的最大值相当于寻找一个使得右边 分子的两项乘积 P(e)×P(f |e) 最大,即: 统计翻译系统框架 也就是说,如果我们要建立一个源语言 f 到 目标语言 e 的统计翻译系统,我们必须解决三个 关键的问题: (1)估计语言模型概率P(e); (2)估计翻译概率P(f | e); (3)设计有效快速的搜索算法求解使得 P(e)×P(f | e)最大。 * * * * * * * * * * * * * * * * * * * * * * * * 4. 概率密度估计的方法 类的先验概率的估计: 用训练数据中各类出现的频率估计 依靠经验 类条件概率密度估计的两种主要方法: 参数估计:概率密度函数的形式已知,而表征函数的参数未知,通过训练数据来估计 最大似然估计 Bayes估计 非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计 Parzen窗法 kn-近邻法 (1)最大似然估计 先看一个简单例子: 一只野兔从前方窜过 . 是谁打中的呢? 某位同学与一位猎人一起外出打猎 . 如果要你推测, 你会如何想呢? 只听一声枪响,野兔应声倒下 . 你就会想,只发一枪便打中, 猎人命中的概率一般大于这位同学命中的概率 . 看来这一枪是猎人射中的 . 这个例子所作的推断已经体现了最大似然法的基本思想 . 假设: 概率密度函数的形式已知 估计的参数θ是确定而未知的 独立地按概率密度p(x|θ)抽取样本集 K={x1, x2 ,…, xN},用 K 估计未知参数θ 最大似然估计-似然函数 似然函数: 对数(loglarized)似然函数: 最大似然估计示意图 计算方法 最大似然估计量使似然函数梯度为0 : 举例: (2)贝叶斯估计-最大后验概率 用一组样本集 K={x1, x2 ,…, xN} 估计未知参数θ 未知参数 θ 视为随机变量,先验分布为 p(θ),而在已知样本集 K 出现的条件下的后验概率为:p(θ|K) 最大后验概率估计-Maximum a posteriori (MAP) 贝叶斯估计-最小风险 参数估计的条件风险:给定x条件下,估计量的期望损失 参数估计的风险:估计量的条件风险的期望 贝叶斯估计:使风险最小的估计 贝叶斯估计-最小风险-续 损失函数:误差平方 信息论基础 自信息量 信息熵 联合熵 条件熵 互信息 相对熵 交叉熵 噪声信道模型 统计机器翻译框架 信息的度量 我们常常说信息很多或信息很少,但却难以说清到底是多少 50万字的《史记》有多少信息量?莎士比亚全集有多少信息量? 信息是有用的,那么这个作用如何可观的、定量的体现出来? 信息论 ? 1948年美国Shannon“通信的数学原理”,用概率测度和数理统计的方法,系统地讨论了通信的基本问题,奠定了信息论的基础 ? 信息的度量有三个基本方向:结构的、统计的和语义的 ? 香农所说的信息是狭义的信息,是统计信息,依据是概率的不确定性度量 ? 为什么用不确定性度量? 概念1:自信息量 任意随机事件的自信息量定义为该事件发生概率的对数的负值。 设事件 xi 的概率为 p(xi),则它的自信息量定义式为: I(xi) = -log p(xi) 小概率事件所包含的不确定性大,其自信息量大;大概率事件所包含的不确定性小,其自信息量小。 I(xi)的含义: 在事件 x i发生以前等于事件 xi 发生的不确定性的大小;

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档