第2讲统计自然语言处理的数学基础.ppt

下载文档 降价啦

17
0
约7.01千字
约 70页
2018-01-21 发布于湖北
举报
版权申诉
保障服务

第2讲统计自然语言处理的数学基础.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第2讲统计自然语言处理的数学基础

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 机器翻译中词语歧义：布什和克里—灌木丛总统和小母牛参议员解决方法：在语料中找出和布什这个词语互信息大的词，对克里同样如此宾夕法尼亚大学，William Gale，Kenneth Church，David Yarowsky，机器翻译 * * * 对于 N-gram 语言模型， N 值越高，其交叉熵越小，困惑度也越小，语言处理的效果也越好。由此，我们可以根据模型 q 和一个含有大量数据的 L 的样本来计算交叉熵。在设计模型 q 时，我们的目的是使交叉熵最小，从而使模型最接近真实的概率分布 p(x)。概念8：噪声信道模型（noisy channel model）在信号传输的过程中都要进行双重性处理：压缩和校检噪声信道模型的目标就是优化噪声信道中信号传输的吞吐量和准确率，其基本假设是一个信道的输出以一定的概率依赖于输入。求该式的最大值相当于寻找一个使得右边分子的两项乘积 P(e)×P(f |e) 最大，即：统计翻译系统框架也就是说，如果我们要建立一个源语言 f 到目标语言 e 的统计翻译系统，我们必须解决三个关键的问题：（1）估计语言模型概率P(e)；（2）估计翻译概率P(f | e)；（3）设计有效快速的搜索算法求解使得 P(e)×P(f | e)最大。 * * * * * * * * * * * * * * * * * * * * * * * * 4. 概率密度估计的方法类的先验概率的估计：用训练数据中各类出现的频率估计依靠经验类条件概率密度估计的两种主要方法：参数估计：概率密度函数的形式已知，而表征函数的参数未知，通过训练数据来估计最大似然估计 Bayes估计非参数估计：密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计 Parzen窗法 kn-近邻法（1）最大似然估计先看一个简单例子：一只野兔从前方窜过 . 是谁打中的呢？某位同学与一位猎人一起外出打猎 . 如果要你推测，你会如何想呢? 只听一声枪响，野兔应声倒下 . 你就会想，只发一枪便打中, 猎人命中的概率一般大于这位同学命中的概率 . 看来这一枪是猎人射中的 . 这个例子所作的推断已经体现了最大似然法的基本思想 . 假设：概率密度函数的形式已知估计的参数θ是确定而未知的独立地按概率密度p(x|θ)抽取样本集K={x1, x2 ,…, xN}，用 K 估计未知参数θ 最大似然估计-似然函数似然函数：对数(loglarized)似然函数：最大似然估计示意图计算方法最大似然估计量使似然函数梯度为0 ：举例：（2）贝叶斯估计-最大后验概率用一组样本集 K={x1, x2 ,…, xN} 估计未知参数θ 未知参数 θ 视为随机变量，先验分布为 p(θ)，而在已知样本集 K 出现的条件下的后验概率为：p(θ|K) 最大后验概率估计-Maximum a posteriori (MAP) 贝叶斯估计-最小风险参数估计的条件风险：给定x条件下，估计量的期望损失参数估计的风险：估计量的条件风险的期望贝叶斯估计：使风险最小的估计贝叶斯估计-最小风险-续损失函数：误差平方信息论基础自信息量信息熵联合熵条件熵互信息相对熵交叉熵噪声信道模型统计机器翻译框架信息的度量我们常常说信息很多或信息很少，但却难以说清到底是多少 50万字的《史记》有多少信息量？莎士比亚全集有多少信息量？信息是有用的，那么这个作用如何可观的、定量的体现出来？信息论 ? 1948年美国Shannon“通信的数学原理”，用概率测度和数理统计的方法，系统地讨论了通信的基本问题，奠定了信息论的基础 ? 信息的度量有三个基本方向：结构的、统计的和语义的 ? 香农所说的信息是狭义的信息，是统计信息，依据是概率的不确定性度量 ? 为什么用不确定性度量？概念1：自信息量任意随机事件的自信息量定义为该事件发生概率的对数的负值。设事件 xi 的概率为 p(xi)，则它的自信息量定义式为： I(xi) = -log p(xi) 小概率事件所包含的不确定性大，其自信息量大；大概率事件所包含的不确定性小，其自信息量小。 I(xi)的含义：在事件 x i发生以前等于事件 xi 发生的不确定性的大小；