数学基础,概率论,矩阵分析.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数学基础,概率论,矩阵分析

贝叶斯估计-最大后验概率 用一组样本集K={x1, x2 ,…, xN}估计未知参数θ 未知参数θ视为随机变量,先验分布为 p(θ),而在已知样本集K出现的条件下的后验概率为:p(θ|K) 最大后验概率估计-Maximum a posteriori (MAP) 贝叶斯估计-最小风险 参数估计的条件风险:给定x条件下,估计量的期望损失 参数估计的风险:估计量的条件风险的期望 贝叶斯估计:使风险最小的估计 贝叶斯估计-最小风险-续 损失函数:误差平方 信息论基础 自信量 信息熵 联合熵 条件熵 互信息 相对熵 交叉熵 复杂度 噪声信道模型 信道容量 统计机器翻译框架 自信量 任意随机事件的自信息量定义为该事件发生概率的对数的负值。 设事件xi 的概率为p(xi),则它的自信息量定义式为:I(xi)=-log p(xi) 小概率事件所包含的不确定性大,其自信息量大;大概率事件所包含的不确定性小,其自信息量小。 I(xi)的含义: 在事件xi发生以前等于事件xi发生的不确定性的大小;在事件xi发生以后等于事件xi所含有或能提供的信息量。 信息熵 信息熵 熵又称为自信息(self-information),表示信源X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不确定性越大。那么,正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。 联合熵(joint entropy) 联合自信息量定义为:I(xiyj)=-log p(xiyj) 条件熵(conditional entropy) 互信息(mutual information) 如果(X, Y) ~ p(x, y),X, Y 之间的互信息 I(X; Y) 为: I (X; Y) = H(X) – H(X | Y) 根据定义,展开H(X) 和H(X|Y) 容易得到: 互信息I (X; Y) 是在知道了Y 的值后X 的不确定性的减少量。即,Y 的值透露了多少关于X的信息量。 互信息、条件熵与联合熵 相对熵(relative entropy) 相对熵(relative entropy)或Kullback-Leibler divergence,KL 距离) 两个概率分布p(x) 和q(x) 的相对熵定义为: 该定义中约定0 log (0/q) = 0, p log (p/0) = ∞ 相对熵示意图 交叉熵(cross entropy) 如果一个随机变量X ~ p (x),q(x)为用于近似p(x) 的概率分布,那么,随机变量X 和模型q 之间的交叉熵定义为: 交叉熵的概念是用来衡量估计模型与真实 概率分布之间差异情况的。 交叉熵(cross entropy)-续2 对于语言L = (Xi) ~ p(x) 与其模型q 的交叉熵定义为: 为随机变量(x1x2…n),表示长度为n的自然语言序列,其中每个随机变量xi(i=1,2,…,n)代表自然语言序列上的一个汉语语言单位词。xi可在其所代表的词集X中取值。自然语言序列可被视为离散的平稳有记忆信源, 我们可以假设这种语言是“理想”的,即n趋于无穷大时,其全部“单词”的概率和为1。那么可以假定语言L 是稳态(stationary) ergodic 随机过程,信源是各态遍历的,根据Shannon-McMillan-Brenmain定理,交叉熵可由    求出,xi∈W,上式可由统计语料库近似求出。假设语料库的容量为R,交叉熵的近似值定义为 H(L,q)=-(1/R)*lbP(x1x2…xR)              对于n-gram,其概率为, 可以计算句子的概率: 对于N-gram语言模型, N值越高,其条件熵越小,困惑度也越小,语言处理的效果也越好 。 交叉熵(cross entropy)-续4 由此,我们可以根据模型q 和一个含有大量数据的L 的样本来计算交叉熵。在设计模型q 时,我们的目的是使交叉熵最小,从而使模型最接近真实的概率分布p(x)。 复杂度(perplexity) 在设计语言模型时,我们常用复杂度熵 替交叉熵衡量语言模型的好坏。给定语言 L的样本 ,L 的困惑度 定义为: 语言模型设计的任务就是寻找困惑度最小 的模型,使其最接近真实的语言。 噪声信道模型(noisy channel model) 在信号传输的过程中都要进行双重性处理:一方面要通过压缩消除所有的冗余,另一方面又要通过增加一定的可控冗余以保障输入信号经过噪声信道后可以很好的恢复原状。这样的话,信息编码时要尽量占有少

文档评论(0)

xxj1658888 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档