第6讲联合熵与条件熵..docVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6讲联合熵与条件熵.

第6讲 联合熵与条件熵 信息熵H(X)反映了随机变量X的取值不确定性。当X是常量时,其信息熵最小,等于0;当X有n个取值时,当且仅当这些取值的机会均等时,信息熵H(X)最大,等于logn比特。我们拓展信息熵H(X)的概念,考虑两个随机变量X和Y的联合熵H(XY)。 联合熵 X,Y是两个随机变量, 则X,Y)是随机变量 根据信息熵的定义可知,XY的信息熵 定义1.1 二维随机变量XY的信息熵H(XY)称为XY的联合熵(joint entropy)。 它反映了随机变量XY的取值不确定性。我们把它理解为X和Y取值的总的不确定性。 假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。试计算H(XY) 联合熵概念推广到任意离散型随机变量上。 定义1.2 一组随机变量的联合熵定义为 注:为了简化记号,我们把记为XN,把记为xN。 物理意义: 是这一组随机变量平均每一批取值 所传递的信息量。 表示某信源产生的任意一条长度为N的消息,则是平均每条长度为N的消息的信息量。因此,若该信源产生一个长度为N的消息,则在不知道其它条件的情况下,对该消息所含信息量的最优估计为N-维信息熵。 性质: 联合熵熵函数的数学性质适用于联合熵,包括:非负性、可加性、严格上凸性和最大离散熵原理,等等。 ,特殊性质。 定理1.4(联合熵的独立界) 其中等号成立的充要条件是所有随机变量相互独立。 证明:这里仅证明,一般情形可类似证明。 设对于XY的p(xy),X和Y的概率分布简记为p(x),p(y)。 由于 注意,构成一个概率分布。应用信息不等式可得 其中等号成立的充要条件是X与Y相互独立。 证毕 条件熵 条件自信息: 是一个带条件的随机变量,其信息熵为 再对所有x求熵的平均值可得如下条件熵: 定义2.1 设X,Y是两个离散型随机变量,联合分布为p(xy)。X相对于Y的条件熵H(X|Y) 定义为条件自信息I(X|Y)的期望,即 物理意义:H(X|Y)表示在已知Y取值的前提下,X取值的不确定性,亦即X的每个取值平均所提供的与Y无关的信息量。 定理2.2(条件熵非负性)对于任何离散型随机变量X与Y,都有H(Y|X) ≥0,其中等号成立当且仅当Y是X的函数,即X的取值可确定Y的取值。 证明 根据定义 由于上述加式中各加项都≤0,所以该加式=0的充要条件是各加项=0,即对于任何x和y,p(y|x)=1或者p(y|x)=0,亦即对于任何x,P(Y|x)是退化分布。这表明当X的取值确定时,Y的取值随即确定,即Y是X的函数。 证毕 定理2.3(熵的链法则)对于随机变量序列X1,X2,…和任何N≥1 简记为 其中H1=H(X1),H2=H( X2|X1),…,HN=H(XN|X1X2 …XN-1)。 证明:首先根据定义直接可得 H(XY)= H(X)+H(Y|X) 应用上述等式,对N用归纳法可证明熵的链法则。细节略。 证毕 意义:将多个随机变量的联合熵转化为这些随机变量的条件熵之和,可简化计算。 注:熵的可加性是 思考: 下列不等式是否成立,其中各等号成立的充要条件是什么? 这个性质说明什么?请读者尝试命名该性质 定理2.4(条件熵递减性)对于任何随机变量X和Y,有 H(Y|X)≤ H(Y) 其中等号成立的充要条件是Y与X相互独立。 证明:根据链法则, H(XY)=H(X)+H(Y|X) 再根据联合熵的独立界定理,立刻可得 H(Y|X)≤ H(Y) 其中等号成立的充要条件是X与Y统计独立。 证毕 在条件熵中,条件越少,熵值越大。相反,条件越多,熵值越小。这可理解为,我们知道的越多,则事物的不确定性越小。 证明二:Jessen不等式证明。 证毕 计算公式 令X,Y为离散的随机变量 公式2. 其中P(X)X的概率分布P(Y|X)是X到Y的条件概率矩阵,是条件概率矩阵中各个行分布的熵所组成的列向量。 证明: 证毕 且 则 记号:以后对于任何N,我们将N维随机向量X1,X2,…XN简记为XN。 注:上述条件熵概念可以推广到多个随机变量熵,例如 H(Y|X1X2 …XN) 是在已知随机向量X1,X2,…XN取值的前提下,随机变量Y的不确定性,亦即Y的每个取值可以提供的与X1,X2,…XN取值无关的

文档评论(0)

fg67fd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档