- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5讲信息熵讲述
第5讲 随机变量的信息熵
在概率论和统计学中,随机变量表示随机试验结果的观测值。随机变量的取值是不确定的,但是服从一定的概率分布。因此,每个取值都有自己的信息量。平均每个取值的信息量称为该随机变量的信息熵。
信息熵这个名称是冯诺依曼向香农推荐的。在物理学中,熵是物理系统的状态函数,用于。信息熵度量的不确定性。
X的概率空间为
我们把X的所有取值的自信息的期望称为X的平均自信息量,通常称为信息熵,简称熵(entropy),记为H(X),即
信息熵也称为香农熵。
注意,熵H(X)是X的概率分布P的函数,因此也记为H(P)。
定义1.2 信息熵表达式中的对数底可取任何大于等于2的整数r,所得结果称为r-进制熵,记为Hr(X),其单位为“r-进制单位”。 我们有
注意,在关于熵的表达式中,我们仍然约定
信息熵的物理意义:
信息熵可从多种不同角度来理解。
H(X)是随机变量X的取值所能提供的平均信息量。
统计学中用H(X)表征随机变量X的不确定性,也就是随机性的大小。
例如,假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。显然,甲里面球的颜色更具有不确定性。从两个箱子各摸出一个球,甲里面摸出的球更不好猜。
若离散无记忆信源的符号概率分布为P,则H(P)是该信源的所有无损编码的“平均码长”的极限。
令X是离散无记忆信源的符号集,所有长度为n的消息集合为
每个消息i在某个无损编码下的码字为wi,码字长为li比特。假设各消息i出现的概率为pi,则该每条消息的平均码长为
因此,平均每个信源符号的码长为
这个平均每个信源符号的码长称为该编码的平均码长,其量纲为(码元/信源)。
我们有
这是信源编码定理的推论。
例1.3 课本第26页例2.4. 天气预报的平均信息量。
练习:
在电脑主板上,串行接口(Serial Interface)用于向外设输出数据,每次输出1比特符号,若某段时间内输出符号的概率分布为
求此时段内该串行接口的信息率,即平均每符号所传递的信息(单位为“比特/符号”)。
练习解答:输出0所传递的信息为
输出1所传递的信息为
因此,输出符号的信息熵为
于是所求的信息速率为0.919比特每符号。
说明:上述信息熵H(X)反映了串行接口传输信息的速率,称为该接口的信息率。
熵函数H(P)的性质
性质1. 非负性和确定性
H(P)≥0
其中H(P)=0 当且仅当P为退化分布。
一个随机变量的概率分布为退化分布,当且仅当该随机变量是常量,即取值唯一(所以其取值是确定的)。
性质2. 对称性
性质3. 连续性
对于其中任何变量是连续的。
性质4. 扩展性
可扩展性1:
可扩展性2:
证明:由连续性和可扩展性1立即可得。 证毕
意义:可扩展性表明,一个小概率事件对于熵的影响很小,可以忽略不计。
在熵的计算中,可以忽略其中一部分小概率事件。
例2.1 《中华字海》中收录了85000多个汉字,而常用汉字仅有3000个左右。(据统计现代汉语中这2400个汉字在一般书刊文章中所占的字数比例是99%)在计算汉字的熵时,大部分汉字都可以忽略不计,仅统计常用汉字出现的频率,以此作为这些汉字出现的概率,从而计算出汉字的熵。
性质5. 可加性
注意:即课本第31页的“递增性”。课本上的“可加性”事实上是联合熵的链法则,涉及到条件熵,放在此处不妥,后面再讨论。我们将赋予“递增性”更贴切的含义。
定理2.2(可加性公式)
其中令
证明:可用熵函数的定义证明,细节留给读者完成。 证毕
可加性公式让我们不断降低信息熵中概率分布的维度,将高维计算简化为低维计算。有的教材称可加性为递推性。
例2.3 应用熵函数的可加性计算
解:
注意,可连续应用可加性公式:
连续应用可加性公式,我们有
定理2.4 (更一般的可加性公式)
其中
解释:我们可以把可加性理解为分步试验结果的熵等于各步试验结果熵的加权组合。。
设一个随机试验分为两个步骤。第1步共有n个可能结果,其概率分布为。这一步试验结果的熵为。
在第1
文档评论(0)