信息量和熵 - 西安电子科技大学个人主页系统 .ppt

信息量和熵 - 西安电子科技大学个人主页系统 .ppt

信息量和熵 - 西安电子科技大学个人主页系统 .ppt

第二章 信息量和熵 信息量和熵 2.1 离散变量的非平均信息量 2.2 离散集的平均自信息量-熵 2.3 离散集的平均互信息量 2.4 连续随机变量的互信息和熵 2.5 凸函数和互信息的凸性 2.1 离散变量的非平均信息量 输入,输出空间定义 输入空间X={xk,k=1,2,…,K},概率记为q(xk) 输出空间Y={yj,j=1,2,…,J},概率记为ω(yj) 联合空间XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率为p(xkyj) p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk) 非平均互信息量 例2.1.1 非平均互信息量 非平均互信息量 例2.1.2 非平均互信息量 条件互信息和联合事件互信息 三个事件集的条件互信息定义为 可以推广到任意有限多个空间情况 互信息的可加性 互信息量特性: 对称性 可加性 互信息量的值域: -infinite ~ +infinite, 即全体实数 离散变量的非平均自信息量 非平均自信息的性质 非负性 体现先验不确定性大小 条件自信息和联合自信息 自信息、条件自信息和互信息 2.2 离散集的平均自信息量-熵 熵 条件熵和联合熵 熵的性质 对称性 非负性 确定性 扩展性 可加性 极值性 是H(P)上凸函数 熵是概率矢量的函数 P=(p1, p2, …, pk)可以看作是K维矢量,当 ,常称作是概率矢量; 故HK(P)=HK(p1, p2, …, pk)是概率矢量P的函数 熵的性质-对称性 矢量的各分量p1,p2,…pk的次序任意改变时,熵值不变 熵函数的值只与概率分布或将1分割成的K个实数的取值有关,而与这K个实数和K个事件采取何种一一对应方式无关 熵的性质-非负性 HK(P) = HK(p1, p2, …, pK) ≥0 可由单个事件自信息量的非负性得到 熵的性质-确定性 若事件集X中有一个事件为必然事件,其余事件为不可能事件,则此集合的熵值为0 熵的性质-扩展性 熵的性质-可加性 H(p1q11,p1q12,…,p4q44)=H(p1…,p4)+p1H(q11,…,q14)+…+p4H(q41,…,q44) 熵的性质-极值性 引理1: lnx≤x-1 引理2: H(X|Y) ≤H(X) H(U1…UN) ≤H(U1)+…+H(UN) 熵的性质-凸性 H(P)是P的上凸函数 2.3 离散集的平均互信息量 平均互信息量 平均互信息量的性质 非负性 I(X;Y) ≥0 对称性 I(X;Y)=I(Y;X) 平均互信息用熵与条件熵表示 平均互信息与熵的关系: I(X;Y) ≤H(X) or H(Y) 平均互信息量 平均条件互信息与联合互信息 信息处理定理 Z出现情况下,X和Y独立 信息处理定理 2.4 连续随机变量的互信息和相对熵 连续随机变量的互信息 连续随机变量的平均互信息 性质 连续随机变量的相对熵 正态随机变量的相对熵 练习: 相对熵的极大化 1.峰值功率受限 均匀分布相对熵最大:HC(X) ≤log 2M 2.平均功率受限 高斯分布相对熵最大 3.平均功率大于等于熵功率 2.5 凸函数与互信息的凸性 凸函数 凸集R:a,b属于R,qa+(1-q)b也属于R,其中0≤q≤1 概率矢量: 矢量a的所有分量非负,且和为1 概率矢量全体所构成的区域R是凸的 上凸函数 下凸函数 凸函数的性质 f(a)是上凸的,-f(a)是下凸的 f1(a),…,fL(a)是R上的上凸函数,c1,…,cL是正数,c1f1(a)+…+cLfL(a)也是上凸函数 Jensen不等式: f(a)是上凸函数,E[f(a)]≤f[E(a)],E为求数学期望 K-T条件 f(a)是定义域R上的上凸函数,a是概率矢量。偏导数 存在且连续, f(a)在R上为极大的 充分必要条件 其中l为一常数。 互信息的凸性 习题 10个硬币中有一个重量偏轻,其他9个为标准重量。在不用砝码的天平上至多称多少次,就能发现这个轻的硬币?怎样称?用天平称的信息论含义是什么? H(X) H(Y) I(X;Y) H(Y|X) H(X|Y) 系统1 系统2 X Z Y I(X; Y | Z) I(XY; Z) 非负性 对称性 数据处理定理 关系 HC(XY) HC(Y | X), HC(Y | X) ≤HC(Y) 互信息与相对熵 I(X ; Y)=HC(X)-HC(X | Y)=HC(Y)-HC(Y | X) =HC(X)+HC(Y)-HC(

文档评论(0)

1亿VIP精品文档

相关文档