信息论与编码理论基础 (第二章 ).ppt

. §2.4 离散型随机变量的平均互信息量 . §2.4 离散型随机变量的平均互信息量 . §2.4 离散型随机变量的平均互信息量 定义2.4.1(平均互信息量) 给定一个二维离散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J})。X与Y的平均互信息量定义为如下的I(X; Y): . 注意: ①事件对(xk, yj)的“非平均互信息量”值为I(xk; yj)。 ②此外,可以定义“半平均互信息量”I(xk; Y)和I(X; yj)。 I(xk; Y)表示事件“X=xk”与随机变量Y之间的半平均互信息量; I(X; yj)表示事件“Y=yj”与随机变量X之间的半平均互信息量。 . §2.4 离散型随机变量的平均互信息量 平均互信息量的性质 1、I(X; Y)≥0。(虽然每个“非平均互信息量” I(xk; yj)未必非负,但平均互信息量I(X; Y)非负) 证明 . §2.4 离散型随机变量的平均互信息量 {rkj, k=1~K; j=1~J}是一个概率向量: {qkwj, k=1~K; j=1~J}是另一个概率向量: 故由引理2知, . §2.4 离散型随机变量的平均互信息量 2、对称性:I(X; Y)=I(Y; X)。 3、平均互信息量的熵表示: I(X; Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)。 证明 . §2.4 离散型随机变量的平均互信息量 . §2.4 离散型随机变量的平均互信息量 3’、若X与Y相互独立,则 I(X; Y)=0, H(X|Y)=H(X), H(Y|X)=H(Y), H(XY)=H(X)+H(Y)。 证明 若X与Y相互独立,则rkj=qkwj, k=1~K; j=1~J。 因此此时loga(rkj/(qkwj))=0, k=1~K; j=1~J。 因此I(X; Y)=0。再由性质3,性质3’得证。 . §2.4 离散型随机变量的平均互信息量 4、I(X; Y)≤H(X),I(X; Y)≤H(Y)。 (性质4有多种简单的证明方法。 第一种证明方法:由I(X; Y)的定义, loga(rkj/(qkwj))≤loga(1/qk)。 第二种证明方法: 由性质3,I(X; Y)=H(X)-H(X|Y)≤H(X)。) 4’、 若X是Y的确定的函数X=g(Y),则 I(X; Y)=H(X)≤H(Y)。 若Y是X的确定的函数Y=g(X),则 I(X; Y)=H(Y)≤H(X)。 (证略) . §2.4 离散型随机变量的平均互信息量 一般印象 (平均互信息量I(X; Y)的各种性质与我们对“平均互信息量”这个名词的直观理解非常吻合)。 一般情形:总有0≤I(X; Y)≤min{H(X), H(Y)}。 一种极端情形:若X与Y相互独立,则I(X; Y)=0。 另一种极端情形:若X、Y中有一个完全是另一个的确定的函数,则I(X; Y)=min{H(X), H(Y)}。 . §2.4 离散型随机变量的平均互信息量 定理2.4.1(信息处理定理) 对于以下给定的系统串联有: I(X; Y)≤I(X; Z)。 信息处理定理的含义:串联的系统越多,两端的平均互信息量越小。 信息处理定理的证明思想:注意到X、Z、Y构成了马尔可夫链。简单地说,在已知Z的条件下, X与Y条件独立。根据这种马尔可夫链结构,可以证明I(X; Y)≤I(X; Z)。 (证略) . 自信息量的不足 信源发符号xk不是确定事件,是以p(xk)为概率的随机事件,相应的自信息量I(xk)也是一个以p(xk)为概率的随机性的量,显然,用一个随机性的量来度量信息是不方便的. 信息函数I(xk)只能表示信源发某一特定的具体符号xk所提供的信息量. 不同的符号由不同的自信息量. 所以它不足以作为整个信源的总体信息测度. 据此,在信息函数I(xk)的基础上,构架一个确定的量,作为信源的总体信息测度,就成为我们面临的一个重要课题. . 统计平均值 能作为信源总体信息测度的确定的量,应是信源X可能发出的各种不同符号xk(k=1,2,…,K)含有的自信息量I(xk)(k=1,2,…, K),在信源的概率空间 {p(x1), p(x2), …,p(xK)} 中的统计平均值H(X). . 平均自信息量——熵 定义2.2.1(平均自信息量——熵) 离散型随机变量{X, xk, qk, k=1~K}的平均自信息量(又称为熵)定义为 其中底数a是大于1的常数。

文档评论(0)

1亿VIP精品文档

相关文档