Shannon信息论.docVIP

下载本文档

54
0
约 20页
2017-08-31 发布于重庆
举报
版权申诉

Shannon信息论.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Shannon信息论

从Shannon信息论到广义信息论 --摘自《投资组合的熵理论和信息价值》(科大出版社1997) ? 本章先简单地介绍Shannon信息理论，然后将通信优化和编码优化作一比较——笔者以为这是很有趣的。本章后面的鲁氏广义信息论来自笔者的专著《广义信息论》[4]，但是严格说来，笔者的广义信息理论还应该包含下一章的基于增值熵的信息价值理论。之所以加上“鲁氏”二字是因为广义信息理论有多种，不加有暗中兜售私货或“篡位”之嫌。 1.1??????????? Shannon信息论简介 1948年，美国工程师Shannon在贝尔实验室杂志上发表了长文《通信的数学理论》[7]，这篇文章标志着Shannon信息论或者说经典信息论的诞生。经典信息论的诞生有两个来源，一是来源于物理学的熵理论。Boltzmann在讨论熵问题时就说过：熵是对失去的信息的度量。信息论中的熵H(X)和Boltzmann熵S存在某种等价关系(见《广义信息论》6.1节)。这说明了两者有血缘关系。信息论的另一个来源是早期人们对电报通信的研究。自16世纪，Gilbert等人就研究了电报电码问题，这一研究的著名产物是Mouse电报电码。使用该电码可以用较少的电报符号传递较长的电文。而Shannon熵正反映了使用最优方式编码时，平均每个文字需要的最短码长。 Shannon通信模型如图1所示。图 1? Shannon通信模型有时我们把编译码部分和噪声并入信道，则通信模型简化为信源?信道?信宿我们用取值于A={x1，x2，...}中的随机变量X表示信源文字，用取值于B={y1，y2，...}中的随机变量Y表示信宿文字，于是信源和信宿可以被抽象为概率分布函数P(X)和P(Y)，而信道可以被抽象为条件概率分布函数P(Y|X)。信源的熵是 ?????? (9.1.1) Y提供的关于X的平均信息量是给定Y时X的熵的减量，即 ??????????? (9.1.2) 这就是著名的Shannon互信息公式；其中H(Y)是Y的熵，H(X|Y)是给定Y时的X的条件熵。给定Y=yj 时，I(X；Y)变为yj 提供的关于X的平均信息：????????? ???????? (9.1.3) 上式也叫Kullback公式。后面将说明，如果把P(X|yj)理解为预测的可能性测度，则I(X；yj) 就是预测和事实一致时的平均信息。可以证明I(X；yj)必然大于0。 Shannon 定义了两个重要函数：信道容量和保真度信息率。关于后者的理论后来又有所发展，并且保真度信息率被改称为信息率失真(information rate—distortion)[27]。信道容量和信息率失真分别是通信的数量和质量指标。如果把通信系统和生产系统相类比，则信道容量就相当于生产能力，而信息率失真就相当于给定产品质量要求时，单位产品所需要的最少劳动量。近50年来，以Shannon理论为核心的经典信息理论在编码、检测等方面取得了巨大成就；然而，它远不能解决信息领域实际遇到的数学问题。这些问题是：怎样度量一系列颜色或图像实际给予的信息？感觉分辨率怎样影响主观信息量？相似事件而不是随机事件提供的信息如何计算？信源和信道可变时信息量如何计算……怎样度量统计数字的信息和信息价值？怎样度量语言、预言(比如天气预报)和谎言的信息和信息价值？将有不确定事件发生时，选择怎样的语句可以提供最多信息或信息价值？给定通信的主观效果和信息价值要求时，客观信息率或平均码长可能压缩到多少? 把Shannon理论应用于日常生活会得出非常奇怪的结果，这可以用一个例子来说明：有两个气象台，关于是否下雨，一个总是正确预报，而另一个总是错报；而根据Shannon理论，两者提供的信息是一样的，因为Shannon理论只看概率，不看语义。关于Shannon理论的局限性，我们可以换一种说法：Shannon创立的经典信息论根本就不是关于我们日常所说的 “信息”的理论，它充其量只是通信编码理论。但是Shannon信息和日常信息也不是没有联系，后面我们将证明，Shannon信息是日常信息的某种特例——假设收信者完全了解预测者预测规则时的特例。 1.2??????????? Shannon熵和Shannon互信息的?编码意义使用电报通信的早期，人们用长短不同的信号表示所要传递的字母A，B，C，……。设长短信号分别用0，1表示，则一个字母可用一个0-1码，比如001表示。后来发现，用较短的0-1 码表示经常出现的字母，比如E；而用较长的0-1码表示较少出现的字母，比如X；这样就能在传递相同电文的情况下所用0-1码的总长度最短，或每个字母所用平均码长最短。然而，要想不失真地，即在H(X|Y)＝0的情况下，传递电报电文，平均码长最多能缩短到多少呢？Shannon理论告诉我们，这个平均