第三篇传输理论1.ppt

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机网络理论及应用 第三章 通信与信息传输理论 WWW.LEARN.SN.EDU.CN 西安交通大学 唐亚哲 yztang@ nettheory@ 信息论初步 Introduction to Information Theory 提要 最优编码 自信息 熵 联合熵、条件熵 互信息 交叉熵 KL-divergence 信息论 Shannon 于20世纪40年代提出 在非理想的通信信道内如何传输最大量的信息,包括 数据压缩(与熵相关) 传输率 (信道容量) 信息量的度量 信息论被用来 解决海量存储(文本压缩编码) 推测不确定性-熵 解释随机变量及其分布的关系-互信息、KL距离 信息的度量 信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵” 的概念,才解决了对信息的量化问题。 一条信息的信息量大小和它的不确定性有直接的关系。 比如说,要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,则不需要太多的信息就能把它搞清楚。从这个角度可认为,信息量的度量就等于不确定性的多少。 例子:冠军队预测 信息论基本概念 编码长度:信源发出的不同信号在传输中需要用多长的编码传输,能够节省对信道的占用,并在接收方获得不歧义的信息 Entropy(熵):测量随机变量不确定性,反映混乱程度 Mutual Information(互信息):测量两个随机变量的相关/相互依赖程度。解释当已知一个变量时能对减少另一个变量不确定性起到多大的贡献。 Kullback-Leibler divergence:比较两个分布的差异 1.最优编码 1.最优编码 1.最优编码 2.自信息 一个信源可按某种概率发出若干不同的信号,每个信号带有的信息量称为其自信息。 信源:随机变量;信号:随机变量的取值 基于定性分析,自信息的特性应当是 非负 递增 具有这样的特性的函数有很多,人们构造出如下定义式: ωn :随机变量X的某个取值;P(ωn ):X取该值的概率 3.熵 定义: 设随机变量X,取值空间Ω,Ω为有限集合。X的分布密度为p(x),p(x)=P(X=x) x∈X,则该随机变量的取值不确定程度,即其熵为: 当使用log2时,熵的单位为比特 反映一个信源发出不同信号,具有的平均信息量。 3.熵 熵的基本性质: H(X) ≧0,等号表明确定场(无随机性)的熵最小 H(X) ≦log|X|,等号表明等概场的熵最大。 从编码压缩的角度解释:X的取值越随机,它的编码越难以压缩。 一本五十万字的中文书平均有多少信息量? 我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。 但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。 如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。 所以,一本五十万字的中文书,信息量大约是 250 万比特。 如果用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。 这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。 不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。 3. 熵 熵率 4.联合熵、条件熵 5.互信息 5.互信息 一般计算中,常计算两个具体事件之间的互信息,称为“点互信息” Reference 信息论相关书籍 《计算语言学》讲义,常宝宝,北大计算语言学研究所 《信息检索》讲义, 翟成祥,UIUC 数学之美(4),(7),(23),吴军,google §3.1概述 3.1.1信息的处理与网络 信息共享 信息全球化 全球信息化 两个问题 如何构成具有高效率和高速度信息传输能力的通信网络 以什么样的形态,从逻辑上把各自独立存在的网络资源统一起来 3.1.2 信息网络的现状与未来 通信网络的主要功能 高速传输信息 传输大容量信息 高效地传输信息 能在网络内任意两点间自由地发送,接收信息 能正确无误,高可靠地传送信息 3.1.2 信息网络的现状与未来 1、信息网络的发展 高带宽、大容量

文档评论(0)

187****5045 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档