信息熵的表示和计算教材.doc

下载文档

8
0
约3.58千字
约 5页
2017-03-29 发布于湖北
举报
版权申诉
保障服务

信息熵的表示和计算教材.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

实验一　　信息熵的表示和计算（实验估计时间：120 分钟） 1.1.1 背景知识信息熵是美国贝尔实验室数学家仙侬(SHANNON)在1948年他的通讯数学理论那篇文章中首先提出的. 仙侬也因此获得了现代信息通讯技术之父的美称. 他对信息通讯的贡献可以说是对世纪进入信息时代奠定了最重要的基础理论. 要简单说信息熵(ENTROPY)的概念很不容易,不过你只要把它看做是信息的一种数量化的衡量尺度就八九不离十了. 就象世界原来并没有时间这个东西,但是处于测度生命和运动过程的需要,人们发明了时间的概念.同样,信息原本并没有测度标准,但是出于衡量信息传递量和速度的需要,仙侬先生发明了对于信息的一个度量方法,这就是信息熵,它的单位是BIT. 为什么用BIT? 因为在二次大战结束后,世界通讯领域发展很快,电报,电话,电传等普及了,而这些以电脉冲为信号载体的设备的最基本的结构就是只具有两种状态的开关(继电器). 所以二进制的通讯信号已经是最普及的信息通讯编码方式,以它作为信息的测度尺寸也是最自然的选择. 以英文为例看如何计算信息熵. 我们都知道英文使用26个字母,如果我们把字母在所传输信息中出现的频率看做是随机的,而且具有同样的概率. 那么要传输26个字母中的任何一个就至少需要4个多BIT才够(4位最大是16个,5位最大是32个,26个字母介于两者之间). 当然,每个字母在传输信息中出现的概率不可能一样,比如 A是1/16; Ｂ是1/13; ...Z是1/126;(它们的和是1),那么通过计算可以得出英文的信息熵是4.03(根据参考文章介绍的数据). 2n = X; 其中 X 就是传输信息所需要的字符集的大小减去它的冗余度. 公式: H(信息熵) = -∑ Pi log2(Pi); Pi:为每个字母在信息中出现的概率; 计算公式并不复杂. 取以2为底的对数的道理也很简单,因为如果: 2n = X 的话,那么logX = n; 所以可以看出所谓信息熵就二进制的字符集在去掉冗余度后的二进制编码位数.冗余度是通过统计每个字符出现概率获得的。小知识冯志伟先生将仙侬的信息熵的计算用于非拼音的汉字字符集的信息熵的计算,这是一项工作量很大的任务.因为我们都知道,汉字的字符集很大,常用的有6-7000个,当然随着字符集的扩大,每个汉字出现的概率是不同的,有些罕用字的出现概率几乎是零.他们计算出的结果是9.3X. 这个测度的结论说明汉字在去掉冗余后,最短的信息传输字位需要9.3个BIT. 英文的信息熵是4.03,而计算机最初设计时的ASCII码是8位的,留有足够的空间. 那末如果当初是为汉字设计计算机的话,就至少需要留有18位,二个字节多. 这是一个什么成本概念? 在计算机研制的初期,总线宽度,内存大小可都是可以和黄金比的价格,更不要提设计的复杂程度的增加和早期集成度能否实现的问题了. 单是这一点就可以推论出使用汉字的人是不可能发明或创造计算机的. 现在再回到我们上面题目中的问题,信息熵的概念适用于汉字吗? 仙侬计算公式中的第一个假设就是字符在信息中出现的概率是随机的,而汉字在信息中出现频率是否是随机的呢? 这个问题就决定了汉字最后的计算结果. 因为我们通过上面的计算公式可以知道,如果每个汉字出现的频率不是随机的,比如说是均等的(一个极端情况),那么汉字的信息熵就会出现最大值并随着汉字的字数的增加而增加. 因为我们完全可以根据题目不同或作者的不同，而写出使用不同汉字字数的文章. 汉字的信息出现是随人的表达需求而变的,不是随机的,因为每一个汉字都它的意义. 26个英文字母在平均出现时的信息熵是4.7BIT,而去掉冗余度后的英文字母的信息熵是4.03BIT. 然而6000个汉字的平均出现时的信息熵是12.55BIT,当使用7000个平均出现的汉字是汉字的信息熵是12.77BIT,至于使用的汉字个数达到冯先生计算的12366个极限汉字时的信息熵是13.59,它们和使用概率计算的结果9.3相差太悬殊(和英文比起来).所以如何统计每个汉字的出现概率成了最后决定汉字信息熵的最大因素. 而每个汉字的出现概率又是如此的主观(或因人而异). 我对9.3的结果持某种怀疑。 1.1.2 实验目的（1）掌握信息熵的基本概念。（2）以学生评教数据的分析为例，学会用信息熵的知识处理教育中的实际问题。 1.1.3 工具/准备工作学生评教数据分析思路。学生评教是教师教学评价的重要组成部分,很多学校为了使评价结果更科学、更能表现教师真实的教学水平,根据学校自身情况,选用更适合的测量参照标准,如目标参照标准(以某些具体目标作为评定标准)；常模参照标准(以某一研究对象的集体平均水平作为评定的标准) ,自我参照标准(以研究对象自身在某一时期或状态的