- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
自然语言的熵第1页,共25页,星期日,2025年,2月5日由此看出,由于信源输出符号间的依赖关系也就是信源信号的相关性使信源的实际熵减小。信源输出符号间统计约束关系越长,信源的实际熵越小。当信源输出符号间彼此不存在依赖关系且为等概率分布时,信源的实际熵等于最大熵。定义:一个信源的熵率(极限熵)与具有相同符号集的最大熵的比值称为熵的相对率:第2页,共25页,星期日,2025年,2月5日可见对于有记忆信源,最小单个消息熵应为,即从理论上看,对有记忆信源只需传送即可。但是这必需要掌握信源全部概率统计特性和所有的记忆关系。这显然是不现实的。实际上,往往只能掌握有限的N维,这时只需传送,那么与理论值相比,就多传送了。为了定量描述信源熵的有效性,定义了信源冗余度:第3页,共25页,星期日,2025年,2月5日信源的冗余度来自两个方面:1、信源符号间的相关性信源符号间相关程度越大,符号间的依赖关系越长,信源的实际熵越小;2、另一方面是信源符号分布的不均匀性使信源的实际熵越小。为了更经济有效的传送信息,需要尽量压缩信源的冗余度,压缩冗余度的方法就是尽量减小符号间的相关性,并且尽可能的使信源符号等概率分布。第4页,共25页,星期日,2025年,2月5日从提高信息传输效率的观点出发,人们总是希望尽量去掉冗余度。但是从提高抗干扰能力角度来看,却希望增加或保留信源的冗余度,因为冗余度大的消息抗干扰能力强。信源编码是减少或消除信源的冗余度以提高信息的传输效率。信道编码则通过增加冗余度来提高信息传输的抗干扰能力。中华人民共和国中国母亲病愈,身体健康母病愈第5页,共25页,星期日,2025年,2月5日例:一个输出A、B、C、D四个符号的信源,它输出10个符号的序列包含最大可能的信息量为:当信源的符号间有依赖关系时,或概率分布不均匀时,信源熵要下降,因此信源输出的序列总信息量也要下降。假定信源由于符号间的相关性或不等概率,信源熵下降到比特/符号第6页,共25页,星期日,2025年,2月5日正由于信源存在着冗余度,即存在着不必要传送的信息,因此信源也就存在进一步压缩信息率的可能性。冗余度越大,压缩潜力也就越大。可见它是信源编码,数据压缩的前提与理论基础。下面,以英文为例,计算文字信源的冗余度。首先给出英文字母(含空档)出现概率如下:字母字母字母空档ETOANIR0.20.1050.0720.06540.0630.0590.0550.054SHDLCF.UMP0.05020.0470.0350.0290.0230.02250.0210.0175Y.WGBVKXJ.QZ0.0120.0110.01050.0080.0030.0020.0010.001第7页,共25页,星期日,2025年,2月5日下面,首先求得独立等概率情况,即其次,计算独立不等概率情况再次,若仅考虑字母有一维相关性,求还可进一步求出:第8页,共25页,星期日,2025年,2月5日最后,利用统计推断方法求出,由于采用的逼近的方法和所取的样本的不同,推算值也有不同,这里采用Shannon的推断值。这样,可以计算出:这一结论说明,英文信源,从理论上看71%是多余成分。即有71%是由语言结构定好的,而剩下的29%可由写文章的人自由发挥的。直观地说100页英文书,理论上看仅有29页是有效的,其余71页是多余的。正是由于这一多余量的存在,才有可能对英文信源进行压缩编码。第9页,共25页,星期日,2025年,2月5日为计算这些熵,要计算字母之间的一维条件概率、二维条件概率二阶马尔可夫信源,条件概率为个。香农做法:第10页,共25页,星期日,2025年,2月5日对于其它文字,也有不少人作了大量的统计工作,现简述如下:英文法文德文西班牙文中文(按8千汉字计算)第11页,共25页,星期日,2025年,2月5日汉字的编码GB2312-80国家标准汉字编码简称国标码。该编码集的全称是“信息交换用汉字编码字符集—基本集”,国家标准代号是“GB2312-80”。该编码的主要用途是作为汉字信息交换码使用。国标码中收集了二级汉字,共约7445个汉字及
文档评论(0)