- 21
- 0
- 约 49页
- 2016-12-24 发布于河南
- 举报
几种压缩算法
什么是熵
数据压缩不仅起源于 40 年代由 Claude Shannon 首创的信息论,而且其基本原理即信息究竟能被压缩到多小,至今依然遵循信息论中的一条定理,这条定理借用了热力学中的名词“熵”( Entropy )来表示一条信息中真正需要编码的信息量:
考虑用 0 和 1 组成的二进制数码为含有 n 个符号的某条信息编码,假设符号 Fn 在整条信息中重复出现的概率为 Pn,则该符号的熵也即表示该符号所需的位数位为:
En = - log2( Pn )
整条信息的熵也即表示整条信息所需的位数为:E = ∑En
举个例子,对下面这条只出现了 a b c 三个字符的字符串:
aabbaccbaa
字符串长度为 10,字符 a b c 分别出现了 5 3 2 次,则 a b c 在信息中出现的概率分别为 0.5 0.3 0.2,他们的熵分别为:
Ea = -log2(0.5) = 1
Eb = -log2(0.3) = 1.737
Ec = -log2(0.2) = 2.322
整条信息的熵也即表达整个字符串需要的位数为:
E = Ea * 5 + Eb * 3 + Ec * 2 = 14.855 位
回想一下如果用计算机中常用的 ASCII 编码,表示上面的字符串我们需要整整 80 位呢!现在知道信息为什么能被压缩而不丢失原有的信息内容了吧。简单地讲,用较少的位数表示较
您可能关注的文档
最近下载
- 胡椒醛安全技术说明书(MSDS).pdf VIP
- 2022年。四年级下册期中考试。.docx VIP
- (2021年)湖南省株洲市辅警协警笔试笔试真题(含答案).docx VIP
- 呼吸道感染的流行病学分析.pdf VIP
- 入团积极分子培养考察表(2025年版).docx VIP
- 学校中层管理岗位选聘与考核管理方案(2026年修订版).docx
- 中国医师药师临床指南第2版pdf.pptx VIP
- 吉林省题库建设指导手册(试行)+目录.pdf VIP
- 2025年咨询工程师(投资)考试《工程项目组织与管理》真题及答案解析【完20256.pdf VIP
- 第七章+第四节++长江经济带的协同发展+课件2025-2026学年+湘教版地理八年级下册.pptx VIP
原创力文档

文档评论(0)