信息论方法培训资料.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7章 信息论方法 (一);7.1 信息论原理 7.2 决策树方法 ;7.1 信息论原理 信息论是C.E.Shannon为解决信息传递(通信)过程问题而建立的理论,也称为统计通信理论。 1. 信道模型 一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。;在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,不可能判断信源会处于什么样的状态。 这种情形就称为信宿对于信源状态具有不确定性。而且这种不确定性是存在于通信之前的。因而又叫做先验不确定性,表示成 信息熵 H(U);在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。 先验不确定性不能全部被消除,只能部分地消除。 通信结束之后,信宿仍然具有一定程度的不确定性。这就是后验不确定性,用条件熵表示H(U/V)。 后验不确定性总要小于先验不确定性: H(U/V) H(U);如果后验不确定性的大小正好等于先验不确定性的大小,这就表示信宿根本没有收到信息。 如果后验不确定性的大小等于零,这就表示信宿收到了全部信息。 可见,信息是用来消除(随机)不确定性的度量。信息量用互信息来表示,即: I(U,V)=H(U)- H(U/V);6.信息熵 (1)消息传递系统由消息的发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。 (2)消息(符号)Ui(i=1,2,...,q)的发生概率P(Ui)组成信源数学模型(样本空间或概率空间) ;(3)自信息:消息Ui发生后所含有的信息量。它反映了消息Ui发生前的不确定性(随机性)。定义为: 以2为底,所得的信息量单位为bit。以e为底,所得的信息量单位为nat. (4)信息熵:自信息的数学期望。即信源输出后,每个消息所提供的信息量,也反映了信源输出前的平均不确定性。定义为: ;例如:两个信源,其概率空间分别为: 则信息熵分别为: H(X)= - 0.99 log0.99 - 0.01 log0.01 = 0.08 bit H(Y)= - 0.5 log0.5 - 0.5 log0.5 = 1bit 可见 H(Y)H(X) 故信源Y比信源X的平均不确定性要大。; 信??熵H(U)是信源输出前的平均不确定性,也称先验熵。 H(U)的性质: (1)H(U)=0时,说明只存在着唯一的可能性,不存在不确定性。 (2)如果n种可能的发生都有相同的概率,即所有的Ui有P(Ui)=1/n,H(U)达到最大值log n,系统的不确定性最大。 P(Ui)互相接近,H(U)就大。P(Ui)相差大,则H(U)就小。 ;(1)后验熵和条件熵 当没有接收到输出符号V时,已知输入符号U的概率分布为P(U),而当接收到输出符号V=Vj 后,输入符号的概率分布发生了变化,变成后验概率分布P(U|Vj)。其后验熵为: ;当没有接收到输出符号V时,已知输入符号U的概率分布为P(U),而当接收到输出符号V=Vj 后,输入符号的概率分布发生了变化,变成后验概率分布P(U|Vj)。那么接收到输出符号V=Vj后,关于U的平均不确定性为: 这是接收到输出符号Vj后关于U的条件熵 ; 这个条件熵称为信道疑义度。它表示在输出端收到全部输出符号V后,对于输入端的符号集U尚存在的不确定性(存在疑义)。 从上面分析可知:条件熵小于无条件熵,即 H(U|V)H(U)。 说明接收到符号集V的所有符号后,关于输入符号U的平均不确定性减少了。即总能消除一些关于输入端X的不确定性,从而获得了一些信息。;(2)平均互信息(信息增益) 定义: I(U,V)=H(U)?H(U|V) (3.10) I(U,V)称为U和V之间的平均互信息(信息增益),它代表接收到符号集V后获得的关于U的信息量。 可见,熵(H(U)、H(U|V))只是平均不确定性的描述。熵差(H(U) ? H(U|V))是不确定性的消除,即互信息(信息增益)才是接收端所获得的信息量。 ;(2)平均互信息(信息增益) 对输入端U只有U1,U2两类,互信息(信息增益)的计算公式为: ;7.2 决策树方法;7.2 决策树方法;7.2 决策树方法; 决策树是一种知识表示形式,它是对所有样本数据的高度概括。 决策树能准确地识别所有样本的类别,也能有效地识别新样本的类别。 ;7.2.2 ID3方法基本思想;7.2.2 ID3方法基本思想;7.2.2 ID3方法基本思想;

文档评论(0)

yuzongjuan7808 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档