- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树算法与信息论-qingli,swufe
决策树算法与信息论
杨汉
前言:
在构建一刻决策树时,我们通过不断加入实体的属性,将实体进行分类,从而建立判别模型,本文从信息论开始主要说明以下几个问题:
1.熵(Entropy)的由来,及其意义。
2.决策树构建的原理。
一、从信息论开始
1.什么是信息论:
信息论最早来自于通信领域,也叫通信理论,主要研究信息的获取,变换,传输,处理等问题。
2.为什么要有信息论:
信息在日常生活中可谓无处不在,特别是近代以来巨大信息量的产生使其在生产与生活中扮演着至关重要的角色,然而,人么对于信息的认识依然处于感性阶段,没有形成一个系统的科学理论,这显然不利于相关科学研究的发展,信息论基于实践的推动应运而生,其标志是由香农(Shannon)在1948年发表的论文《A Mathematical Theory of Communication》。
3.信息的定性:
3.1通信系统的介绍:
由于信息论来自于通信领域,所以事先有必要了解一下相关基本知识,首先看一看通信系统,如下图:
信源:信息的来源
消息:信息的载体,消息以某种符号(语言,文字)或信号的形式表现出来,消息不等于信息(这一点等会会论述)
编码:把消息变成信号的措施。分为1:信源编码:如语言,书写2:信道编码:将1的结果再次编译为适宜在信道中传输的信号(莫尔斯玛)。
信道:传送信息的通道,关键是如何以最大速率传送最大信息量
噪声:即干扰,有系统内的(如:电路干扰),有系统外的(如:大气噪声)
译码:编码的逆向过程
信宿:消息接受方
3.2什么是信息
信息在形式上来说是消息,但重要的一点是,消息不等于信息。信息应当能减少人们的一种不确定性。例如:我对投一枚硬币的结果不确定,那么投硬币后其结果对于我来说就是一种信息。假设在投硬币之前,我通过复杂的技术预先知道了这次投币的结果,那么投币后的结果对于我来说就不是信息。下面用数学模型说明什么是信息:
I=S(Q|X)-S(Q|X’),其中I代表信息,S代表不确定性,Q代表对某件事的疑问,X代表收到消息前关于Q的知识,X’代表收到消息后对Q的知识。如果收到消息前信宿已经知道了消息的内容,则有X=X’,此时I=0,即没有得到任何信息,反之收到消息后,信宿的知识会变化,从而消除了部分或全部不确定性,信宿便得到了信息。
4.信息的定量:
4.1自信息
从信息的定性来看,信息的作用是消除不确定性,自然而然想到的是对多大的“不确定性”的消除。消除的不确定性越多,意味着信息量越大,反之则越小,而刻画不确定性的大小则涉及到概率论,香农将概率论的引入使得信息的度量形式化。我们用来表示一个事件发生的概率,越大表示此事件发生的概率越大,则其不确定新就越小,那么其含有的信息量也越小。因此,我们可以看出一个事件所包含的信息量应当是此事件发生的先验概率的函数:,根据客观事实和人们的习惯概念,还应该满足:
(1) 时,
(2) 当
(3) 当
(4) 两个独立事件的联合信息量等于他们分别信息量之和。
Hartley在《Transmission of information》中指出使用对数单位来度量信息,基于对数函数的性质,它确能很好的刻画信息的性质(包括以上四条),香农在《A Mathematical Theory of Communication》也肯定了这一点。
当我们知道时间的先验概率时,定义其所含有的信息量为:=-,这称为事件的自信息。
自信息采用的单位取决于对数所取的底。如果取2为底,则所得的单位为“比特”(bit),例如投一枚银币任意一面出现所带给我们的信息量为:=1bit,这表明两个互不相容等可能事件任意一个发生所带来的信息为1个基本信息单位。值得注意的是,这里的“比特”与计算机中的“比特”不同,计算机中,比特代表二元数字。这两个比特间的关系是,二元数字所能提供的最大平均信息量为1bit,道理和上面投硬币的例子一样。
下面的例子说明了这样一个事实:使用对数刻画信息量,意味着对信息量进行进制编码,以2为底的对数则是在对信息进行二进制编码。(这也该是用对数来刻画自信息的一个原因)
现在有8个字符组成的消息(ABCDEFGH),我们用二进制{0,1}来表示这8字符,则每个字符需要3()个数字来表示,如下图,如果把每一个字符中每一个数字看做一个“投硬币”事件,则每一个字符所包含的自信息量为3倍于一次“投硬币”事件的信息量,因此每个字符含有3比特信息量,那么对于m个字符则需要个数字来表示,其含有的信息量为。
4.2熵:
从一个例子开始,投一枚硬币,有两种随机结果“X=正”,“X=反”。因此,根据自信息的定义,每种结果所包含的信息量为I(X)===1bit。但是,对于投银币这一信源来说,其发出的信息量并不能等价于自信息,自信息I(X)只是一个随机变
文档评论(0)