9.信息论方法二.pptVIP

下载本文档

1
0
约5.31千字
约 33页
2018-11-01 发布于北京
举报
版权申诉

9.信息论方法二.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

9.信息论方法二.ppt

第7章信息论方法（二） 7.2. 5 C4.5方法 7.3 决策规则树方法 C4.5算法 ID3算法在数据挖掘中占有非常重要的地位。但是，在应用中，ID3算法不能够处理连续属性、计算信息增益时偏向于选择取值较多的属性等不足。C4.5是在ID3基础上发展起来的决策树生成算法，由J.R.Quinlan在1993年提出。 C4.5构造决策树的算法设T为数据集，类别集合为{C1,C2,…,Ck}，选择一个属性V把T分为多个子集。设V有互不重合的n个取值{v1,v2,…,vn }，则T被分为n个子集T1,T2,…,Tn ，这里Ti中的所有实例的取值均为vi。令：|T|为数据集T的例子数，|Ti|为v=vi的例子数，|Cj|= freq(Cj,T)，为Cj类的例子数，|Cjv|是V=vi例子中，具有Cj类别例子数。 (1)类别的信息熵 (2)类别条件熵按照属性V把集合T分割，分割后的类别条件熵为： (3)信息增益（gain），即互信息 (4)属性V的信息熵 (5)信息增益率 C4.5对ID3改进是用信息增益率来选择属性。理论和实验表明，采用“信息增益率”（C4.5方法）比采用“信息增益”（ID3方法）更好，主要是克服了ID3方法选择偏向取值多的属性。 2、连续属性的处理在ID3 中没有处理连续属性的功能。在C4.5中，设在集合T中，连续属性A的取值为{v1,v2,…,vm}，则任何在vi和vi+1之间的任意取值都可以把实例集合分为两部分T1={ t | A = vi}和T2={ t | A vi}，可以看到一共有m-1种分割情况。对属性A的m-1种分割的任意一种情况，作为该属性的两个离散取值，重新构造该属性的离散值，再按照上述公式计算每种分割所对应的信息增益率gain_ratio(vi)，在m-1中分割中，选择最大增益率的分割作为属性A的分枝： Threshold(V) = vk 其中， gain_ratio(vk) = max{ gain_ratio(vi) } 则连续属性A可以分割为： 3、决策树剪枝由于噪声和随机因素的影响，上述树一般会很复杂。因此需要进行剪枝操作。 (1)什么时候剪枝？有两种剪枝策略：（1）在树生成过程中判断是否还继续扩展决策树。若停止扩展，则相当于剪去该结点以下的分枝。（2）对于生成好的树剪去某些结点和分枝。C4.5采用第二种方法。剪枝之后的决策树的叶结点不再只包含一类实例。结点有一个类分布描述，即该叶结点属于某类的概率。 4、从决策树抽取规则在C4.5中，从决策树抽取规则需要两个步骤：获得简单规则、精简规则属性。对于生成好的决策树，我们可以直接从获得规则。从根到叶的每一条路经都可以是一条规则。例如，从下面的决策树中我们可以得到规则： 7.3 决策规则树方法我们于91年研制的IBLE方法是利用信息论中信道容量的概念作为对实体中选择重要特征的度量。 IBLE方法建立的是决策规则树，树中每个结点是由多个特征所组成。特征的选取是通过计算各特征信道容量来进行的。各特征的正例标准值由译码函数决定。结点中判别正反例的阈值（wn,wp）是由实例中权值变化的规律来确定的。决策规则树决策规则树结点（1）规则表示形式决策规则树中非叶结点均为规则。规则表示为：特征： A1，A2，...， .Am 权值： W1，W2，...，.Wm 标准值：V1，V2，...， .Vm 阈值：Sp，Sn 该规则可形式描述为：（1）sum:=0；（2）对i:=1到m作：若（Ai）=Vi，则sum:=sum+wi；（3）若sum?sn，则该例为N类；（4）若sum?sp，则该例为P类；（5）若snsumsp，则该例暂不能判，转下一条规则判别。其中sum表示权和，（Ai）表示特征Ai的取值。（2）举例设问题空间中例子有10个特征（属性），特征编号从1到10。每个特性取值为{no,yes}，用{0,1}表示，规则是由重要特征组成的，对每个特征求出权值以表示其重要程度，删除不重要特征得规则如下：特征： 1 3 4 6 7 权值： 100 90 105 500 40 标准值： 1 0 1 1 0 阈值： 220，100 现有三个测试例子：例子1：（1，0，0，0，1，0，0，1，1，1）例子2：（0，1，0，0，1，0，0，0，1，0）例子3：（0，1，0，0，1，0，1，0，