数据仓库用于决策支持.PPT

下载文档 降价啦

1
0
约1.83万字
约 122页
2019-05-31 发布于天津
举报
保障服务

数据仓库用于决策支持.PPT

5.6.2 决策树及其应用决策树对新样本的分类过程: 即通过新样本属性值的测试从根结点开始按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别. 数据挖掘的决策树方法的原理是信息论，信息论是C.E.Shannon为解决信息传递（通信）过程问题而建立的理论，也称为统计通信理论。一个传递信息的系统是由发送端（信源）和接收端（信宿）以及连接两者的通道（信道）三者组成。信息论把通信过程看做是在随机干扰的环境中传递信息的过程。在这个通信模型中，信息源和干扰（噪声）都被理解为某种随机过程或随机序列。 5.6.2 决策树及其应用在进行实际的通信之前，收信者（信宿）不可能确切了解信源究竟会发出什么样的具体信息，不可能判断信源会处于什么样的状态。这种情形就称为信宿对于信源状态具有不确定性。而且这种不确定性是存在于通信之前的。因而又叫做先验不确定性。在进行了通信之后，信宿收到了信源发来的信息，这种先验不确定性才会被消除或者被减少。如果干扰很小，信源发出的信息能够被信宿全部收到，在这种情况下，信宿的先验不确定性就会被完全消除。 5.6.2 决策树及其应用在一般情况下，干扰总会对信源发出的信息造成某种破坏，使信宿收到的信息不完全。因此，先验不确定性不能全部被消除，只能部分地消除。通信结束之后，信宿还仍然具有一定程度的不确定性。这就是后验不确定性。显然，后验不确定性总要小于先验不确定性，不可能大于先验不确定性。 5.6.2 决策树及其应用如果后验不确定性的大小正好等于先验不确定性的大小，这就表示信宿根本没有收到信息。如果后验不确定性的大小等于零，这就表示信宿收到了全部信息。可见，信息是用来消除（随机）不确定性的度量。信息量的大小，由所消除的不确定性的大小来计量。 5.6.2 决策树及其应用信息论基本概念定义1：若存在n个相同概率的消息，则每个消息的概率p是1/n，一个消息传递的信息量为-Log2(1/n),概率越大,信息量越小如英语有26个字母,假如每个字母在文章中出现的次数平均的话,每个字母的信息量为: I(e)=-log21/26=4.7 如常用汉字有2500个,假如每个汉字在文章中出现的次数平均的话,每个汉字的信息量为: I(e)=-log21/2500=11.3 5.6.2 决策树及其应用定义2：若有n个消息，其给定概率分布为P=(p1,p2…pn)，则由该分布传递的信息量称为P的熵，记为定义3：若一个记录集合T根据类别属性的值被分成互相独立的类C1,C2..Ck，则识别T的一个元素所属哪个类所需要的信息量为Info(T)=I(p)，其中P为C1,C2…Ck的概率分布，即P=(|C1|/|T|,…..|Ck|/|T|) 5.6.2 决策树及其应用定义4：若先根据非类别属性X的值将T分成集合T1, T2, … Tn，则确定T中一个元素类的信息量可通过确定Ti的加权平均值来得到，即Info(Ti)的加权平均值为： ? ? Info(X, T)= ((|Ti|/|T|)Info(Ti)) 5.6.2 决策树及其应用定义5：信息增益度是两个信息量之间的差值，其中一个信息量是需确定T的一个元素的信息量，另一个信息量是在已得到的属性X的值后需确定的T一个元素的信息量，信息增益度公式为：? ? Gain(X, T)=Info(T)-Info(X, T)? 2、ID3算法当前国际上最有影响的示例学习方法首推J.R.Quinlan的ID3。 ID3以信息论为基础,以互信息(信息增益, Inf ormation gain）和信息熵为衡量标准,从而实现对数据的归类分类. 2、ID3算法工作过程: 首先找出最有判别力(信息增益,information gain)的属性,把数据分成多个子集,每个子集又选择最有判别力的属性进行划分,一直进行到所有子集仅包含同一类型的数据为止. 最后得到一棵决策树,可用它来对新的实例进行分类. 训练集 PE、NE 取子集建窗口窗口 PE`、NE` 生成决策树测试 PE、NE 扩展窗口 PE`=PE`+PE``NE`=NE`+NE`` 此决策树为最后结果存在错判的 PE``，NE``吗是否 ID3主算法流程（一）主算法 1、从训练集中随机选择一个既含正例又含反例的子集（称为窗口）； 2、用“建树算法”对当前窗口形成一棵决策树； 3、对训练集（窗口除外）中例子用所得决策树进行类别判定，找出错判的例子； 4、若存在错判的例子，把它们插入窗口，转2，否则结束。主算法中每迭代循环一次，生成的决策树将会不相同。（二）建树算法 1、对当前例子集合，计算各

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据仓库用于决策支持.PPT