数据仓库用于决策支持.PPT

5.6.2 决策树及其应用 决策树对新样本的分类过程: 即通过新样本属性值的测试 从根结点开始按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别. 数据挖掘的决策树方法的原理是信息论,信息论是C.E.Shannon为解决信息传递(通信)过程问题而建立的理论,也称为统计通信理论。 一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。 信息论把通信过程看做是在随机干扰的环境中传递信息的过程。在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。 5.6.2 决策树及其应用 在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,不可能判断信源会处于什么样的状态。这种情形就称为信宿对于信源状态具有不确定性。而且这种不确定性是存在于通信之前的。因而又叫做先验不确定性。 在进行了通信之后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。 如果干扰很小,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。 5.6.2 决策树及其应用 在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。因此,先验不确定性不能全部被消除,只能部分地消除。 通信结束之后,信宿还仍然具有一定程度的不确定性。这就是后验不确定性。 显然,后验不确定性总要小于先验不确定性,不可能大于先验不确定性。 5.6.2 决策树及其应用 如果后验不确定性的大小正好等于先验不确定性的大小,这就表示信宿根本没有收到信息。 如果后验不确定性的大小等于零,这就表示信宿收到了全部信息。 可见,信息是用来消除(随机)不确定性的度量。信息量的大小,由所消除的不确定性的大小来计量。 5.6.2 决策树及其应用 信息论基本概念 定义1:若存在n个相同概率的消息,则每个消息的概率p是1/n,一个消息传递的信息量为-Log2(1/n),概率越大,信息量越小 如英语有26个字母,假如每个字母在文章中出现的次数平均的话,每个字母的信息量为: I(e)=-log21/26=4.7 如常用汉字有2500个,假如每个汉字在文章中出现的次数平均的话,每个汉字的信息量为: I(e)=-log21/2500=11.3 5.6.2 决策树及其应用 定义2:若有n个消息,其给定概率分布为P=(p1,p2…pn),则由该分布传递的信息量称为P的熵,记为 定义3:若一个记录集合T根据类别属性的值被分成互相独立的类C1,C2..Ck, 则识别T的一个元素所属哪个类所需要的信息量为Info(T)=I(p),其中P为C1,C2…Ck的概率分布,即P=(|C1|/|T|,…..|Ck|/|T|) 5.6.2 决策树及其应用 定义4:若先根据非类别属性X的值将T分成集合T1, T2, … Tn,则确定T中一个元素类的信息量可通过确定Ti的加权平均值来得到,即Info(Ti)的加权平均值为: ? ? Info(X, T)= ((|Ti|/|T|)Info(Ti)) 5.6.2 决策树及其应用 定义5:信息增益度是两个信息量之间的差值,其中一个信息量是需确定T的一个元素的信息量,另一个信息量是在已得到的属性X的值后需确定的T一个元素的信息量,信息增益度公式为: ? ? Gain(X, T)=Info(T)-Info(X, T)? 2、ID3算法 当前国际上最有影响的示例学习方法首推J.R.Quinlan的ID3。 ID3以信息论为基础,以互信息(信息增益, Inf ormation gain)和信息熵为衡量标准,从而实现对数据的归类分类. 2、ID3算法 工作过程: 首先找出最有判别力(信息增益,information gain)的属性,把数据分成多个子集,每个子集又选择最有判别力的属性进行划分,一直进行到所有子集仅包含同一类型的数据为止. 最后得到一棵决策树,可用它来对新的实例进行分类. 训练集 PE、NE 取子集建窗口 窗口 PE`、NE` 生成 决策树 测试 PE、NE 扩展窗口 PE`=PE`+PE``NE`=NE`+NE`` 此决策树为最后结果 存在错判的 PE``,NE``吗 是 否 ID3主算法流程 (一)主算法 1、 从训练集中随机选择一个既含正例又含反例的子集(称为窗口); 2、用“建树算法”对当前窗口形成一棵决策树; 3、对训练集(窗口除外)中例子用所得决策树进行类别判定,找出错判的例子; 4、若存在错判的例子,把它们插入窗口,转2,否则结束。 主算法中每迭代循环一次,生成的决策树将会不相同。 (二)建树算法 1、对当前例子集合,计算各

文档评论(0)

1亿VIP精品文档

相关文档