数据挖掘基础重点.ppt

4.1 装袋 / 提升(续) 提升(Boosting)过程如下:每个训练样本赋予一个权,并学习得到一系列分类法。 对于迭代t ( t = 1, 2,..., T ),学习得到分类法Ct后,更新权,使得随后的分类法Ct+1“更关注”Ct的分类错误。 最终的提升分类法C*组合每个分类法的表决,这里每个分类法的表决是其准确率的函数。 通过取得票的平均值,提升算法也可以扩充到连续值预测。 3.1 关联规则挖掘(续) 连接步:为找Lk,通过Lk - 1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。 Ck是Lk的超集。扫描数据库,确定Ck中每个候选的计数,将令计数值不小于最小支持度计数的(频繁的)所有候选加入Lk。 剪枝步:但Ck可能很大,这样所涉及的计算量就很大。根据Apriori性质如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以由Ck中删除。 Apriori性质(逆反描述):任何非频繁的(k-1)-项集都不是可能是频繁k-项集的子集。 3.2 决策树 决策树学习是归纳推理算法。它是一种逼近离散函数的方法,且对噪声数据有很好的健壮性。在这种方法中学习到的知识被表示为决策树,决策树也能再被表示为多个if-then的规则,以提高可读性。 基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树 通常,决策树是一种自

文档评论(0)

1亿VIP精品文档

相关文档