数据挖掘基础重点.ppt

下载文档 降价啦

4
0
约1.18万字
约 87页
2016-08-01 发布于湖北
举报
保障服务

数据挖掘基础重点.ppt

4.1 装袋 / 提升（续）提升（Boosting）过程如下：每个训练样本赋予一个权，并学习得到一系列分类法。对于迭代t ( t = 1, 2,..., T )，学习得到分类法Ct后，更新权，使得随后的分类法Ct+1“更关注”Ct的分类错误。最终的提升分类法C*组合每个分类法的表决，这里每个分类法的表决是其准确率的函数。通过取得票的平均值，提升算法也可以扩充到连续值预测。 3.1 关联规则挖掘（续）连接步：为找Lk，通过Lk - 1与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。 Ck是Lk的超集。扫描数据库，确定Ck中每个候选的计数，将令计数值不小于最小支持度计数的（频繁的）所有候选加入Lk。剪枝步：但Ck可能很大，这样所涉及的计算量就很大。根据Apriori性质如果一个候选k-项集的(k-1)-子集不在Lk-1中，则该候选也不可能是频繁的，从而可以由Ck中删除。 Apriori性质(逆反描述)：任何非频繁的(k-1)-项集都不是可能是频繁k-项集的子集。 3.2 决策树决策树学习是归纳推理算法。它是一种逼近离散函数的方法，且对噪声数据有很好的健壮性。在这种方法中学习到的知识被表示为决策树，决策树也能再被表示为多个if-then的规则，以提高可读性。基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树通常，决策树是一种自

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘基础重点.ppt