数据挖掘5春季.ppt

下载文档 降价啦

3
0
约8.07千字
约 57页
2015-12-11 发布于湖北
举报
版权申诉
保障服务

数据挖掘5春季.ppt

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘5春季.ppt

超市经理想知道商品之间的关联，要求列出那些同时购买的、且支持度≥40%（即在5行中至少出现两次）的商品名称。 KDD系统通过特定算法（Apriori 算法）多次扫描数据库，依次得出如表2和表3。其中支持度2/5的项,如单项的{面包}，{雨伞}和双项中的 {尿布，牛奶}等等已经略去，三项统计为空，其中只有 {啤酒，尿布,牛奶}出现了一次(表1中3号记录)，支持度小于40%,略去。单项统计支持度 {啤酒} 4/5 {尿布} 4/5 {婴儿爽身粉} 2/5 {牛奶} 2/5 表2 从单项统计中看出: 80%的顾客买了啤酒、 80%的顾客买了尿布。从双项统计中看出： 60%的顾客同时买了啤酒和尿布； 40%的顾客买了啤酒和牛奶； 40%的顾客买了尿布和爽身粉。还可观察到：买了啤酒顾客中又买了尿布的占 0.6{啤酒，尿布}/0.8{啤酒}=75% (称为置信度)。双项统计支持度 {啤酒，尿布} 3/5 {啤酒，牛奶} 2/5 {尿布，婴儿爽身粉} 2/5 表3 于是可得出下列六条规则。其中：s为支持度，c为置信度。 R1：啤酒→尿布, S=60%，C=0.6/0.8=75%R2：尿布→啤酒, S=60%，C=0.6/0.8=75%R3：牛奶→啤酒, S=40%，C=0.4/0.4=100%R4：啤酒→牛奶, S=40%，C=0.4/0.8=50%R5：尿布→爽身粉。S=40%，C=0.4/0.8=50%R6：婴儿爽身粉→尿布。S=40%，C=0.4/0.4=100%　　　　KDD规则反映了物品之间的表面联系，不一定是现实世界的因果关系。例如，R6“婴儿爽身粉→尿布”有很高的置信度，是合理可理解的，R3有很高的置信度将提示进一步的调查分析，本例中是因为训练数据太少引起的失真。数据库 D 扫描 D C1 L1 L2 C2 C2 扫描 D C3 L3 扫描 D Apriori算法 — 示例 Apriori作为经典的频繁项目集生成算法，在数据挖掘中具有里程碑的作用。 Apriori算法有两个致命的性能瓶颈: 1．多次扫描事务数据库，需要很大的I/O负载对每次k循环，侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话，那么就至少需要扫描事务数据库10遍。 2．可能产生庞大的侯选集由Lk-1产生k-侯选集Ck是指数增长的，例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种挑战。一些算法虽然仍然遵循Apriori 属性，但是由于引入了相关技术，在一定程度上改善了Apriori算法适应性和效率。主要的改进方法有：基于数据分割（Partition）的方法：基本原理是“生成局部频繁项目集作为候选的全局频繁项目集，通过测试它们的支持度来确定是否为全局频繁项目集”。基于散列（Hash）的方法：基本原理是“在每一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。有监督学习和无监督学习有监督学习 (分类) 训练集是带有类标签的新的数据是基于训练集进行分类的无监督学习 (聚集) 训练集是没有类标签的提供一组属性，然后寻找出训练集中存在类别或者聚集分类模型的构造方法机器学习方法：决策树法知识表示是决策树规则归纳知识表示是产生式规则统计方法：知识表示是判别函数和原型事例贝叶斯法非参数法(近邻学习或基于事例的学习) 神经网络方法： BP算法，模型表示是前向反馈神经网络模型粗糙集(rough set)方法分类过程：模型创建训练集分类算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 模型分类过程 : 使用模型模型测试集未知数据 (Jeff, Professor, 4) Tenured? 一个训练集一棵关于“买计算机”的决策树实例 age? overcast student? credit rating? no yes fair excellent =30 40 yes 31..40 no no yes yes 根内部节点叶子分枝什么是一个好的聚类方法? 一个好的聚类方法要能产生高质量的聚类结果——簇，这些簇要具备以下两个特点：高的簇内相似性低的簇间相似性聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现；聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式。 K-平均算法 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6