- 1、本文档共57页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘5春季.ppt
超市经理想知道商品之间的关联,要求列出那些同时购买的、且支持度≥40%(即在5行中至少出现两次)的商品名称。 KDD系统通过特定算法(Apriori 算法)多次扫描数据库,依次得出如表2和表3。其中支持度2/5的项,如单项的{面包},{雨伞}和 双项中的 {尿布,牛奶}等等已经略去,三项统计为空,其中只有 {啤酒,尿布,牛奶}出现了一次(表1中3号记录),支持度小于40%,略去。 单项统计 支持度 {啤酒} 4/5 {尿布} 4/5 {婴儿爽身粉} 2/5 {牛奶} 2/5 表2 从单项统计中看出: 80%的顾客买了啤酒、 80%的顾客买了尿布。 从双项统计中看出: 60%的顾客同时买了啤酒和尿布; 40%的顾客买了啤酒和牛奶; 40%的顾客买了尿布和爽身粉。 还可观察到: 买了啤酒顾客中又买了尿布的占 0.6{啤酒,尿布}/0.8{啤酒}=75% (称为置信度)。 双项统计 支持度 {啤酒,尿布} 3/5 {啤酒,牛奶} 2/5 {尿布,婴儿爽身粉} 2/5 表3 于是可得出下列六条规则。其中:s为支持度,c为置信度。 R1:啤酒→尿布, S=60%,C=0.6/0.8=75%R2:尿布→啤酒, S=60%,C=0.6/0.8=75%R3:牛奶→啤酒, S=40%,C=0.4/0.4=100%R4:啤酒→牛奶, S=40%,C=0.4/0.8=50%R5:尿布→爽身粉。S=40%,C=0.4/0.8=50%R6:婴儿爽身粉→尿布。S=40%,C=0.4/0.4=100% KDD规则反映了物品之间的表面联系,不一定是现实世界的因果关系。例如,R6“婴儿爽身粉→尿布”有很高的置信度,是合理可理解的,R3有很高的置信度将提示进一步的调查分析,本例中是因为训练数据太少引起的失真。 数据库 D 扫描 D C1 L1 L2 C2 C2 扫描 D C3 L3 扫描 D Apriori算法 — 示例 Apriori作为经典的频繁项目集生成算法,在数据挖掘中具有里程碑的作用。 Apriori算法有两个致命的性能瓶颈: 1.多次扫描事务数据库,需要很大的I/O负载 对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库一次来验证其是否加入Lk。假如有一个频繁大项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。 2.可能产生庞大的侯选集 由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的侯选集对时间和主存空间都是一种挑战。 一些算法虽然仍然遵循Apriori 属性,但是由于引入了相关技术,在一定程度上改善了Apriori算法适应性和效率。 主要的改进方法有: 基于数据分割(Partition)的方法:基本原理是“生成局部频繁项目集作为候选的全局频繁项目集,通过测试它们的支持度来确定是否为全局频繁项目集”。 基于散列(Hash)的方法:基本原理是“在每一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的”。 有监督学习和无监督学习 有监督学习 (分类) 训练集是带有类标签的 新的数据是基于训练集进行分类的 无监督学习 (聚集) 训练集是没有类标签的 提供一组属性,然后寻找出训练集中存在类别或者聚集 分类模型的构造方法 机器学习方法: 决策树法知识表示是决策树 规则归纳知识表示是产生式规则 统计方法:知识表示是判别函数和原型事例 贝叶斯法 非参数法(近邻学习或基于事例的学习) 神经网络方法: BP算法,模型表示是前向反馈神经网络模型 粗糙集(rough set)方法 分类过程:模型创建 训练集 分类算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 模型 分类过程 : 使用模型 模型 测试集 未知数据 (Jeff, Professor, 4) Tenured? 一 个训 练 集 一棵关于“买计算机”的决策树实例 age? overcast student? credit rating? no yes fair excellent =30 40 yes 31..40 no no yes yes 根 内部 节点 叶子 分枝 什么是一个好的聚类方法? 一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式。 K-平均算法 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6
您可能关注的文档
- 数字信号与处理(DSP)课程设计指导书.doc
- 数字分析模型ppt.ppt
- 数字化变电站V.ppt
- 数字化学习资源的开发设计.ppt
- 数字化教学资源的获取和利用.ppt
- 数字化监狱.ppt
- 数字图像降噪技术的研究.ppt
- 数字地球数字化医院信息管理系统.ppt
- 数字多用表的计量检定讲稿.ppt
- 数字广播(AEX).ppt
- 2024年度安永全球另类投资基金调查报告.docx
- 2024年中国汽车产业出海回顾分析 -中汽信科国际化研究团队.docx
- 【民航局国际合作服务中心】马尔代夫民航业发展研究报告.docx
- 2025走向融合与深化的中国媒介市场报告-星传媒体.docx
- 2023Givaudan和ESG目的与性能.docx
- 中国民间应对气候变化行动故事集-教育故事.docx
- 2025AI制药市场规模产业链构成应用现状及AI制药公司分析报告.docx
- 医疗器械专题之基因测序:分子诊断掌上明珠,四代测序开启规模化应用时代.docx
- 2024年中央银行黄金储备调查报告 202406.docx
- 智慧芽 -2024第4季度全球潜力靶点及FIC产品调研报告.docx
文档评论(0)