数据挖掘算法概述.pptxVIP

下载本文档

2
0
约1.38万字
约 42页
2021-10-27 发布于北京
举报
版权申诉

数据挖掘算法概述.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用大数据BIG DATA刘鹏　　主编　　　　张燕　张重生　张志立　副主编刘鹏教授，清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据技术与应用联盟副理事长。主持完成科研项目25项，发表论文80余篇，出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编的《云计算》被全国高校普遍采用，被引用量排名中国计算机图书第一名。创办了知名的中国云计算（chinacloud.cn）和中国大数据（thebigdata.cn）网站。曾率队夺得2002 PennySort国际计算机排序比赛冠军，两次夺得全国高校科技比赛最高奖，并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习成才标兵”（排名第一）、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。全国高校标准教材《云计算》姊妹篇，剖析大数据核心技术和实战应用第三章　数据挖掘算法3.4　关联规则3.2　分类3.3　聚类3.1　数据挖掘概述3.1　数据挖掘概述3.5　预测规模3.6　数据挖掘算法综合应用习题of653.4 关联规则第三章数据挖掘算法关联规则是数据挖掘中最活跃的研究方法之一，是指搜索业务系统中的所有细节或事务，找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则，以获得存在于数据库中的不为人知的或不能确定的信息，它侧重于确定数据中不同领域之间的联系，也是在无指导学习系统中挖掘本地模式的最普通形式。应用市场：市场货篮分析、交叉销售（Crossing Sale）、部分分类（Partial Classification）、金融服务（Financial Service），以及通信、互联网、电子商务 ······Moreof653.4 关联规则第三章数据挖掘算法3.4.1 关联规则的概念一般来说，关联规则挖掘是指从一个大型的数据集（Dataset）发现有趣的关联（Association）或相关关系（Correlation），即从数据集中识别出频繁出现的属性值集（Sets of Attribute Values），也称为频繁项集（Frequent Itemsets，频繁集），然后利用这些频繁项集创建描述关联关系的规则的过程。关联规则挖掘问题：发现频繁项集生成关联规则发现所有的频繁项集是形成关联规则的基础。通过用户给定的最小支持度，寻找所有支持度大于或等于Minsupport的频繁项集。通过用户给定的最小可信度，在每个最大频繁项集中，寻找可信度不小于Minconfidence的关联规则。如何迅速高效地发现所有频繁项集，是关联规则挖掘的核心问题，也是衡量关联规则挖掘算法效率的重要标准。of653.4 关联规则第三章数据挖掘算法3.4.2 频繁项集的产生及其经典算法格结构（Lattice Structure）常常被用来枚举所有可能的项集。图3-10 项集的格of653.4 关联规则第三章数据挖掘算法3.4.2 频繁项集的产生及其经典算法格结构（Lattice Structure）常常被用来枚举所有可能的项集。经典的查找策略查找频繁项目集按照挖掘的策略不同基于精简集的查找策略基于最大频繁项集的查找策略基于广度优先搜索策略的关联规则算法Apriori算法、DHP算法经典的挖掘完全频繁项集方法FP-Growth算法、ECLAT算法COFI算法基于深度优先搜索策略的算法与经典查找不同方法基于精简集的方法A-close算法MAFIA算法、GenMax算法DepthProject算法基于最大频繁项目集的方法of653.4 关联规则第三章数据挖掘算法3.4.2 频繁项集的产生及其经典算法1．Apriori算法Apriori算法基于频繁项集性质的先验知识，使用由下至上逐层搜索的迭代方法，即从频繁1项集开始，采用频繁k项集搜索频繁k+1项集，直到不能找到包含更多项的频繁项集为止。Apriori算法由以下步骤组成，其中的核心步骤是连接步和剪枝步：生成频繁1项集L1性能瓶颈连接步剪枝步Apriori算法是一个多趟搜索算法可能产生庞大的候选项集生成频繁k项集Lk重复步骤（2）～（4），直到不能产生新的频繁项集的集合为止，算法中止。of653.4 关联规则第三章数据挖掘算法3.4.2 频繁项集的产生及其经典算法2．FP-Growth算法频繁模式树增长算法（Frequent Pattern Tree Growth）采用分而治之的基本思想，将数据库中的频繁项集压缩到一棵频繁模式树中，同时保持项集之间的关联关系。然后将这棵压缩后的频繁模式树分成一些条件子树，每个条件子树对应一个频繁项，从而获得频繁项集，最后进行关联规则挖掘。FP-Growth算法由以下步骤组成：扫描事务数据

您可能关注的文档

文档评论（0）

魏魏 + 关注: 官方认证

文档贡献者

教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：5104001331000010

认证主体仪征市联百电子商务服务部

IP属地北京

领域认证该用户于2023年10月19日上传了教师资格证

统一社会信用代码/组织机构代码: 92321081MA26771U5C

1亿VIP精品文档

更多 >

数据挖掘算法概述.pptxVIP