数据挖掘概论课件.pptVIP

下载本文档

0
0
约4.84千字
约 47页
2023-09-14 发布于湖北
举报
版权申诉

数据挖掘概论课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

花瓣宽度和花瓣长度为low蕴涵Setosa; 花瓣宽度和花瓣长度为medium蕴涵Versicolour; 花瓣宽度和花瓣长度为high蕴涵Virginica. 尽管这些规那么不能对所有的花进行分类，但是它们对大多数花都能很好地进行分类。注意：根据花瓣宽度和花瓣长度，Setosa种类的花完全可以与Versicolour和Virginica种类的花分开；但是后两类花在这些属性上有一些重叠。关联分析〔association analysis〕用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规那么或特征子集的形式表示。由于搜索空间是指数规模的，关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别一起访问的Web页面、市场营销、理解地球气候系统不用元素之间的联系等。例：购物篮分析以下给出的事务是一家超市的销售数据。事务ID 商品 1 2 3 4 5 6 7 8 9 10 ｛面包，黄油，尿布，啤酒｝｛咖啡，糖，小甜饼，鲑鱼｝｛面包，黄油，咖啡，尿布，啤酒，鸡蛋｝｛面包，黄油，鲑鱼，鸡｝｛鸡蛋，面包，黄油｝｛鲑鱼，尿布，啤酒｝｛面包，茶，糖，鸡蛋｝｛咖啡，糖，鸡，鸡蛋｝｛面包，尿布，啤酒，盐｝｛茶，鸡蛋，小甜饼，尿布，啤酒｝关联分析可以用来发现大量顾客频繁地同时购置的商品。例如，我们可能发现规那么{尿布}-{啤酒}。该规那么暗示购置尿布的顾客多半会购置啤酒。这种类型的规那么可以用来发现相关商品中可能的交叉销售的时机。聚类分析〔cluster analysis〕聚类分析旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。例：文档聚类以下给出的新闻文章可以根据它们各自的主题分组。文章词 1 2 3 4 5 6 7 8 Dollar:1, industry:4, country:2, loan:3, deal:2, government:2 Machinery:2, labor:3, market:4, industry:2, work:3, country:1 Job:5, inflation:3, rise:2, jobless:2, market:3, country:2, index:3 Domestic:3, forecast:2, gain:1, market:2, sale:3, price2 Patient:4, symptom:2, drug:3, health:2, clinic:2, doctor:2 Pharmaceutical:2, company:3, drug:2, vaccine:1, flu:3 Death:2, cancer:4, drug:3, public:4, health:3, director:2 Medical:2, cost:3, increase:2, patient:2, health:3, care:1 每篇文章表示为词-频率对(w,c)的集合，其中w是词，而c是该词在文章中出现的次数。在该数据集中，有两个自然簇。第一个簇由前四篇文章组成，对应于经济新闻，而第二个簇包含后面四篇文章，对应于卫生保健新闻。一个好的聚类算法应当能够根据文章中出现的词的相似性，识别这两个簇。异常检测〔anomaly detection〕异常检测的目标是发现与大局部其他对象不同的对象。通常，异常对象被称作离群点〔outlier〕，因为在数据的散布图中，它们远离其他数据点。异常检测也称偏差检测，因为异常对象的属性值显著地偏离期望的或常见的属性值。异常检测也称为例外挖掘，因为异常对象在某种意义上是例外的。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。数据挖掘概论参考书 1.数据挖掘导论, Pang-Ning Tan,Michael Steinbach等著, 人民邮电出版社.2021 2.数据挖掘:概念与技术(原书第2版), 韩加炜等著, 机械工业出版社.2007 3.数据挖掘原理与应用(第2版)--SQL Server 2021数据库, (美)Jamie MacLennan,ZhaoHui Tang等著,清华大学出版社.2021 1.1 数据挖掘开展简述 1.2 对何种数据进行数据挖掘 1.3 数据挖掘的功能 1.4 数据挖掘结果的评估 1.5 数据挖掘系统分类 1.6 数据挖掘的研究重点 1.1.1 数据挖掘的开展动力 ---需要是创