数据挖掘概论课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
花瓣宽度和花瓣长度为low蕴涵Setosa; 花瓣宽度和花瓣长度为medium蕴涵Versicolour; 花瓣宽度和花瓣长度为high蕴涵Virginica. 尽管这些规那么不能对所有的花进行分类,但是它们对大多数花都能很好地进行分类。 注意:根据花瓣宽度和花瓣长度,Setosa种类的花完全可以与Versicolour和Virginica种类的花分开;但是后两类花在这些属性上有一些重叠。 关联分析〔association analysis〕 用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规那么或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。关联分析的应用包括找出具有相关功能的基因组、识别一起访问的Web页面、市场营销、理解地球气候系统不用元素之间的联系等。 例:购物篮分析 以下给出的事务是一家超市的销售数据。 事务ID 商 品 1 2 3 4 5 6 7 8 9 10 {面包,黄油,尿布,啤酒} {咖啡,糖,小甜饼,鲑鱼} {面包,黄油,咖啡,尿布,啤酒,鸡蛋} {面包,黄油,鲑鱼,鸡} {鸡蛋,面包,黄油} {鲑鱼,尿布,啤酒} {面包,茶,糖,鸡蛋} {咖啡,糖,鸡,鸡蛋} {面包,尿布,啤酒,盐} {茶,鸡蛋,小甜饼,尿布,啤酒} 关联分析可以用来发现大量顾客频繁地同时购置的商品。例如,我们可能发现规那么{尿布}-{啤酒}。该规那么暗示购置尿布的顾客多半会购置啤酒。这种类型的规那么可以用来发现相关商品中可能的交叉销售的时机。 聚类分析〔cluster analysis〕 聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。聚类可用来对相关顾客分组、找出显著影响地球气候的海洋区域以及压缩数据等。 例:文档聚类 以下给出的新闻文章可以根据它们各自的主题分组。 文章 词 1 2 3 4 5 6 7 8 Dollar:1, industry:4, country:2, loan:3, deal:2, government:2 Machinery:2, labor:3, market:4, industry:2, work:3, country:1 Job:5, inflation:3, rise:2, jobless:2, market:3, country:2, index:3 Domestic:3, forecast:2, gain:1, market:2, sale:3, price2 Patient:4, symptom:2, drug:3, health:2, clinic:2, doctor:2 Pharmaceutical:2, company:3, drug:2, vaccine:1, flu:3 Death:2, cancer:4, drug:3, public:4, health:3, director:2 Medical:2, cost:3, increase:2, patient:2, health:3, care:1 每篇文章表示为词-频率对(w,c)的集合,其中w是词,而c是该词在文章中出现的次数。在该数据集中,有两个自然簇。 第一个簇由前四篇文章组成,对应于经济新闻,而第二个簇包含后面四篇文章,对应于卫生保健新闻。一个好的聚类算法应当能够根据文章中出现的词的相似性,识别这两个簇。 异常检测〔anomaly detection〕 异常检测的目标是发现与大局部其他对象不同的对象。通常,异常对象被称作离群点〔outlier〕,因为在数据的散布图中,它们远离其他数据点。 异常检测也称偏差检测,因为异常对象的属性值显著地偏离期望的或常见的属性值。异常检测也称为例外挖掘,因为异常对象在某种意义上是例外的。 异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。 数据挖掘概论 参考书 1.数据挖掘导论, Pang-Ning Tan,Michael Steinbach等著, 人民邮电出版社.2021 2.数据挖掘:概念与技术(原书第2版), 韩加炜等著, 机械工业出版社.2007 3.数据挖掘原理与应用(第2版)--SQL Server 2021数据库, (美)Jamie MacLennan,ZhaoHui Tang等著,清华大学出版社.2021 1.1 数据挖掘开展简述 1.2 对何种数据进行数据挖掘 1.3 数据挖掘的功能 1.4 数据挖掘结果的评估 1.5 数据挖掘系统分类 1.6 数据挖掘的研究重点 1.1.1 数据挖掘的开展动力 ---需要是创

文档评论(0)

ranfand + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档