数据挖掘课件-第一课.pptVIP

下载本文档

4
0
约1.02万字
约 10页
2025-02-19 发布于四川
举报
版权申诉

数据挖掘课件-第一课.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

组件1：模型或模式结构*DataMining:ConceptsandTechniques*模型是对整个数据集的高层次、全局性的描述或总结。01例如，模型可以将数据集中的每一个对象分配到某个聚类中。02模型是对现实世界的抽象描述03例如，Y=aX+b就是一个简单的模型，其中X和Y是变量，a和c是模型的参数。04组件1：模型或模式结构*DataMining:ConceptsandTechniques*1模式是局部的，它仅对一小部分数据做出描述。2例如，购买商品A和B的人也可能经常购买C，就是一个模式。3模式有可能只支持几个对象或对象的几个属性。组件1：模型或模式结构*DataMining:ConceptsandTechniques*全局的模型和局部的模式是相互联系的，就好比一个硬币的两个面。例如，为了检测出数据集内的异常对象（局部模式），需要一种对数据集内正常对象的描述（全局模型）。组件1：模型或模式结构*DataMining:ConceptsandTechniques*模型和模式都有参数与之相关，如模型 Y=aX+b的参数是a和b。模式（如果Xc，则Yd的概率为p）的参数为c，d和p。通常把参数不确定的模型叫做模型的结构。把参数不确定的模式叫做模式的结构。（一般形式）一旦模型（模式）的参数被确定，便将这个特定的模型（模式）称为“已经拟合了的模型（模式）”，或者简称为模型（模式）组件2：数据挖掘任务*DataMining:ConceptsandTechniques*描述建模预测建模模式挖掘根据数据分析者的目标，可以将数据挖掘任务分为：组件2：数据挖掘任务*DataMining:ConceptsandTechniques*STEP5STEP4STEP3STEP2STEP1模式挖掘：致力于从数据中寻找模式，比如寻找频繁模式，异常点等。频繁模式指在某个数据集中频繁出现的模式，这些模式可以是一个项集、一个子序列或者一个子结构(子图)。例如，在交易数据集中，牛奶和面包经常在一起出现，称之为频繁的项集。又如，人们经常在购买了个人电脑之后，就会购买打印机，称之为频繁的子序列。在某些图、树或格结构中频繁出现的一些子图、子树或子格则被称为频繁的子结构。组件2：数据挖掘任务*DataMining:ConceptsandTechniques*预测建模：根据现有数据先建立一个模型，然后应用这个模型来对未来的数据进行预测。当被预测的变量是数量型(quantitative)时，称之为回归。因为分类的过程中，用到了训练集，进行了学习，所以分类是一个有监督的学习过程。当被预测的变量是范畴型(category)时，称之为分类；分类模型有时也称作分类函数或分类器。分类的典型应用如，信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等。回归的典型应用如性能评测、概率估计等。组件2：数据挖掘任务*DataMining:ConceptsandTechniques*描述建模：目标是描述数据的全局特征。1描述和预测的关键区别是：预测的目标是唯一的变量，如信用等级、疾病种类等，而描述并不以单一的变量为中心。2描述建模的典型例子是聚类分析。3组件3：评分函数*DataMining:ConceptsandTechniques*有了模型（模式）的结构之后，接下来的任务就是要根据数据集为模型（模式）选择合适的参数值，即将结构拟合到数据。01由于模型（模式）代表的是函数的一般形式，它的参数空间非常大，可选的参数值有很多。那么什么样的参数值比较好呢，需要一个评价指标，这个评价指标就是评分函数。02组件3：评分函数*DataMining:ConceptsandTechniques*评分函数用来对数据集与模型（模式）的拟合程度进行评估。01如果没有评分函数，就无法说出一个特定的已拟合的模型是否比另一个要好。或者说，就没有办法为模型（模式）选择出一套好的参数值来。02常用的评分函数有：似然（likelihood）函数、误差平方和、准确率等。03组件3：评分函数*DataMining:ConceptsandTechniques*在为模型（模式）选择一个评分函数时，既要能够很好地拟合现有数据，又要避免过度拟合（对极端值过于敏感），同时还要使拟合后的模型（模式）尽量简洁。不存在绝对“正确”的模型（模式），所有模型（模式）都是对现有数据的一种近似。从这个角度来讲，如果模型（模式）没有随着现有数据的变化而剧