- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
组件1:模型或模式结构*DataMining:ConceptsandTechniques*模型是对整个数据集的高层次、全局性的描述或总结。01例如,模型可以将数据集中的每一个对象分配到某个聚类中。02模型是对现实世界的抽象描述03例如,Y=aX+b就是一个简单的模型,其中X和Y是变量,a和c是模型的参数。04组件1:模型或模式结构*DataMining:ConceptsandTechniques*1模式是局部的,它仅对一小部分数据做出描述。2例如,购买商品A和B的人也可能经常购买C,就是一个模式。3模式有可能只支持几个对象或对象的几个属性。组件1:模型或模式结构*DataMining:ConceptsandTechniques*全局的模型和局部的模式是相互联系的,就好比一个硬币的两个面。例如,为了检测出数据集内的异常对象(局部模式),需要一种对数据集内正常对象的描述(全局模型)。组件1:模型或模式结构*DataMining:ConceptsandTechniques*模型和模式都有参数与之相关,如模型 Y=aX+b的参数是a和b。模式(如果Xc,则Yd的概率为p)的参数为c,d和p。通常把参数不确定的模型叫做模型的结构。把参数不确定的模式叫做模式的结构。(一般形式)一旦模型(模式)的参数被确定,便将这个特定的模型(模式)称为“已经拟合了的模型(模式)”,或者简称为模型(模式)组件2:数据挖掘任务*DataMining:ConceptsandTechniques*描述建模预测建模模式挖掘根据数据分析者的目标,可以将数据挖掘任务分为:组件2:数据挖掘任务*DataMining:ConceptsandTechniques*STEP5STEP4STEP3STEP2STEP1模式挖掘:致力于从数据中寻找模式,比如寻找频繁模式,异常点等。频繁模式指在某个数据集中频繁出现的模式,这些模式可以是一个项集、一个子序列或者一个子结构(子图)。例如,在交易数据集中,牛奶和面包经常在一起出现,称之为频繁的项集。又如,人们经常在购买了个人电脑之后,就会购买打印机,称之为频繁的子序列。在某些图、树或格结构中频繁出现的一些子图、子树或子格则被称为频繁的子结构。组件2:数据挖掘任务*DataMining:ConceptsandTechniques*预测建模:根据现有数据先建立一个模型,然后应用这个模型来对未来的数据进行预测。当被预测的变量是数量型(quantitative)时,称之为回归。因为分类的过程中,用到了训练集,进行了学习,所以分类是一个有监督的学习过程。当被预测的变量是范畴型(category)时,称之为分类;分类模型有时也称作分类函数或分类器。分类的典型应用如,信用卡系统中的信用分级、市场调查、疗效诊断、寻找店址等。回归的典型应用如性能评测、概率估计等。组件2:数据挖掘任务*DataMining:ConceptsandTechniques*描述建模:目标是描述数据的全局特征。1描述和预测的关键区别是:预测的目标是唯一的变量,如信用等级、疾病种类等,而描述并不以单一的变量为中心。2描述建模的典型例子是聚类分析。3组件3:评分函数*DataMining:ConceptsandTechniques*有了模型(模式)的结构之后,接下来的任务就是要根据数据集为模型(模式)选择合适的参数值,即将结构拟合到数据。01由于模型(模式)代表的是函数的一般形式,它的参数空间非常大,可选的参数值有很多。那么什么样的参数值比较好呢,需要一个评价指标,这个评价指标就是评分函数。02组件3:评分函数*DataMining:ConceptsandTechniques*评分函数用来对数据集与模型(模式)的拟合程度进行评估。01如果没有评分函数,就无法说出一个特定的已拟合的模型是否比另一个要好。或者说,就没有办法为模型(模式)选择出一套好的参数值来。02常用的评分函数有:似然(likelihood)函数、误差平方和、准确率等。03组件3:评分函数*DataMining:ConceptsandTechniques*在为模型(模式)选择一个评分函数时,既要能够很好地拟合现有数据,又要避免过度拟合(对极端值过于敏感),同时还要使拟合后的模型(模式)尽量简洁。不存在绝对“正确”的模型(模式),所有模型(模式)都是对现有数据的一种近似。从这个角度来讲,如果模型(模式)没有随着现有数据的变化而剧
文档评论(0)