数据挖掘导论教材配套教学PPT——认识数据挖掘.pptVIP

数据挖掘导论教材配套教学PPT——认识数据挖掘.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1.5.4模型应用数据挖掘的终极目标。可以应用分类模型解决如例1.1中的疾病诊断问题;可以应用聚类模型解决对顾客的分类,找出不同类中顾客的行为特征,从而为诸如促销活动等提供决策支持;可以通过应用关联分析模型,找出顾客购买的商品之间的关联关系,对于货架摆放、商品促销等提供决策支持。*第*页,共65页1.6数据挖掘的作用数据挖掘的作用两大类建立有指导的学习模型和无指导聚类模型。因变量(DependentVariables)有指导的学习模型中的输出属性的值依赖于输入属性的取值,所以输出属性又被称为因变量自变量(IndependentVariables)相对的,输入属性被称为自变量*第*页,共65页数据挖掘的作用*第*页,共65页图1.4数据挖掘的作用1.7数据挖掘技术数据挖掘技术(DataMiningTechnique)对一组数据应用一种数据挖掘方法。一般由一个数据挖掘算法和一个相关的知识结构,如树结构或规则来定义的。*第*页,共65页1.7.1神经网络(NeuralNetwork)一种具有统计特性的数学模型。创建思想源于人类神经网络的结构、功能和运行过程。试图模拟人脑功能来完成学习。已经成功地应用于多个领域的问题中,是非常流行的数据挖掘技术。可以建立有指导学习模型和无指导聚类模型。输入属性必须是数值的,输出属性可以是数值的也可以是分类的。*第*页,共65页前馈(Feed-Forward)神经网常用的有指导的学习模型。全连接每一层的每个节点都与其下一层的所有节点相连接,而同层节点之间不相连。每个网络连接上都具有权重值,如w1j、w2j、w3j。*第*页,共65页图1.5三层全连接前馈神经网建立神经网络模型的两个阶段第一个阶段——学习训练阶段将每个实例的输入属性值提交给输入层节点。神经网络使用输入值和网络连接权重值来计算每个实例的输出。将每个实例的输出和希望的网络输出进行比较,希望值和计算输出值之间的误差通过修改连接权值传回网络。当达到一定的迭代次数后或当网络收敛到一个预定的最低错误率时,训练终止。第二个阶段——检验阶段固定网络权重,将模型用于计算新实例的输出值。*第*页,共65页1.7.2回归分析(RegressionAnalysis)一种统计分析方法。可以用来确定两个或两个以上变量之间的定量的依赖关系,并建立一个数学方程作为数学模型,来概化一组数值数据,进而进行数值数据的估值和预测。应用非常广泛。*第*页,共65页办公楼数据集序号Space(x1)Offices(x2)Entrances(x3)Age(x4)Value1231022201420002233322121440003235631.5331510004237932431500005240223531390006242542231690007244821.59912600082471223414290092494332316300010251744551690001125402322149000*第*页,共65页表1.3办公楼数据集回归模型*第*页,共65页y=27.64×2500+12529.77×3+2553.21×2?234.24×25+52317.83=158257.56使用回归方程预估办公楼的价值。设有一座未知价值的办公楼,面积为2500、3个办公室、2个入口,已使用25年,则其估计价值计算所得,为158257.56。1.7.3关联分析一种关联规则(AssociationRule)挖掘技术,用于发现数据中属性之间的有价值的联系。关联规则可以有多个输出属性,一个规则的输出属性可以在另一规则中作为输入属性。关联分析用来发现潜在的令人感兴趣的商品购买组合,是购物篮分析的常用技术。关联分析有多种算法,其中最著名的为Agrawal等人于1993年提出的Apriori关联分析算法。Apriori算法不支持数值型数据,在使用该算法之前,需要进行必要的数据变换。*第*页,共65页【例1.3】应用Apriori算法,对表1.1中的数据集进行关联分析,找出感冒症状之间的关联关系。关联规则生成三条关联规则(1)IFLeukocytosis=YesTHENFever=Yes(ruleaccuracy=5/5=100%,rulecoverage=5/8=62.5%)(2)IFIn

文档评论(0)

137****2923 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档