数据库系统原理数据挖掘与数据仓库.pptVIP

数据库系统原理数据挖掘与数据仓库.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

4.数据挖掘结果的评估数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,或是与实际情况相违背的,这就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。5.分析决策数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果五、数据挖掘的主要任务1.数据总结2.分类3.关联分析4.聚类1.数据总结数据总结目的是对数据进行浓缩,给出它的总体综合描述。传统的也是最简单的数据总结方法利用统计学中的方法计算出数据库的各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等。利用OLAP技术实现数据的多维查询也是一种广泛使用的数据总结的方法。2.分类分类的主要功能是学会一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。分类应用的实例很多。例如,我们可以将银行网点分为好、一般和较差三种类型,并以此分析这三种类型银行网点的各种属性,特别是位置、盈利情况等属性,并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。分类分析(Classifiers)含义有一个记录集合和一组标记,标记用以标识记录的类别先为每个记录赋予一个标记(按标记对记录分类)对同类记录的特征进行描述显式描述:例如,一组规则定义隐式描述:例如,一个数学模型或公式分类具有极其广泛的应用分类常用于预测医疗诊断、性能预测、选择购物、信誉证实等分类分析的两个步骤构建模型:对预先确定的类别给出相应的描述先假设一个元组(或样本)集合中的每一个元组(或样本)属于预先定义的某一个类别,由一个类标号属性(classlabelattribute)来确定这些元组(或样本)的集合称为训练集,用于构建模型;由于提供了每个训练样本的类标号,称作有指导的学习最终的模型用决策树、分类规则或者数学公式等来表示模型应用:对未知的数据对象进行分类分类分析第一步:构建模型训练数据分类算法IFrank=‘professor’ORyears6THENtenured=‘yes’分类器(分类模型)分类分析第二步:模型应用分类器测试数据未知数据(Jeff,Professor,4)Tenured?分类分析举例对信用卡持卡人的信誉进行分类分析记录集合:持卡人的记录集一组标记:良好、普通、较差;(信誉程度)先为每个持卡人赋予一个标记,即信誉等级对同类记录(即同信誉等级的持卡人)的特征进行描述。例如,信誉良好的持卡人的特征为:收入在25000以上年龄在45-55之间居住在XYZ地区对同类记录特征的描述(规则或模型)可用来分类新记录分类分析举例顾客购物分类顾客属性:姓名、年龄、收入、职业、信誉度为每个顾客赋予一个标记,即是否购买计算机按该标记将顾客分类,建立分类模型新来一个顾客,按分类模型识别该顾客是否属于购买计算机类若顾客属于购买计算机的类别,则将有关新的计算机的促销材料分发给他利用决策树进行数据分类决策树一个类似与流程图的树结构内部接点表示一个与属性值相关的判断边表示判断的结果每个叶节点是一个类别的标识决策树分类举例:训练数据集决策树分类举例:计算属性的熵类标号属性buys_computer,有两个不同值{yes,no},有两个类,类yes有9个样本,类no有5个样本决策树分类举例:分枝age?overcast=304030..40决策树分类举例:最终结果age?overcaststudent?creditrating?noyesfairexcellent=3040nonoyesyesyes30..40由决策树产生规则 IFage=“=30”ANDstudent=“no” THENbuys_computer=“no” IFage=“=30”ANDstudent=“yes” THENbuys_computer=“yes” IFage=“31…40” THENbuys_computer=“yes” IFage=“40”ANDcredit_rating=“excellent” THENbuys_computer=“no” IFag

文档评论(0)

技术支持工程师 + 关注
实名认证
文档贡献者

仪器公司技术支持工程师

1亿VIP精品文档

相关文档