数据挖掘原理算法与应用教学作者梁亚声第1章节电子教案课件幻灯片.ppt

数据挖掘原理算法与应用教学作者梁亚声第1章节电子教案课件幻灯片.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.5 数据挖掘的过程 1.5.2 跨行业数据挖掘标准过程 (5)评价和解释(evaluation and explanation) 这个阶段,已经从数据分析的角度建立了看似高质量的模型,模型评估的目的就是从建立的模型中自动找出一个最好的模型出来。 实际应用中,随着应用数据的不同,模型的准确率会变化。在最后部署模型之前,要评估模型,检查构造模型的步骤,确保模型可以完成目标任务。对于挖掘结果加以评价和解释。 模型效果评价的办法之一就是直接使用原来建立模型的样本数据来进行检验。 另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的。这次的检验效果可能会比前一种差。差多少是要注意的,若是差到所不能容忍程度,那就要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身是否够完善。这时候可能要对前面的工作进行反思了。若这一步也得到了肯定的结果时,那所建立的数据挖掘模型应得到很好的评价了。 1.5 数据挖掘的过程 1.5.2 跨行业数据挖掘标准过程 (6)实施(deployment) 一般而言,完成模型创建并不意味着任务的结束。 模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。 模型建立并经验证后,有两种主要的使用方法: 第一种是提供给分析人员做参考,由分析人员通过查看和分析这个模型后提出行动方案建议; 另一种是把此模型应用到不同的数据集上。 此外,在应用了模型后,还要不断监控它的效果。 1.6 数据挖掘与其他学科的关系 1.6.1 数据挖掘与数据库知识发现 数据挖掘(Data Mining)与数据库知识发现(Knowledge Discovery in Database,KDD)在定义与使用上比较混乱。 有人认为,是同一含义的不同名词术语,只是学术界更多的用KDD,商业界更偏爱用数据挖掘。 也有人认为,这两个概念有所区别: 一是数据源有差异。数据挖掘系统可以在关系数据库、事务数据库、数据仓库、文本数据、Web等数据组织形式中挖掘知识,数据源比KDD更加广泛。 二是任务内容有差异。KDD是从数据库发现知识的全部过程,包括:数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生成、及评估等一系列步骤。数据挖掘是在数据集上完成知识的提炼,是KDD中一个重要的步骤。 1.6 数据挖掘与其他学科的关系 1.6.2 数据挖掘与数据查询 通过对获取的知识来看数据挖掘和数据查询的区别。 浅知识本质是真实的。可以很容易地在数据库中存储和操作浅知识,数据库查询是提取数据中浅知识的优秀工具。 多维知识也是真实的。然而这种数据以多维格式存储,联机分析处理(OLAP)工具用于处理多维数据。 隐含知识表示数据中的模式或规则,这些模式或规则不容易用数据库查询语言查询出来。然而,数据挖掘算法却可以轻易地找到它们。 深知识是存储在数据库中,仅仅在给出要查找内容的方向时,才能找到的知识。目前数据挖掘工具还不能定位深知识。 1.6 数据挖掘与其他学科的关系 1.6.2 数据挖掘与数据查询 当确切地知道要找什么时,数据库查询语言和OLAP工具是发现并报告数据库中信息的优秀的工具。数据库查询很容易提取下列信息: 所有使用信用卡购买煤气烤炉的客户列表。 年龄超过40岁,并且平均每年生病5天或少于5天的职员列表。 至少发作过一次心脏病,并且血液胆固醇浓度低于200的病人列表。 一月份使用信用卡消费超过300元的信用卡持有者列表。 通过数据挖掘,可得出人们未曾想到过的问题,以及答案。下面的例子说明数据挖掘的作用: 开发利用信用卡账单促销的信用卡客户的一般特征文件。 将不良信用风险的个人与很可能按时还贷的个人区别开来。 对天空图像数据中发现的模糊对象进行分类。 判断个背部动过手术的病人什么时候可能重新工作。 1.6 数据挖掘与其他学科的关系 1.6.3 数据挖掘与统计分析 从理论来源来看,在很多情况下都是同根同源的。相对于传统的统计分析技术,数据挖掘有如下一些特点: 数据挖掘特别擅长于处理大数据,尤其是几十万行、几百万行,甚至更多更大的数据。 在进行数据挖掘时都会借助数据挖掘工具,而这些挖掘工具的使用,很多时候并不需要特别专业的统计背景作为必要条件。不过,基本的统计知识和技能是必需的。 数据挖掘不是为了替代传统的统计分析技术。相反,是统计分析方法学的延伸和扩展。数据挖掘利用了统计学的抽样、估计和假设检验,其与传统的数据分析(如查询、报表、联机应用分析)。 1.6 数据挖掘与其他学科的关系 1.6.3 数据挖掘与统计分析 数据挖掘 统计分析 数据挖掘不需要假设 统计分析通常是从假设出发 数据挖掘可以自动建立方程

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档