第八章数据挖掘.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章数据挖掘

免疫进化理论 焦李成 第八章 数据挖掘 8.1 数据挖掘概论 数据挖掘的起源 数据挖掘的定义 数据挖掘的应用 数据挖掘的过程 数据挖掘的对象 数据挖掘的任务 数据挖掘的常用技术 数据挖掘的发展趋势 数据挖掘的起源 数据采集和和存储技术的进步导致庞大的数据库日益增多,几乎包括各个领域,如(超市业务数据,信用卡使用记录,电话清单,政府统计数据(如人口普查),以及科学研究领域,如天体图像,分子数据库,医疗记录等),那么能否从这些数据中提取有价值的信息呢? 数据挖掘的意义 什么是数据挖掘 定义: 数据挖掘是从大量的数据中提取隐含在其中的,人们事先不知道的,但又是潜在的有用信息和知识的过程 。 数据挖掘是一门跨学科的技术,统计学,数据库技术,机器学习,模式识别,人工智能,可视化技术,在数据挖掘中起着作用. 数据挖掘和数据仓库 1).科学研究 由于先进的科学仪器和观测仪器的使用,在科学和工程中产生了大量的数据,这为数据挖掘在科学研究中的应用创造了条件. ① 在天文学上的应用 ② 在生物学上的应用 ③ 在化学工程上的应用 2) 商业应用 商业应用是数据挖掘最主要的应用领域.包括一下几方面: ① 市场营销 市场营销主要是通过数据分割和模型预测的方法来选择潜在的顾客,以便向他们推销产品,而不是盲目的选择顾客来推销,从而增加产品推销的成功率. ② 数据挖掘在金融保险业上的应用 典型的金融分析领域有投资评估,股票交易市场预测,信贷审核等,风险评估,收益分析,欺诈鉴别等. ③ 零售业上的应用 主要是通过分析商品销售的历史记录,以识别顾客的购物模式和倾向,提高服务质量,和商品销售量,设计更有效的商品布置方式,以及在总体上减少成本提高利润. ④ 数据挖掘在电信业上的应用 随着电信业市场的逐步开放,市场竞争将会日趋激烈,这就使理解顾客的消费模式,保留顾客,建模销售新产品的有效途径成为必须,这样就为数据挖掘创造了极大的需求.如数据挖掘可以回答电信业提出的下列问题: 如何保留顾客,并保持他的忠实度? 那种顾客可能发生波动? 什么时候可以接受高风险投资,如新建一条光缆线路? 怎样预测会买附加的业务? ⑤ 医疗保健业上的应用 在卫生保健业上数据挖掘业得到了广泛的应用,以电子格式储存病人的记录,以及医学信息系统的发展产生了大量可以在线利用的临床数据,用数据挖掘的方法从这些数据中提取出来的规律和信息可以辅助医生做出决策. 3) Web挖掘和信息检索 数据挖掘在网络上的应用有以下三种:在搜索引擎上对文档进行自动分类,帮助用户寻找感兴趣的新闻或网页,检索和定位文档. 如google系统使用了被称为’pagerank’的数学方法来基于链接模式估计各个网页的相对重要性. IBM的研究人员开发了一个称为QBIC(Query by Image Content)的系统,这个系统允许用户使用交互的方式搜索庞大的图像数据库,支持以象颜色,纹理和相对位置信息这样的内容描述提出查询. (1) 数据准备 ① 数据选取 目的是确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据中抽取的一组数据. ② 数据预处理 数据预处理主要包括消除噪声,去除异常点.推导计算缺失值,消除重复记录,完成数据类型转换等. ③数据变换 主要目的是消减数据维数,即从初始特征中找出真正有用的特征,以减少数据挖掘时的系统开销。 (2) 数据挖掘阶段 首先要明确挖掘的任务和目的,如数据总结,分类,聚类,关联规则发现,或序列模式发现等,确定任务后就要决定采用什么样的算法. 选择实现算法要考虑以下因素: ①不同的数据有不同的特点,需要用与之相关的算法来进行挖掘. ②不同的用户获取知识的目的不同,有的用户希望获取描述型的,容易理解的知识,而有的用户希望获得预测准确度尽量高的预测知识. (3) 结果解释和评估 数据挖掘阶段挖掘出来的模式,经过用户或机器的评价,可能不满足用户要求,这时需要整个知识发现过程退回到挖掘阶段之前,如重新选取数据,采用新的数据变换方法,设定新的数据挖掘参数值,甚至更换一种算法(如分类有多种方法,每种方法效果都不一样.) 另外,如果KDD是面向用户的,可能要对发现的模式进行可视

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档