第六讲 数据挖掘概述.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 数据挖掘概述 本章内容 数据挖掘的由来 数据挖掘的定义 数据挖掘的基本概念 数据挖掘的主要功能 数据挖掘模型和实现流程 数据挖掘应用 数据挖掘的由来 网络之后的下一个技术热点 数据爆炸但知识贫乏 支持数据挖掘技术的基础 从商业数据到商业信息的进化 网络之后的下一个技术热点 网络时代面临的信息问题: 信息过量,难以消化; 信息真假难以辨识; 信息安全难以保证; 信息形式不一致,难以统一处理。 “要学会抛弃信息” 数据爆炸但知识贫乏 数据库的容量已达上万亿水平(T)--1,000,000,000,000个字节 全球信息量以惊人的速度急剧增长--据估计,每二十个月将增加一倍。 许多组织机构的IT系统中都收集了大量的数据 支持数据挖掘技术的基础 激发了数据挖掘的开发、应用和研究的兴趣的四个主要技术理由: 超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录; 强大的多处理器计算机。例如更快和更大的计算能力和并行体系结构; 海量数据搜索,对巨大量数据的快速访问; 数据挖掘算法。 从商业数据到商业信息的进化 数据挖掘(Data Mining)的定义 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。〔技术角度的定义〕 数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。〔商业角度的定义〕 数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。 数据挖掘与其他科学的关系 实施数据挖掘的目的 不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。 所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。 数据挖掘的应用 数据分析和决策支持 市场分析和管理 目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割 风险分析和管理 风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析 欺骗检测和异常模式的监测 (孤立点) 其他的应用 文本挖掘 (新闻组,电子邮件, 文档) 和WEB挖掘 流数据挖掘 DNA 和生物数据分析 数据挖掘应用——市场分析和管理(1) 数据从那里来? 信用卡交易, 会员卡, 商家的优惠卷, 消费者投诉电话, 公众生活方式研究 目标市场 构建一系列的“客户群模型”,这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式 交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测 数据挖掘应用——市场分析和管理(2) 顾客分析 哪类顾客购买那种商品 (聚类分析或分类预测) 客户需求分析 确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客 提供概要信息 多维度的综合报告 统计概要信息 (数据的集中趋势和变化) 数据挖掘应用——公司分析和风险管理 财务计划 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等) 资源计划 总结和比较资源和花费 竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中 数据挖掘应用——欺诈行为检测和异常模式的发现 方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险 职业病人, 医生以及相关数据分析 不必要的或相关的测试 电信: 电话呼叫欺骗行为 电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分析该模型发现与期待标准的偏差 零售产业 分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义 其他应用 体育竞赛 美国NBA的29个球队中,有25个球队使用了IBM 分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。 天文学 JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星 网上冲浪 通过将数据挖掘算法应用于网络访问日志,从与市场相关的网页中发现消费者的偏爱和行为, 分析网络行销的有效性,改善网络站点组织。这就是新兴的WEB挖掘研究 数据挖掘与传统数据分析方法区别 数据挖掘的数据源与以前相比有了显著的改变; 数据是海量的; 数据有噪声; 数据可能是非结构化的;

文档评论(0)

0520 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档