数据挖掘与知识获取课件1、引言.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数 据 挖 掘 主讲教师:杨连贺 E-mail: yanglh@ 数据挖掘的概念 简单地说,数据挖掘是从大量数据中提取或挖掘知识。 具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 教科书和参考书 教科书 数据挖掘:概念与技术(原书第2版),Jiawei Han和Micheline Kamber 著,机械工业出版社(2008) 参考书 数据挖掘原理, David Hand, Heikki Mannila和Padhraic Smyth著,机械工业出版社 (2003) 第一章 引言 什么激发了数据挖掘,为什么它是重要的? 什么是数据挖掘? 对何种数据进行数据挖掘? 数据挖掘功能——可以挖掘什么类型的模式? 所有的模式都是有趣的吗? 数据挖掘系统的分类 数据挖掘任务原语(单列、详讲) 数据挖掘系统与数据库/数据仓库系统的集成 数据挖掘的主要问题 数据挖掘的发展动力 ---需要是发明之母 数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 数据丰富,但信息缺乏 我们拥有丰富的数据,但却缺乏有用的信息。 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据库技术的演化 (1) 1960s及以前: 文件系统 1970s: 层次数据库和网状数据库 1980s早期: 关系数据模型, 关系数据库管理系统(RDBMS)的实现 数据库技术的演化 (2) 1980s晚期: 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.) 面向应用的数据库系统 (空间数据库,时序数据库,多媒体数据库等等) 1990s: 数据挖掘, 数据仓库, 多媒体数据库和网络数据库 2000s 流数据管理和挖掘 基于各种应用的数据挖掘 XML数据库和整合的信息系统 什么是数据挖掘? 数据挖掘 (从数据中发现知识) 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的替换词 数据库中的知识挖掘(KDD) 知识提炼、 数据/模式分析 数据考古 数据捕捞、信息收获等等。 数据挖掘应用——市场分析和管理(1) 数据从哪里来? 信用卡交易, 会员卡, 商家的优惠券, 消费者投诉电话, 公众生活方式研究 目标市场 构建一系列的“客户群模型”,这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式 交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测 数据挖掘应用——市场分析和管理(2) 顾客分析 哪类顾客购买哪种商品 (聚类分析或分类预测) 客户需求分析 确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客 提供概要信息 多维度的综合报告 统计概要信息 (数据的集中趋势和变化) 数据挖掘应用——公司分析和风险管理 财务计划 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等) 资源计划 总结和比较资源和花费 竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中 数据挖掘应用——欺诈行为检测和异常模式的发现 方法: 对欺骗行为进行聚类和建模,并进行离群点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险 职业病人、医生以及相关数据分析 不必要的或相关的测试 电信: 电话呼叫欺骗行为 电话呼叫模型: 呼叫目的地、持续时间、日或周呼叫次数,分析该模型,发现与期待标准的偏差 零售产业 分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义 其它应用 体育竞赛 IBM Advanced Scout分析NBA的统计数据 ( 阻挡投篮、 助攻、犯规等数据 ) 获得了对纽约小牛队(New York Knicks)和迈阿密热队( Miami Heat )的竞争优势。 天文学 借助于数据挖掘的帮助,JPL 实验室和 Palomar 天文台发现了22 颗新的恒星。 Internet Web Surf-Aid IBM Surf-Aid 将数据挖掘算法用于有关交易的页面的Web访问日志, 以发现顾客喜爱的页面, 分析Web 销售的效果, 改进Web 站点的组织等。这就是新兴的Web数据挖掘。 数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘——知识挖掘的核心 KDD的步骤 从KD

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档