1、序论【数据挖掘】.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数 据 挖 掘与知识发现 主讲教师:王玲 教科书和参考书 教科书 数据挖掘:概念与技术,Jiawei Han和Micheline Kamber 著,机械工业出版社(2001) 参考书 数据挖掘原理, David Hand, Heikki Mannila和Padhraic Smyth著,机械工业出版社 (2003) Data Mining: Practical Learning Tools and Techniques with Java Implementations 作者:(新西兰)Ian H.Witten,Eide Frank 这本书是结合开源数据挖掘工具weka编写,用java语言实现,书中描述了怎么去开发,怎么weka的基础上进行二次开发。 机器学习(英文版) 作者: Tom M.Mitchell 数据挖掘的发展动力 ---需要是发明之母 数据爆炸问题 自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据库技术的演化 (1) 1960s和以前: 文件系统 1970s: 层次数据库和网状数据库 1980s早期: 关系数据模型, 关系数据库管理系统(RDBMS)的实现 数据库技术的演化 (2) 1980s晚期: 各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.) 面向应用的数据库系统 (空间数据库,时序数据库,多媒体数据库等等) 1990s: 数据挖掘, 数据仓库, 多媒体数据库和网络数据库 2000s 流数据管理和挖掘 基于各种应用的数据挖掘 XML数据库和整合的信息系统 什么是数据挖掘? 数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的替换词 数据库中的知识挖掘(KDD) 知识提炼、 数据/模式分析 数据考古 数据捕捞、信息收获等等。 并非所有的东西都是数据挖掘 基于数据仓库的OLAP系统 OLAP系统专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。 机器学习系统,数据统计分析系统 这些系统所处理的数据容量往往很有限。 信息系统 专注于数据的查询处理。 相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合 数据挖掘应用的应用领域 市场分析和管理 百货公司、超市、银行、电子商务 风险分析和管理 电信、保险 欺诈检测和异常模式的监测 信用卡、警察机关、税务部门 其他应用 文本挖掘 流数据挖掘 DNA和生物数据分析 数据挖掘应用——市场分析和管理(1) 数据从那里来? 信用卡交易, 会员卡, 商家的优惠卷, 消费者投诉电话, 公众生活方式研究 目标市场 构建一系列的“客户群模型”,这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等 确定顾客的购买模式 交叉市场分析 货物销售之间的相互联系和相关性,以及基于这种联系上的预测 数据挖掘应用——市场分析和管理(2) 顾客分析 哪类顾客购买那种商品 (聚类分析或分类预测) 客户需求分析 确定适合不同顾客的最佳商品 预测何种因素能够吸引新顾客 提供概要信息 多维度的综合报告 统计概要信息 (数据的集中趋势和变化) 数据挖掘应用——公司分析和风险管理 财务计划 现金流转分析和预测 交叉区域分析和时间序列分析(财务资金比率,趋势分析等等) 资源计划 总结和比较资源和花费 竞争 对竞争者和市场趋势的监控 将顾客按等级分组和基于等级的定价过程 将定价策略应用于竞争更激烈的市场中 数据挖掘应用——欺诈行为检测和异常模式的发现 方法: 对欺骗行为进行聚类和建模,并进行孤立点分析 应用: 卫生保健、零售业、信用卡服务、电信等 汽车保险: 相撞事件的分析 洗钱: 发现可疑的货币交易行为 医疗保险 职业病人, 医生以及相关数据分析 不必要的或相关的测试 电信: 电话呼叫欺骗行为 电话呼叫模型: 呼叫目的地,持续时间,日或周呼叫次数. 分析该模型发现与期待标准的偏差 零售产业 分析师估计有38%的零售额下降是由于雇员的不诚实行为造成的 反恐怖主义 其他应用 体育竞赛 美国NBA的29个球队中,有25个球队使用了IBM分析机构的数据挖掘工具,通过分析每个对手的数据(盖帽、助攻、犯规等数据)来获得比赛时的对抗优势。 天文学 JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星 网上冲浪 通过将数据

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档