数据挖掘介绍解析.ppt

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘介绍解析

Data Mining: Concepts and Techniques 数据挖掘 概念与技术 — Chapter 1 — ?Jiawei Han and Micheline Kamber Chapter 1. 引言 什么激发了数据挖掘,为什么它是重要的? 什么是数据挖掘? 在何种数据上进行数据挖掘? 数据挖掘功能 所有模式都是有趣的吗? 数据挖掘系统的分类 数据挖掘的主要问题 需要是发明之母 数据爆炸问题 自动数据收集工具和成熟的数据库技术导致海量数据累积,需要对数据库、数据仓库及其他信息存储设备中的数据进行分析。 我们溺死在数据坟墓中,却难以提取有效信息 解决方法:数据仓库与数据挖掘 数据仓库 and 联机分析处理(OLAP) 在大型数据库数据中挖掘有趣知识 (规则, 模式, 约束) 数据库技术发展 1960s: 数据收集,数据创建 1970s: 关系数据模型, 关系数据库管理系统 1980s: 高级数据模型 (扩充关系, 面向对象, etc.) 面向应用的数据库管理系统 (空间的,时间的,知识库, etc.) 1990s: 数据挖掘,数据仓库,Web 数据库 2000s 面向各种应用的数据挖掘 Web 技术 和 全球信息系统 什么是数据挖掘? 数据挖掘 (从数据中提取或“挖掘”知识) 从大量数据中提取有兴趣 (不琐碎的, 固有的, 先前未知的 和 潜在有用的) 知识 数据挖掘: 用词不当? 同义词 数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞 注意事项: Is everything “data mining”? 查询处理. 专家系统或统计程序 为什么要数据挖掘?—潜在的应用 数据分析与决策支持 市场分析和管理 目标市场,客户关系管理, 市场销售分析, 交叉销售, 市场分割 风险分析和管理 预测, 消费能力, 质量控制,竞争力分析 欺骗探测 和不寻常行为探测 其他应用 Web 挖掘 DNA 和生物信息挖掘 市场分析和管理 数据来源? 信用卡事务, 折扣优待卷,客户投诉电话, 公众生活方式调查 目标市场 发现具有相同特征(兴趣、收入状况、消费习惯等)的消费者模式 随着时间发展,决定消费者购买的模式 交叉市场分析 产品间的销售联系, 基于这些联系进行预测 消费者类型 什么样的消费者买什么样的产品 (聚类 or 分类) 消费需求分析 为不同消费者提供最好产品 预测吸引新消费者的因素 提供信息总结 多维总结报告 分析汇总信息 (数据集中趋势和变化) 公司分析 风险管理 经费计划与资产评估 现金流转分析 和 预测 临时问题分析进行评估资产 交叉组合和时间序列分析 (财政比率, 趋势分析, etc.) 资源计划 总结、比较资源花费 竞争 监控竞争者和市场方向 划分消费群和基于分类的定价程序 制定具有高度市场竞争力的定价策略 欺骗探测 挖掘不寻常模式 方法: 聚类 进行欺骗模式构造, 孤立点分析 应用: 卫生保健, 零售业, 信用卡服务. 汽车保险: 洗钱: 可疑金钱事务 医疗保险 长途通讯 零售产业 分析显示: 38% 的零售收缩归咎于不诚实雇员 反对恐怖主义 其他应用 运动 IBM高级侦察系统统计NBA比赛 天文学 喷气推进实验所(JPL) 与 Palomar 天文台在数据挖掘帮助下发现22类星体 数据挖掘: 知识发现过程 数据挖掘—知识发现过程的核心 知识发现过程步骤: 了解应用领域 相关前提知识和应用目标 数据清理 和数据集成: (可能需要付出 60%的努力!) 数据选择 数据变换 选择数据挖掘功能 特征化、关联、分类、聚类分析以及演变和偏差分析. 选择挖掘算法 数据挖掘 模式评价 和 知识表达 可视化,转换,排除冗余模式, etc. 使用发现知识 数据挖掘 和 商业智能 结构: 典型数据挖掘系统 在何种数据上进行数据挖掘 关系数据库 数据仓库 事务数据库 高级数据库系统和高级数据库应用 面向对象数据库 对象关系数据库 空间数据库 时间数据库和时间序列数据库 多媒体数据库 异种数据库和遗产数据库 WWW 数据挖掘功能 概念/类描述: 特征化和区分 归纳, 总结, 对比数据特征, e.g., dry vs. wet regions 关联分析 (相关性和因果关系) Diaper à Beer [0.5%, 75%] 分类和预测 模型构造:描述和预测类标记未知的对象类 例如,基于气候划分国家, 基于汽油消耗定额划分汽车 表示: 判定树,分类规则,神经网络 预测空缺或不知道的数据值 数据挖掘功能 (2) 聚类分析 类标记是未知的:聚类数据以形成新类标记 最大化类内的相似性、最小化类间的相似性 孤立点分析 孤立点: 数据对象与数据的一般行为或模型不一致 噪声

文档评论(0)

441113422 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档