数据挖掘基础培训讲义-数据挖掘概述.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘基础培训讲义-数据挖掘概述

数据挖掘:概念与技术(翻译 张磊) DM基础-1 数据挖掘概述 教材内容来源于《数据挖掘:概念与技术》 第1章 引言 (Jiawei Han and Micheline Kamber) 课程大纲 什么激发了数据挖掘? 什么是数据挖掘? 在何种数据上进行数据挖掘? 数据挖掘功能 所有模式都是有意义的吗? 数据挖掘系统的分类 数据挖掘中的主要问题 动机:“需要是发明之母” 数据爆炸问题 自动化的数据收集工具和成熟的数据库技术导致了数据库、数据仓库和其它信息仓库中储存了海量数据 数据丰富,但信息贫乏! 解决方案:数据仓库和数据挖掘 数据仓库和联机分析处理 从海量数据中抽取出有意义的知识(规则、规律、模式、约束) 数据库技术的演化 (参见图1.1) 1960s: 数据集合,数据库创建,IMS和网络数据库 1970s: 关系数据模型,关系数据库系统实现 1980s: RDBMS,高级数据模型(扩展关系模型,面向对象模型,演绎模型等)和面向应用的数据库管理系统(空间,科学,工程等) 1990s—2000s: 数据挖掘和数据仓库,多媒体数据库和Web数据库 什么是数据挖掘? 数据挖掘(数据库中的知识发现): 从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式 其它类似术语: 数据挖掘:是否用词不当? 数据库中的知识发现(KDD),知识抽取,数据/模式分析,数据考古,数据捕捞,商业智能等 什么不属于数据挖掘? (演绎)查询处理 专家系统或小型的机器学习/统计分析程序 为何进行数据挖掘?— 潜在应用 数据库分析和决策支持 市场分析和管理 目标营销,客户关系管理,购物篮分析,交叉销售,市场分段 风险分析和管理 预测,客户保持,降低风险,质量控制,竞争力分析 欺诈检测与管理 其它应用 文本挖掘(新闻组,电子邮件,文档)和Web分析 智能询问解答(QA)系统 市场分析和管理 (1) 分析的数据源在哪里? 信用卡交易,积分卡,折扣优惠券,客户抱怨电话,以及(公众)生活方式研究 目标营销 发现具有相同特征的客户群模型:兴趣,收入水平,消费习惯等 判别客户的序列购买模式 从单身账户到共有账户的转变:结婚 交叉销售分析 产品销售之间的关联 基于关联信息而进行的预测 市场分析和管理 (2) 构造客户特征 数据挖掘可以告诉您哪种客户会购买哪种产品 (通过聚类或分类) 识别出客户需求 识别出适合不同客户的最佳产品 通过预测来发现吸引新客户的因素 提供综合信息 各种各样的多维综合报表 统计上的综合信息(数据的集中趋势和变化) 集团分析和风险管理 财政计划和资产评估 现金周转分析和预测 资产评估中的相机要求分析 交叉组合分析和时间序列分析(财务比率,趋势分析等) 资源规划 资源和开销的总结和比较 竞争力 监视竞争对手和市场导向 对客户分组并基于分类制定价格 在激烈的竞争市场中制定价格策略 欺诈检测和管理 (1) 应用 广泛用于健康卫生,零售,信用卡服务,电信(电话卡欺诈)等行业 方法 使用历史数据来构造欺诈行为模型,同时利用数据挖掘来辅助识别出类似案例 示例 汽车保险: 检测出那些伪造事故来骗取保险金的人群 洗钱: 检测可疑的金钱交易(美国财政部的金融犯罪执行网络) 医疗保险: 检测出职业病人 欺诈检测和管理(2) 检测出不必要的医疗处理 澳大利亚医疗保险委员会查出在许多案例中病人都要求blanket screening tests (每年节省一百万澳元) 检测电话欺诈 通话模型:对端号码,通话时长,每天(周)通话次数。分析那些偏离预期的通话模式 英国电信检测出频繁进行集团内部通话(特别是用手机通话)的一些犯罪集团,成功避免了数百万美元的欺诈 零售 分析家估计大约38%的零售额减少是由于不诚实的员工造成的 其它应用 体育 IBM Advanced Scout分析了NBA比赛的统计数据(阻攻, 助攻, 犯规等),帮助纽约尼克斯队和迈阿密热队提高竞争优势 天文学 JPL和Palomar天文台借助数据挖掘技术发现了22颗类星体 因特网冲浪辅助 IBM Surf-Aid利用数据挖掘算法来分析与销售有关的Web访问日志,发现用户的偏好和行为,分析电子商务的有效性,改善网站的结构等 数据挖掘: 一个KDD过程 数据挖掘: 知识发现过程的核心 KDD过程的步骤 对应用领域的研究: 相关的预备知识和应用的目标 建立目标数据集: 数据选取 数据清洗和预处理: (可能占据多达60%的工作量!) 数据归约和转换: 找出有用的特征, 维度/变量归约, 不变式转换 选择数据挖掘功能 综合, 分类, 回归, 关联, 聚类. 选择挖掘算法 数据挖掘: 找出有意义的模式 模式评价和知识表达 可视化, 转换, 消除冗余模式等等 利用发现的知识 数据挖

文档评论(0)

almm118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档