数据挖掘与系统平台使用原理培训教材.ppt

数据挖掘与系统平台使用原理培训教材.ppt

  1. 1、本文档共306页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与系统平台使用原理培训教材

数据挖掘与Clementine使用培训 北京瑞斯泰得数据技术开发有限公司 * 一、数据挖掘概述 什么是数据挖掘 数据挖掘的实现路线和流程 数据挖掘方法论——CRISP-DM 为什么进行数据挖掘? 商业观点 业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值 客户信息数据 客户交易行为数据 客户反馈数据 网络数据 …… 计算机变得越来越便宜、功能却越来越强大 商业竞争越来越激烈,对客户了解越多就意味着机会越大 为什么进行数据挖掘? 技术观点 业务中的数据量呈现指数增长(GB/小时) 传统技术难以从这些大量数据中发现有价值的规律 数据挖掘可以帮助我们从大量数据中发现有价值的规律 一个市场营销的例子 一个市场营销的例子 一个市场营销的例子 数据挖掘收益分析 利润分析图 数据挖掘效果模拟分析 什么是数据挖掘? 不同的定义 从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程 从大量数据中自动化(或者半自动化)的发现有价值规律的过程 数据挖掘的其他名称 数据库内知识发现(KDD- Knowledge discovery in databases ) 数据/模式分析 商业智能 人工智能 …… 数据挖掘的起源 来源于机器学习/人工智能、模式识别、统计学和数据库 传统技术的局限性 巨量的数据 高维数据 数据分布不理想 数据挖掘面临的挑战 海量数据 高维数据 数据复杂性 数据质量问题 数据所有权和分布 隐私问题 数据挖掘方法论—项目顺利实施的保证 商业理解 数据理解 数据准备 建立模型 模型评估 结果发布 商业理解是数据挖掘的起点 商业理解的内容 数据挖掘能解决什么样的商业问题? 数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本? 我们期望模型能够给我们怎样的精确率? 有那些前提假定? 约束分析 时间约束分析 资源约束分析 人力资源 数据资源 软件资源 硬件资源 制定特定的数据挖掘目标 制定的数据挖掘目标应具有: 可评估性(assessable) 可实现性(attainable) 如何给定一个数据挖掘问题 是检验性数据挖掘还是探索性数据挖掘? 确定哪些是可以实现的数据挖掘问题 结果可测度性 信息(数据)的可获得性 评估和控制其他相关因素的影响 数据来源与数据之间的关系 使数据适合数据挖掘 对数据进行适当的合并和汇总 一般数据挖掘分析都要一个行×列(记录×变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求: 所有的记录含有排列顺序一致的变量 所有记录的变量信息是完整的(理想化状态,在现实中很难达到) 检查数据质量 影响数据质量的几个主要问题 缺失值 不合理值 不同数据源的不一致 异常值 对数据进行适当的变换 数据的标准化变换 生成新的变量 数据的重新编码 数据降维,从变量角度或者从记录角度 数据挖掘模型的分类 数据描述和汇总(Data description and summarization) 细分(Segmentation) 概念描述(Concept descriptions) 分类(Classification) 预测(Prediction) 相关分析(Dependency analysis) 数据挖掘技术的分类 数据挖掘的典型结果——金融 问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树) 数据挖掘的典型结果——电信 问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络) 数据挖掘的典型结果——零售 问题描述:如何决定超市中商品的摆放来增加销售额 结果描述:(Web图) 数据挖掘的典型结果——制造业 问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类) 数据挖掘的典型结果——政府 问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络) 检验的形式 方法层面的检验 训练集和检验集 不同方法的互相印证和比较 模型准确性的检验: 商业层面上的检验 利润率的检验 模型结果可操作性的检验 其他检验 关注那些错误的预测 数据挖掘不成功的几种可能性 糟糕的数据 组织抵制 结果没有被有效的发布 得到了无用的结果 模型发布的形式 书面报告 数据库更新 针对特定主题的应用系统 数据挖掘的体系结构 二、Clementine概述 Clementine在数据挖掘中的地位 Clementine发展历史 Clementine的配置 Clementine操作基础 数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位 数据挖掘方法论——项目顺利实施的保证 Clementine发展历程 Clementine是ISL (Integral Solu

您可能关注的文档

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档