数据挖掘的应用分类.PDF

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
8 第 2 章 数据挖掘的应用分类 由于数据挖掘能分析出数据中的有用信息,给企业带来显著的经济效益,这使 数据挖掘技术越来越普及。如在销售数据中发掘顾客的消费习惯,并可从交易记录中 找出顾客偏好的产品组合,其他包括找出流失顾客的特征与推出新产品的时机点等都 是零售业常见的实例;利用数据挖掘分析顾客群的消费行为与交易纪录,结合基本数 据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化营销的目的;制造业 对数据挖掘的需求多运用在品质控管方面,从制造过程中找出影响产品品质最重要的 因素,以期提高作业流程的效率。 近几年,电话公司、信用卡公司、保险公司以及股票交易商对诈欺行为的侦测都 很有兴趣,这些行业每年因为诈欺行为而遭受的损失都非常巨大,数据挖掘可以从一 些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目 的。金融业可以利用数据挖掘来分析市场动向,并预测个别公司的营运以及股价走 向。数据挖掘的另一个独特的用法是在医疗业,用来预测手术、用药、诊断或是流程 控制的效率。 归纳起来,数据挖掘技术的基本任务主要体现在分类与回归、聚类、关联规则、 时序模式、偏差检测五个方面。图 2-1 是典型的数据挖掘应用场景。 图 2-1 数据挖掘应用示例 2.1 分类与回归 我们经常会碰到这样的问题: 1)如何将信用卡申请人分为低、中、高风险群? 2 )如何预测哪些顾客在未来半年内会取消该公司服务,哪些电话用户会申请增 第 2 章 数据挖掘的应用分类 9 值服务? 3 )如何预测银行可以安全地贷给贷款人的贷款量? 4 )哪些使用 2G 通信网络的手机用户有可能转换到 3G 通信网络? 5 )如何有效预测房地产开发中存在的风险? 除此之外,市场经理需要进行数据分析,以便帮助他预测具有某些特征的顾客会 购买一 台新的计算机;医学研究者希望分析乳腺癌数据,预测病人应 当 受三种具体 治疗方案 的哪一种 ;这些都是分类与回归的例子 。 2.1.1 分类与回归建模原理 分类(Classification ):指将数据 映射到预先定义好的群组或类。 因为在分析测试数据之前 ,类别就已经确定了 ,所 以分类通常被称 为有监督 的学 习。分类算法要求基于数据属性值来定义类别,通常通过 已知所属类别的数据的特征 来描述类别。 分类就是构造一个分类 函数 (分类模型),把具有某些特征的数据项映射 到某个 给定 的类别上 。该过程由两步构成 。 模型创建 :通过对训练数据集 的学 习来建立分类模型。 模型使用 :使用分类模型对测试数据和新的数据进行分类。 其中的训练数据集是带有类标号 的,也就是说在分类之前 ,要划分的类别是 已经 确定 的。通常分类模型是以分类规则、决策树或数学表达式的形式给出,图 2-2 就是 一个三分类问题。 图 2-2 分类问题 回归(Regression ):用属性 的历史数据预测未来趋势 。 回归首先假设一些 已知类型的 函数 (例如线性函数、Logistic 函数等)可以拟合 目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的 函数,图 2-3 就是一个非线性 回归问题。 回归模式的函数 定义与分类模式相似,主要差别在于分类模式采 用 离散预测值 (例如类标号 ),而回归模式采用连续 的预测值。在这种观 点下 ,分类和 回归都是预测 问题。但数据挖掘业界普遍认 为:用预测法预测类标号为分类,预测连续值 (例如使 用回归方法)为预测。许 多问题可以用线性 回归解决 ,许 多非线性 问题可以通过对变 量进行变化,从而转换为线性 问题来解决 。分类与回归建模原理如图 2-4 所示 。 10 第一部分

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档