商务智能与数据挖掘第6章数据挖掘的目的任务.ppt

商务智能与数据挖掘第6章数据挖掘的目的任务.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章 数据挖掘的目的任务 【教学目标与要求】 了解数据挖掘的目的在于搜寻复杂数据之间的联系规律 掌握存在于数据之间的多种联系规律及其概念、特点 掌握针对各种数据联系规律的挖掘方法 进一步了解人们对各种数据的规律发现及处理方法 6.1 关联分析 6.2 分类分析 6.3 聚类分析 6.4 离群数据分析 6.5 序列模式分析 6.6 分形模式分析 目录 1.背景材料 2.案例 3.分析 4.功能 【导入案例】 关联分析的目的就是发现数据之间或特征之间的相互依赖关系,常用技术有关联规则、回归分析等. 6.1.1 引言 引例1——商店货物摆放 引例2——网页浏览 6.1 关联分析 6.1.2 基本概念 support(X?Y) =|{T:X?Y?T,T?D}|/|D| confidence(X?Y) =|{T: X?Y?T,T?D}| / |{T:X?T,T?D}| 6.1 关联分析 6.1.3 关联规则的种类 我们可以将关联规则进行如下分类: (1)根据规则中所处理的值类型 (2)根据规则中涉及的数据维 (3)根据规则集所涉及的抽象层 (4)根据关联规则所涉及的关联特性 6.1.4 关联规则的研究现状 6.1 关联分析 “人以类聚,物以群分” 6.2.1 分类的定义 1.问题的提出 2.分类的过程 6.2 分类分析 分类的目的是学会一个分类函数(分类器),通过分类器把数据库中的数据项映射到给定类别中的某一个。 分类器的构造方法有统计方法、机器学习方法、神经网络学习方法等。不同的分类器有不同的特点,其评价标准是预测准确度、计算复杂度、模型描述的简洁度。 10遍分层交叉验证法(10-fold cross validation) 6.2 分类分析 6.2.2 样本测度 6.2.3 相似性测度 一.样本间的相似性测度 (一) 距离函数 (二) 相似系数 二.类与类间的相似性测度 三.数据的中心化与标准化 6.2 分类分析 6.2.4 分类的方法 基于决策树分类法、统计分类方法、神经网络方法、Bayesian分类、RoughSet分类、SVM方法、Boosting算法、覆盖算法等。 值得一提的是,数据的特点如数据噪音、缺失、分布以及类型等,都对分类的效果产生较大的影响。目前普遍认为,不存在某种方法能适用于各种特点的数据 6.2 分类分析 聚类(cluster analysis)是人类认识未知世界的一种重要的认知手段。 “学而时习之”,对所获得的知识形成“类别”,是聚类的过程,它是一种在无导师的情况下,根据样本间的相似程度划分距离,自动地进行分类的方法。 6.3 聚类分析 6.3.1 聚类的概念 1.问题的提出 2.聚类的定义 6.3.2 数据挖掘领域的聚类方法 一.数据挖掘领域的聚类算法 二.数据挖掘领域的综合聚类算法 6.3 聚类分析 6.3.3 聚类算法的特点 处理大量数据的能力 处理不同字段类型的能力 发现具有任意簇形状的聚类能力 用于决定输入参数的领域知识弱依赖性的能力 处理异常数据的能力 对于数据输入的顺序不敏感 处理高维数据的能力 基于约束聚类的能力 可解释性和可用性 6.3 聚类分析 数据库中的数据常有一些异常记录,就是明显偏离其它数据,它们与数据的一般行为或模型不一致,这些异常记录是离群值(outlier data)。 在一些应用中,如灾害检测、欺诈检测,罕见的事件可能比正常出现的事件更有价值。如电信计费、贷款审批、医疗保险等各种数据中普遍存在着各种欺诈数据,通过对离群数据的研究,发现这些数据中的不正常行为和模式,获得出乎意料的知识。 6.4 离群数据分析 6.4.1 离群点检测方法 离群数据挖掘可以分解为三个主要步骤: 首先是量化离群数据的定义,与其它数据的相异度为多少时才定义为离群数据,以何种属性作为度量依据; 二是如何设计有效的和准确的挖掘算法从大量数据集中发现和搜寻离群数据; 三是对发现的离群数据判断是正常数据(异常)还是错误数据(噪音),进而决定是否进行深入研究。 6.4 离群数据分析 1. 基于统计的离群数据的发现方法 2. 基于距离的离群数据的发现方法 3. 基于偏离的离群数据的发现方法 4. 基于规则的离群数据的发现方法 5. 基于聚类算法的离群数据发现方法 6. 基于相似系数的离群数据发现方法 6.4 离群数据分析 6.4.2 离群数据分析 6.4.3 数据挖掘领域中的离群值分析算法 6.4 离群数据分析 序列模式(Sequence Model)由R.Ag

文档评论(0)

autohhh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档