- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
05_数据挖掘
数据挖掘技术及其应用;主要内容 数据挖掘概述数据预处;一、数据挖掘概述;数据挖掘概念数据挖掘--从大量;数据挖掘与KDD知识发现(KD;数据挖掘的社会需求国民经济和社;数据挖掘的社会需求数据挖掘数据;数据挖掘的社会需求数据爆炸,知;数据挖掘的发展1989 IJC;数据挖掘技术技术分类预言(Pr;异常检测异常检测是数据挖掘中一;什么是异常(outlier)?;异常检测方法的分类基于统计(s;数据挖掘系统的特征数据的特征知;数据的特征大容量POS数据(某;系统的特征知识发现系统需要一个;知识(模式)的特征知识发现系统;知识表示:规则IF 条件 TH;知识表示:分类树分类条件1分类;数据挖掘算法的特征构成数据挖掘;数据挖掘的主要方法分类(Cla;数据挖掘系统代特征数据挖掘算法;数据挖掘系统第一代数据挖掘系统;数据挖掘系统第三代数据挖掘系统;二、数据预处理;为什么需要预处理数据不完整含观;污染数据形成的原因滥用缩写词数;数据清理的重要性污染数据的普遍;数据清理处理内容格式标准化异常;数据规约数据集的压缩表示,但是;空缺值忽略元组人工填写空缺值使;噪声数据如何平滑数据,去掉噪声;分箱箱的深度:表示不同的箱里有;聚类每个簇中的数据用其中心值代;回归通过构造函数来符合数据变化;数据集成将多个数据源中的数据结;数据变换平滑聚集数据概化规范化;最小 最大规范化小数定标规范化;数据立方体聚集寻找感兴趣的维度;维规约删除不相关的属性(维)来;数据压缩有损,无损小波变换将数;数值规约回归和对数线形模型线形;数值规约 聚类多维索引树 : ;离散化和概念分层离散化技术用来;数值数据离散化聚类分析基于熵的;分类数据的概念分层生成分类数据;三、数据挖掘算法-分类与预测;分类 VS. 预测分类:预测分;数据分类:两步过程第一步,建立;第一步:建立模型训练数据集分类;第二步:用模型进行分类分类规则;准备分类和预测的数据通过对数据;比较分类方法使用下列标准比较分;用判定树归纳分类什么是判定树?;判定归纳树算法判定归纳树算法(;贝叶斯分类贝叶斯分类利用统计学;后向传播分类后向传播是一种神经;其他分类方法k-最临近分类给定;什么是预测?预测是构造和使用模;回归方法线性回归:Y = ? ;评估分类法的准确性导出分类法后;提高分类法的准确性Baggin;四、数据挖掘算法-聚类;聚类分析什么是聚类分析?聚类分;什么是聚类分析?簇(Clust;聚类的常规应用 模式识别空间数;应用聚类分析的例子市场销售: ;聚类方法性能评价一个好的聚类方;聚类方法性能评价可伸缩性能够处;两种数据结构数据矩阵(two ;评价聚类质量差异度/相似度矩阵;聚类分析中的数据类型区间标度变;区间标度变量数据标准化计算绝对;计算对象之间的相异度通常使用距;计算对象之间的相异度当q=2时;序数型变量一个序数型变量可以是;序数型变量相异度的计算 与区;比例标度型变量比例标度型变量(;混合类型的变量一个数据库可能包;混合类型的变量f 是二元变量;主要聚类方法Partition;五、数据挖掘算法-关联;什么是关联挖掘?关联规则挖掘:;关联规则:基本概念给定: (1;规则度量:支持度与可信度查找所;关联规则挖掘:路线图布尔 vs;关联规则挖掘—一个例子对于 A;关键步骤:挖掘频繁集频繁集:是;多层关联规则项通常具有层次底层;挖掘多层关联规则自上而下,深度;多层关联规则支持度不变: 在各;支持度不变支持度不变多层挖掘牛;支持度递减支持度递减多层挖掘酸;多层关联:冗余过滤由于“祖先”;多层挖掘:深度优先自顶向下,深;数据挖掘查询的逐步精化为什么要;逐步求精空间关联规则挖掘空间关;逐步求精空间关联规则挖掘空间关;多维关联规则:概念单维规则:b;挖掘多维关联的技术搜索频繁k-;数值属性的静态离散化在挖掘之前;带数量的关联规则age(X,”;ARCS (关联规则聚集系统);ARCS的局限性数值属性只能出;基于距离的关联规则挖掘分箱的方;记S[X] 为 N 个元组 t;用直径 d 评估聚集 CX 的;关联规则可视化Using Pl;关联规则可视化Using Ru;六、序列模式挖掘;序列模式概念序列模式的概念最早;序列模式实例例1:在两年前购买;序列模式应用领域应用领域:客户;序列模式表示符号化表示:项目集;序列模式表示符号化表示:设? ;序列模式表示例子:设序列数据库;序列模式挖掘问题描述:给定序列;序列模式挖掘算法序列模式挖掘的;序列模式挖掘算法上述算法存在的;七、数据挖掘软件;数据挖掘软件的发展代特征数据挖;数据挖掘软件的发展第一代数据挖;数据挖掘软件的发展第一代数据挖;二、数据挖掘软件的发展第二代数;数据挖掘软件的发展第二代数据挖;数据挖掘软件的发展第二代软件 ;数据挖掘软件的发展第三代数据挖;数据挖掘软件的发展第三
文档评论(0)