第5章 - read.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第章传统数据挖掘技术传统的统计分析类数据挖掘技术统计分析类工具统计分析类工具的应用统计分析类工具应用的问题练习传统的统计分析类数据挖掘技术统计与统计类数据挖掘技术统计与数据挖掘统计推断分析统计类数据挖掘技术传统的统计分析类数据挖掘技术数据的聚集与度量技术常用的聚集函数例如等数据中心趋势度量可以采用算术平均值加权算术平均值柱状图数据挖掘技术柱状图数据挖掘技术线性回归数据挖掘技术非线性回归数据挖掘技术聚类数据挖掘技术聚类数据挖掘技术分层聚类算法主要分两个阶段进行阶段一扫描数据库建立一个初始的树看作一

第5章 传统数据挖掘技术  5.1传统的统计分析类数据挖掘技术 5.2统计分析类工具 5.3统计分析类工具的应用 5.4统计分析类工具应用的问题 练习 5.1 传统的统计分析类数据挖掘技术 5.1.1 统计与统计类数据挖掘技术 1.统计与数据挖掘 统计推断分析 2.统计类数据挖掘技术 5.1 传统的统计分析类数据挖掘技术 5.1.2 数据的聚集与度量技术 常用的聚集函数,例如,count()、sum()、avg()、max()、min()等 数据中心趋势度量,可以采用算术平均值 加权算术平均值。 5.1.3 柱状图数据挖掘技术 5.1.3 柱状图数据挖掘技术 5.1.4 线性回归数据挖掘技术 5.1.5 非线性回归数据挖掘技术 5.1.6 聚类数据挖掘技术 5.1.6 聚类数据挖掘技术 2.分层聚类 BIRCH算法主要分两个阶段进行: 阶段一:扫描数据库,建立一个初始的CF树,看作一个数据的多层压缩,试图保留数据内在的聚类结构。当一个对象被插入到最近的叶节点(子聚类)中时,如果在插入对象后,存储在叶节点中子聚类的直径大于阀值,那么该叶节点被分裂,也可能有其他节点被分裂。新对象插入后,关于该对象的信息向根节点传递。通过修改阀值,CF树的大小可以改变。 阶段二:采用某个聚类算法对CF树的叶节点进行聚类。 BIRCH算法具有可伸缩性,通过对数据集的首次扫描产生一个基本聚类,二次扫描则进一步改进聚类质量并处理孤立点。BIRCH算法处理速度较快,只是对非球形簇处理效果不好。 CURE算法的主要步骤如下: ⑴从源数据集中抽取一个随机样本S。 ⑵将样本S划分为一组划分。 ⑶对每个划分进行局部的聚类。 ⑷通过随机抽样剔除孤立点。如果一个簇增长太慢,就删除该簇。 ⑸对局部的簇进行聚类。落在每个新形成的簇中的代表点根据用户定义的收缩因子收缩或向簇中心移动。这些点代表了簇的形状。 ⑹用相应的簇标签来标记数据。 3.划分聚类 k-平均算法最为简单。每个簇用该簇中对象的平均值来表示。 ⑴首先将所有对象随机分配到k个非空的簇中。 ⑵计算每个簇的平均值,并用该平均值代表相应的簇。 ⑶根据每个对象与各个簇中心的距离,分配给最近的簇。 ⑷然后转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。 k-中心点算法 每个簇用接近聚类中心的一个对象来表示。首先为每个簇选择一个代表对象,剩余的对象根据其与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象,以提高聚类的质量。 4.密度聚类 DBSCAN算法首先需要用户给定聚类对象的半径ε-邻域和ε-邻域中最少要包含的对象数MitPts。然后算法检查某个对象ε-邻域中的对象数,如果对象数大于MitPts,该对象就是核心对象,就构建以该对象为核心的新簇。然后反复寻找从这些核心对象出发在ε-邻域内的对象,这个寻找过程可能会合并一些簇,直到没有新的对象可以添加到任何簇中为止。 4.密度聚类 OPTICS算法是对DBSCAN算法的改进,因为在DBSCAN算法中需要用户设定ε-邻域和MitPts,但是在实际应用中用户往往很难确定这些参数,而且这些参数设置的不同往往会导致聚类结果有很大差别。在OPTICS算法中认定对象应该以特定的顺序进行处理,这个顺序首先处理最小的ε值密度可达的对象,这样可以首先完成高密度的聚类。 4.密度聚类 DENCLUE算法的依据是某个数据点在邻域内的影响可以用一个数学函数来形式化地模拟,这个函数为影响函数。所聚类数据空间的整体密度看成是所有数据点影响函数的总和。在聚类时就根据全局密度函数的局部最大,即密度吸引点来确定。 5.网格聚类 STING算法将数据空间区域划分为矩形单元,并且对应于不同级别的分辨率,存在着不同级别的矩形单元,高层的每个单元被分为多个低一层的单元,每个网络单元的统计信息被预先计算和存储,供处理和查询使用。 5.网格聚类 利用STING算法可以自顶向下回答查询: ⑴从层次中选定一层(含较少单元的层次)作为查询处理的开始。 ⑵对当前层次的每个单元计算置信区间,用以反映该网格单元与给定查询的关联程度。 ⑶当前层次处理完毕,转入下一层次,处理下一层次时只检查处理相关单元。 ⑷重复以上过程,直到底层处理完毕。如果查询要求满足,就返回相关单元的区域,否则检索和进一步处理相关单元中的数据,直到满足查询要求为止。 5.网格聚类 WaveCluster方法首先通过在数据空间上强加一个多维网格结构来汇总数据,每个网格单元汇总了一组映射到该单元中的点的信息,然后采用一种小波变换对原特征空间进行变换,汇总信息在进行小波变换时使用,接着在变换后的空间中找到聚类区域。 小波变换的聚类

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档