2024大数据聚类分析.pptx

下载文档

0
0
约2.21千字
约 18页
2025-02-24 发布于山西
举报
版权申诉
保障服务

2024大数据聚类分析.pptx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据聚类分析

主要内容聚类分析1孤立点挖掘2聚类算法---K-MEANS3总结4

什么是聚类分析？聚类（簇）：数据对象的集合在同一个聚类（簇）中的对象彼此相似不同簇中的对象则相异聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习：没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法（如：特征和分类）的预处理步骤

聚类分析的典型应用模式识别人脸识别空间数据分析在GIS系统中，对相似区域进行聚类，产生主题地图检测空间聚类，并给出他们在空间数据挖掘中的解释图像处理万维网对WEB上的文档进行分类对WEB日志的数据进行聚类，以发现相同的用户访问模式

聚类分析应用实例市场营销土地使用保险业城市规划帮市场分析人员从客户基本库中发现不同的客户群，从而可以对不同的客户群采用不同的营销策略。在地球监测数据库中，发现相同的土地使用区域。发现汽车根据房子保险中，的类型/索赔率较价值和地高的客户理位置对群。其进行分组。地震研究将观测到的震中点沿板块断裂进行聚类，得出地震高危区。

孤立点挖掘1什么是孤立点一个数据集与其他数据有着显著区别的数据对象的集合。例如：运动员：MichaelJordon ,舒马赫，布勃卡2孤立点产生原因度量或执行错误数据变异的结果3孤立点挖掘给定一个N个数据对象，以及预期的孤立点数目K与剩余的数据有着显著差异的头K个数据对象。4应用信用卡欺骗检测移动电话欺骗检测客户划分医疗分析（异常）

基于统计的孤立点检测统计的方法对于给定的数据集合假定了一个分布或概率模型（例如正态分布）。使用依赖于以下参数的不一致性检（discordancytest）数据分布分布参数（e.g. 均值或方差预期的孤立点数缺点：绝大多数检验是针对个体属性的，而数据挖掘要求在多维空间中发现孤立点。大部分情况下，数据分布可能是未知的。

基于距离的孤立点检测为了解决统计学方法带来的一些限制，引入了基于距离的孤立点检测在不知道数据分布的情况下对数据进行多维分析基于距离的孤立点：即DB(p,d)，如果数据集合S中的对象至少有p部分与对象o的距离大于d，则对象o就是DB(p,d)。挖掘基于距离的孤立点的高效算法：基于索引的算法嵌套—循环算法基于单元的算法

基于偏离的孤立点检测通过检查一组对象的的主要特征来确定孤立点跟主要特征的描述相“偏离”的对象被认为是孤立点两种基于偏离的孤立点探测技术序列异常技术模仿人类从一系列推测类似的对象识别异常对象的方式OLAP数据立方体技术在大规模的多维数据中采用数据立方体来确定异常区域。如果一个立方体的单元值显著的不同于根据统计模型得到的期望值，则改单元值被认为是一个异常，并用可视化技术表示。

聚类算法目前存在大量的聚类算法，算法的选择取决于数据的类型、聚类的目的和具体的应用。大体上，主要的聚类算法分为这几大类。

聚类算法的衡量标准可伸缩性不同属性任意形状记录顺序基于约束高维度衡量聚类算法的优劣领域最小化解释性-可用性

K-Means聚类原理为中心向量C1，C2，…，Cn初始化K个种子（即选择K个类的初始中心）分组将样本分配给距离其最近的中心向量由这些样本构造不相交的聚类确定中心用各个聚类的中心向量作为新的中心重复分组和确定中心的步骤，直至算法收敛。

K-Means算法步骤步骤一：将所有对象随机分配到k个非空的簇中。步骤二：计算每个簇的平均值，并用该平均值代表相应的值。步骤三：根据每个对象与各个簇中心的距离，分配给最近的簇。步骤四：转到步骤二，重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数或者终止条件。终止（收敛）条件可以是以下任意一个：没有（或者最小数目）数据点被重新分配给不同的聚类；没有（或者最小数目）聚类中心再发生变化；误差平方和（SSE）局部最小。SSE= dist(x,mj)其中，k表示需要聚集的类的数目，Cj表示第j个聚类，mj表示聚类Cj的聚类中心，dist(x,mj)表示数据点x和聚类中心mj之间的距离。利用该准则可以使所生成的簇尽可能的紧凑和独立。

K-Means算法特点：K-means算法的每个簇都是使用对象的平均值来表示。原始K-Means算法的缺陷：结果好坏依赖于对初始聚类中心的选择容易陷入局部最优解对K值的选择没有准则可依循对异常数据较为敏感只能处理数值属性的数据……

K-Means算法K-Means的变体Bradley和Fayyad等：降低对中心的依赖，能适用于大规模数据集Dhillon等：调整迭代过程中重新计算中心方法，提高性能Zhang等：权值软分配调整迭代优化过程Sarafis：将遗传算法应用于目标函数构建中Berkhin等：应用扩展到了分布式聚类还有：采用图论的划分