数据分析方法与技术-聚类分析实验报告解析.docVIP

下载本文档

13
0
约3.22千字
约 15页
2016-05-02 发布于湖北
举报
版权申诉

数据分析方法与技术-聚类分析实验报告解析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

电子科技大学政治与公共管理学院本科教学实验报告（实验）课程名称：数据分析技术系列实验电子科技大学教务处制表电子科技大学实验报告学生姓名：学号：指导教师：一、实验室名称：电子政务可视化实验室二、实验项目名称：聚类分析三、实验原理基于划分的聚类：基于划分的聚类分析(partitioning-based cluster analysis) 与层次聚类分析不同, 事先需要指定将数据分为几类。给定一个有 n 个个体的数据集, 将它划分为 k 个部分( k≤n ), 每个小部分即为一类。它需要满足以下两个条件: (1) k 类中任意一类不为空集,即每一类中至少有一个个体; (2) 每一个体都属于且仅属于 k 类中的一类。在新近发展起来的一些基于划分的聚类分析算法中,第二个条件可以被适当放松。总之，限制条件不是绝对的。 1.初始凝聚点的选择凝聚点即各类的代表点, 基于划分的聚类分析算法中首先需要找到 k 个凝聚点分别作为 k 类的中心, 用来形成初始分类。初始凝聚点的选择主要有以下几种方法: (1)经验选择, 根据对问题背景的了解,选择合适的点作为初始凝聚点。这是最理想的一种方法, 利用对问题本身背景信息的了解,既可以通过较少的迭代次数达到稳定分类, 又能够满足问题在聚类中的一些特殊需求。 (2) 随机选取 k 个点或者选择数据中前 k 个点作为凝聚点。在缺少已知信息的情况下常常使用这种方法。 (3) 将数据人为地分为 k 类, 将每一类的重心作为初始凝聚点。 (4) 密度法人为地指定两个正数 d1 和 d2 (d2 d1), 以每个样本点为中心, 落在与该点距离小于 dl 的球内的样本个数即为该点的密度。首先选择具有最大密度的点作为第一个凝聚点, 然后选择次大密度的样本点, 如果它和第一凝聚点之间的距离小于d2, 则该点取消;如果它与第一凝聚点之间的距离大于d2, 则该点作为第二个凝聚点。按照这个方法一直选下去, 每个新选出的凝聚点与已经选好的凝聚点之间的距离均要大于d2, 直到选出 k 个凝聚点为止。若无法选出 k 个凝聚点, 则应适当调整d1 和 d2 的大小使过程能够进行下去。 2. 初始分类最常用的初始分类方法有以下几种。 (1) , 每个样本归入与其距离最近的凝聚点所代表的类中。 (2) 将选出的每个凝聚点视为一类，第一个样本点进入时，归入与其距离最近的凝聚点所代表的一类，并对更新的类重新计算中心作为修正后的凝聚点替代原有凝聚点, 此后各个样本点按此方法依次进入。 (3) 首先人为指定一个正数 d , 将第一个样本点视为第一类。此后第二个样本点进入, 若它与第一个样本点之间的距离 d12d, 则第二个样本点视为第二类; 若它与第一个样本点之间的距离d12≤ d, 则第二个样本点进入第一类。当第 l m 个划分好的类, 每个类第一次进入的样本点记为 xi1, xi2, …,xim。若 min diij≤d, 则第 l 个样本进入与其距离最近的点所代表的那一类; 否则, 第 l 个样本自成为新的一类。注意, 3.修改分类的方法修改分类的方法主要有两种： (2) 逐个修改法按批修改法在每一次迭代的过程中凝聚点不变, 另一种想法是在每一个样本进入之后随之调整凝聚点, 这就是逐个修改法。逐个修改法又被称为“K-means” 方法, 由MacQueen在1967年提出, 现在已经成为聚类分析中最常用的方法之一。其步骤为： 1) 在 n 个数据中选取 k 个作为凝聚点, 并且定义点与点之间的距离; 2) 其余 n-k 个点逐个进入, 每个点进入时归入与相应凝聚点距离最近的类中，每个点进入之后重新计算每一类的重心作为该类新的凝聚点; 3) 重复2)直至所有类的凝聚点均不再变化为止。 EM 聚类 EM聚类是一种基于模型的聚类方法。即试图使给定数据与某个数学模型达到最佳拟合。主要有统计方法和神经网络方法。 EM聚类主要基于数理统计模型和概念进行聚类。 EM聚类方法认为：样本点都是来自服从某种分布的总体, 属于不同类的个体分别来自具有不同分布或者参数的总体，而整个样本就是来自多个分布的数据的一个混合, 每一个分布成为一个子总体。 EM聚类即要在一定的分布假定基础上找到一系列参数来拟合不同的子总体, 再根据每个样本落入不同总体的概率来判定该样本来自哪一个子总体, 进而对样本进行聚类。 EM聚类算法的具体过程如下： 1) 确定数据被聚为多少类，即需确定 k 。 2) 对数据的分布类型作出假定。 3) 给出各子总体的初始参数初始参数的选择对最终结果有很大影响。 4) 利用EM方法对初始参数迭代