matlab统计工具箱在聚类分析中的应用.docxVIP

matlab统计工具箱在聚类分析中的应用.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MATLAB统计工具箱在聚类分析中的应用 MATLAB统汁工具箱提供给人们一个强有力的统计分析工具,是口前国际 上流行的科学计算软件,具有强大的矩阵计算和数据可视化能力,可实现数据讣 算、图形处理、自动处理和信息处理等多种功能;同时,随着经济社会的飞速发 展,大数据时代已经悄然来临,海量的数据分类、处理工作显得尤为繁杂,而聚 类分析在解决这一繁杂工作的过程中起着不可替代的作用。那么釆取何种办法对 样本点进行聚类,才能使得大量的样本按照各自特性进行合理分类,也是一个值 得探究的问题。在MATLAB统计工具箱中提供了许多聚类分析工具,k-means 聚类就是其中一种,也叫k均值聚类,本文主要探讨k-means聚类方法,并将其 运用于实例分析。 关键词,matlab统计工具箱,聚类分析,k-means聚类 1.1问题背景 聚类分析(ClusterAnalysis),是将一组研究对象分为相对同质的群组的 统汁分析技术,乂称群分析或分类分析,通俗易懂的来说,它是根据“物以 类聚”的道理,对某些指标或样品进行分类的一种多元统计分析方法。也就 是说,它们以大量的样品为讨论对象,在没有任何模式依循或可供参考的条 件下,要求能够合理地按照各自的特性或属性来进行合理的分类,是在没有 先验知识的悄况下进行的。也就是说聚类与分类的不同在于,聚类所要求划 分的类是未知的,是将数据分类到不同的类或者簇这样的一个过程,所以在 同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。从 统讣学的观点看,聚类分析是通过数据建模简化数据的一种方法。 当今社会正处于大数据时代,在商业方面,聚类分析是细分市场的有效 工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场, 并作为多元分析的预处理;在经济领域,其可以帮助市场分析人员从客户数 据库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征;对住 宅区进行聚类,确定自动提款机ATM的安放位置;对股票市场板块分析,找 出最具活力的板块龙头股;还可用于企业信用等级分类等方面。在生物学领 域,其可推到动、植物的分类;也可对基因分类,获得对种群的认识;在数 据挖掘领域,其可作为其他数学算法的预处理步骤,获得数据分布状况,集 中对特定的类做进一步的研究:同时在保险行业、地理及因特网等方面有着 巨大的作用。 传统的统讣聚类分析方法包括系统聚类法、分解法、加入法、动态聚类 法、有序样品聚类、有重叠聚类和模糊聚类等。釆用k-均值、k-中心点等算 法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、 MATLAB等。本文着重介绍MATLAB统计工具箱在聚类分析中的应用。 利用MATLAB统计工具箱中的k-means进行聚类分析,首先进行数据 预处理,为衡量数据点间的相似度定义一个距离函数,再聚类或分组,评估 输出。可应用于诸多方面,为人们的生产生活带来方便。 1 ? 2本文主要工作 首先建立聚类分析模型,1)找到数据集合中变量两两之间的相似性和非相似性, 用pdist函数计算变量之间的距离;2)用linkage函数定义变量之间的连接;3) 用cophenetic函数评价聚类信息;4)用cluster函数创建聚类。然后通过模型对 模拟数据及实际数据进行分析、聚类,最终通过计算错误率,对模型进行评价。 2.模型综述 2. 1用k-means做聚类分析的算法解释 设被聚类对象的样本总数为川,样本维数为加,即有可测数据样本集 *={兀1,%2 Xn)? 其中 xi = (-\|,-\2 Xi”y,i二1,2 n 则定义数据样本召和\之间的欧儿里得距离 (7 = 1,2 n (7 = 1,2 n9j = i + \?……n)) 为了可视化,这里使用二维空间,一组模拟数据如图2.1所示: Randomly Generated Data Randomly Generated Data 图2.1模拟数据散点图 从样本点的大体形状可以看出它们大致可以聚为三个类,其中两个是密 集一些的,剩下的那些松散一些。现在我们要为这些样本点分组,以便于能 区分出属于不同的簇的数据,如果按照分组把它们按照不同的形状画出来, 就是下图这个样子: 图2. 2聚类效果图 那么如何用计算机完成这个任务呢,本文采取matlab中的k-means算法 对这种m维欧氏空间中的点进行聚类。在进行k-means的具体步骤之前,首 先我们要对进行聚类的数据做一个假设:对于每一个类,我们可以选出一个 中心点,使得该类中的所有的点到该中心点的距离比到其他类的中心的距离 小。当然实际情况中得到的数据并不能总是保证能满足这样的条件约束,但 这通常已经是我们所能达到的最好的结果,而那些误差通常是固有存在的或 者问题本身的不可分性造成的。例如下图所示的两个

文档评论(0)

ld1556656 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档