聚类分析理及步骤.docVIP

  • 1
  • 0
  • 约2.52千字
  • 约 5页
  • 2019-08-07 发布于浙江
  • 举报
聚类分析理及步骤

聚类分析原理及步骤 ——将未知数据按相似程度分类到不同的类或簇的过程 传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。 典型应用 动植物分类和对基因进行分类 在网上进行文档归类来修复信息 帮助电子商务的用户了解自己的客户,向客户提供更合适 的服务 主要步骤 数据预处理——选择数量,类型和特征的标度((依据特征选择和抽取)特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类)和将孤立点移出数据(孤立点是不依附于一般数据行为或模型的数据) 为衡量数据点间的相似度定义一个距离函数——既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来

文档评论(0)

1亿VIP精品文档

相关文档