第一章 化学信学-绪论.pptVIP

  • 9
  • 0
  • 约1.19万字
  • 约 46页
  • 2017-06-16 发布于贵州
  • 举报
第一章 化学信学-绪论

1.3.3.3 聚类(Clustering) 聚类分析(CA)是由Tryon在1939第一个使用,事实上CA 包含了大量的分类算法。一个最普通的是如何使用分类学将实验数据分成有意义的不同类别。CA的方法就是为了解决这个问题。目前,已有许多的CA算法,总的可以分成两类:即分级聚类和不分级聚类。分级聚类将研究的对象按树状结构进行重新安排。 Javis-Patrick是最早使用CA对化学结构进行聚类的。正确的聚类分析要依靠下面三点: (1)选用适当的结构表示;(2)选用合适的数据标准化方法;(3)选择合适的聚类分析算法和适当的参数设置。当大量的实验数据的实验条件和量刚不一样时,数据标准化是这些数据能够进行比较的基础。 线性标准化: 比例标准化: Z-score标准化: 一般地,线性标准化使用的较多,Z-score标准化必须要求xi 符合Gaussian 分布。聚类分析的一个缺点是在进行聚类分析之前必须先确定数据应该分成几类,并且不容许出现奇异数据。 1.3.3.4 分割聚类(Partition clustering) 分割算法也有许多种,如二杈树,非参数法等。由于很难使用回归或参数分类法对奇异数据类型进行分类,过多的描述符也使得聚类分析无法进行,一般就用二杈树方法解决这类问题。目前最常用的二杈树算法是递归分割(recursive p

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档