第六讲聚类及贝叶斯分类教材.pptVIP

  • 7
  • 0
  • 约 48页
  • 2016-12-31 发布于湖北
  • 举报
聚类分析的基本思想是认为所研究的数据集中的数据或者属性之间存在着程度不同的相似性。于是从数据集中取出一批数据,具体找出一些能够度量数据值之间或者属性之间相似程度的量,以这些量为中心作为划分类型的依据,把一些相似程度较大的数据或属性聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有数据或属性都聚合完毕,把不同的类型一一划分出来。 聚类分析示例数据集 比较常用的距离有 绝对值距离 欧氏距离 明斯基距离 K均值算法 K均值(k-means)是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时,可很好地实现数据的聚类分析。 基本思想 (1)首先,随机选择k个数据点做为聚类中心; (2)然后,计算其它点到这些聚类中心点的距离,通过对簇中距离平均值的计算,不断改变这些聚类中心的位置,直到这些聚类中心不再变化为止。 K均值的流程 K均值算法 优势 (1)算法简单; (2)执行和收敛过程相对较快,是一种常见的聚类算法。 局限性 (1)算法要求簇是密集的、簇和簇之间的差异比较大; (2)数据集的平均值的计算必须有适当的定义; (3)对于某些孤立数据和“噪声”点敏感等。 Na?ve Bayes算法 微软朴素贝叶斯算法是SAS中最简单的算法,通常用作理解数据基本分组的起点,说

文档评论(0)

1亿VIP精品文档

相关文档