多元统计之聚类分析.pptVIP

  • 7
  • 0
  • 约 34页
  • 2016-12-02 发布于湖北
  • 举报
本章内容 10.1 聚类分析的一般问题 10.2 层次聚类 10.3 K-Means聚类 例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。 聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚类结果。对“亲疏”程度的测度一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数等,个体间的差异程度通常通过某种距离来测度。 为定义个体间的距离应先将每个样本数据看成k维空间的一个点,通常,点与点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。 2、计数变量个体间距离的计算方式 卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离 3、二值(Binary)变量个体间距离的计算方式 简单匹配系数(Simple Matching) 雅科比系数(Jaccard) 10.3 K-Means聚类 10.3.1 K-Means聚类分析的核心步骤 K-Means聚类也称快速聚类,仍将数据看成k维空间上的点,仍以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率,其核心步骤是: 第一,指定聚类数目K 第二

文档评论(0)

1亿VIP精品文档

相关文档