密度的聚类和网格的两大聚类算法.pptVIP

下载本文档

142
0
约 50页
2017-09-01 发布于安徽
举报

密度的聚类和网格的两大聚类算法.ppt

算法评估—估计聚类趋势 “霍普金斯统计量告诉我们数据集D有多大可能遵循数据空间的均匀分布?”如果D是均匀分布的，则∑yi和∑xi将会很接近，因而H大约为0.5。然而，如果D是高度倾斜的，则∑yi将显著地小于∑xi，因而H将接近0。我们的假设是同质假设——D是均匀分布的，因而不包含有意义的簇。非均匀假设(即D不是均匀分布，因而包含簇)是备择假设。我们可以迭代地进行霍普金斯统计量检验，使用0.5作为拒绝备择假设阈值，即如果H0.5，则D不大可能具有统计显著的簇。 * 算法评估—确定簇数确定数据集中”正确的”簇数是重要的，因为合适的簇数可以控制适当的聚类分析粒度，这可以看做在聚类分析的可压缩性与准确性之间寻找好的平衡点。简单的经验方法：对于n个点的数据集，设置簇数p大约为√n/2.在期望情况下，每个簇大约有√2n个点。肘方法：给点k0,我们可以使用一种像k-均值这样的算法对数据集聚类，并计算簇内方差和—var(k).然后，我们绘制var关于k的曲线。曲线的第一个(或者最显著的)拐点暗示”正确的”簇数。还有一些其他的方法，可以依情况选择合适的方法。 * 算法评估—测定聚类质量对于测定聚类的质量，我们有几种方法可供选择。一般而言，根据是否有基准可用，这些方法可以可以分成两类。这里，基准是一种理想的聚类，通常由专家构建。如果有基准可用，则外在方法可以使用它。外在方法比较

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

密度的聚类和网格的两大聚类算法.pptVIP