- 142
- 0
- 约 50页
- 2017-09-01 发布于安徽
- 举报
算法评估—估计聚类趋势 “霍普金斯统计量告诉我们数据集D有多大可能遵循数据空间的均匀分布?”如果D是均匀分布的,则∑yi和∑xi将会很接近,因而H大约为0.5。然而,如果D是高度倾斜的,则∑yi将显著地小于∑xi,因而H将接近0。 我们的假设是同质假设——D是均匀分布的,因而不包含有意义的簇。非均匀假设(即D不是均匀分布,因而包含簇)是备择假设。我们可以迭代地进行霍普金斯统计量检验,使用0.5作为拒绝备择假设阈值,即如果H0.5,则D不大可能具有统计显著的簇。 * 算法评估—确定簇数 确定数据集中”正确的”簇数是重要的,因为合适的簇数可以控制适当的聚类分析粒度,这可以看做在聚类分析的可压缩性与准确性之间寻找好的平衡点。 简单的经验方法:对于n个点的数据集,设置簇数p大约为√n/2.在期望情况下,每个簇大约有√2n个点。 肘方法:给点k0,我们可以使用一种像k-均值这样的算法对数据集聚类,并计算簇内方差和—var(k).然后,我们绘制var关于k的曲线。曲线的第一个(或者最显著的)拐点暗示”正确的”簇数。 还有一些其他的方法,可以依情况选择合适的方法。 * 算法评估—测定聚类质量 对于测定聚类的质量,我们有几种方法可供选择。一般而言,根据是否有基准可用,这些方法可以可以分成两类。这里,基准是一种理想的聚类,通常由专家构建。 如果有基准可用,则外在方法可以使用它。外在方法比较
您可能关注的文档
- 华中科技大学电信系《电路理论》课件-电路复习课.pdf
- 化学:1.1《化工生产过程中基本问题》(课件)(新人教版选修2).ppt
- 化学:2.1《一种重要混合物——胶体》课件(鲁科版必修1).ppt
- 化学:3.2.1《来自石油和煤两种基本化工原料—乙烯》课件(新人教版必修2).ppt
- 化学:3.2.2《来自煤和石油两种基本化工原料1》苯.ppt
- 化学:3.2.2《来自煤和石油两种基本化工原料1》课件(新人教版必修2).ppt
- 化学必修2《来自石油和煤两种基本化工原料》课件.ppt
- 化学方程式试卷汇编.pdf
- 化学修饰方法对聚乙二醇功能化碳纳米管影响.pdf
- 化学药物和生物制品临床试验生物统计学技术指导原则.pdf
原创力文档

文档评论(0)