- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 二、选择凝聚点和确定初始分类 凝聚点就是一批有代表性的点,是欲形成类的中心。凝聚点的 选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点 的不同选择,其最终分类结果也将出现不同。故选择时要慎重.通 常选择凝聚点的方法有: (1) 人为选择,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为凝聚点。 (2) 将数据人为地分为A类,计算每一类的重心,就将这些重心作为凝聚点。 * (3) 用密度法选择凝聚点。以某个正数d为半径,以每个样品为球心,落在这个球内的样品数(不包括作为球心的样品)就叫做这个样品的密度。计算所有样品点的密度后,首先选择密度最大的样品作为第一凝聚点,并且人为地确定一个正数D(一般D> d,常取D=2d)。然后选出次大密度的样品点,若它与第一个凝 聚点的距离大于D,则将其作为第二个凝聚点;否则舍去这点,再 选密度次于它的样品。这样,按密度大小依次考查,直至全部样品考查完毕为止.此方法中,d要给的合适,太大了使凝聚点个数太 少,太小了使凝聚点个数太多。 * (5) 随机地选择,如果对样品的性质毫无所知,可采用随机数表来选择,打算分几类就选几个凝聚点。或者就用前A个样品作为凝聚点(假设分A类)。这方法一般不提倡使用。 (4) 人为地选择一正数d,首先以所有样品的均值作为第一凝聚点。然后依次考察每个样品,若某样品与已选定的凝聚点的距 离均大于d,该样品作为新的凝聚点,否则考察下一个样品。 * 例 我国经济发展的总目标是到2000年人民生活达到小康标准,因此,了解各地区目前对小康生活质量的实现程度。对各地区实现小康生活质量的状况进行综合评价,对各级政府部门具有重要意义。数据是1990年全国30个省在经济(jj)、教育(jy)、健康(jk)和居住环境(jz)四个方面对小康标准已经实现的程度,1表示已经达到或超过小康水平,0表示低于或多或少刚达到温饱水平。希望利用该数据对15个地区进行分类研究。 * ? jj jy jk jz 类别 距离 beijngsh 0.7258 0.9413 1.0000 0.5000 1 0.29550 anghai 0.5346 0.9848 1.0000 0.5000 1 0.14909 ianjin 0.3246 0.9733 1.0000 0.5000 1 0.16173 henna 0.2301 0.4621 1.0000 1.0000 2 0.22252 ejiang 0.5025 0.2374 1.0000 0.8882 2 0.34448 jilin 0.3446 0.7755 0.8280 0.5000 1 0.18212 elongji 0.2891 0.7835 0.8080 0.5000 1 0.22322 fujian 0.1406 0.3524 1.0000 0.7102 2 0.27468 uangxi 0.0939 0.6498 0.4435 1.0000 2 0.51560 anhui 0.1104 0.0802 1.0000 0.9545 2 0.34050 ingxia 0.2708 0.3127 0.5425 0.9053 2 0.29445 hunan 0.0618 0.5687 0.4385 0.5000 3 0.41704 jiangxi 0.0549 0.3042 0.3520 0.6155 3 0.15540 inghai 0.0751 0.0118 0.0000 0.8258 3 0.37720 uizhou 0.0286 0.0600 0.0590 0.5000 3 0.25968 * 三、有序样本聚类法 (一)功能范畴与数据类型 有序样本聚类法又称为最优分段法。该方法是由费歇在1958年提出的。它主要适用于样本由一个变量描述的情况。或者将多变量综合成为一个变量来分析。 设 是样本点构成的集合,样本点 在函数 上的取值为 。若 ,则将视为一类。不妨假设 。要将 分为 类;
文档评论(0)