- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 聚类分析;2015/11/6;;;;;聚类分析原理—引例;分成四组
每组里花色相同
组与组之间花色相异;分成四组
符号相同的牌为一组;分成两组
颜色相同的牌为一组;分成两组
大小相近的牌为一组;;;;距离计算—连续型属性;;选用的度量单位直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下方法进行标准化:
最大-最小值方法
z-score方法
变量指数法;a’=(a-min)/(max-min);距离计算—连续型属性;
计算均值绝对偏差
其中
计算标准化的度量值(z-score)
;;距离计算—连续型属性;
;距离计算—离散型属性;距离计算—离散型属性;二元变量;非对称的
如果变量的两个状态不是同样重要的,则称该变量是不对称的。将比较重要通常也是出现概率比较小的状态编码为1,将另一种状态编码为0。对于非对称的二元变量,采用Jaccard系数来评价两个对象之间的相异度
;二元变量的相异度计算;标称变量(Nominal Variables);顾客id ;顾客id ;;聚类算法;实例;划分聚类方法;k-means算法,也被称为k-平均或k-均值算法,是一种使用最广泛的聚类算法。根据个体到每个类中心的距离进行划分,而类的中心用类中所有个体的均值来度量。
1. Set k as an integer.
2. Select k distinct records as initial means, each representing a cluster.
3. For each record in data, calculate the squared Euclidean distances between it and the means. Assign the record to the cluster whose mean is the nearest to the record.
4. After all records are assigned to a cluster, calculate the new mean for each cluster as the average of all records in the cluster.
5. If the new means equal to the previous means, stop, otherwise, go to Step 2.;K-means聚类示例;输入:类的数目k和包含n个对象的数据库。
输出:k个类,使平方误差准则最小。
(1)assign initial value for means; /*任意选择k个对象作为初始的类中心*/
(2) REPEAT
(3) FOR j=1 to n DO assign each xj to the closest clusters;
(4) FOR i=1 to k DO / *更新类平均值*/
Compute /*计算准则函数E*/
(6) UNTIL E不再明显地发生变化。;实例;迭代 平均值 平均值 产生的新类 新平均值 新平均值
次数 (类1) (类2) (类1) (类2)
1 (1,1) (1,2)
2
3
4
;迭代 平均值 平均值 产生的新类 新平均值 新平均值
次数 (类1) (类2) (类1) (类2)
1 (1,1) (1,2) {1,2},{3,4,5,6,7,8} (1.5,1) (3.5,3)
;第二次迭代:通过平均值调整对象的所在的类,重新聚类,即将所有点按离平均值点(1.5,1)、(3.5,3)最近的原则重新分配。得到两个新的类:{1,2,3,4}和{5,6,7,8}。重新计算类平均值点,得到新的平均值点为(1.5,1.5)和(4.5,3.5)。;第三次迭代:将所有点按离平均值点(1.5,1.5)和(4.5,3.5)最近的原则重新分配,调整对象,类仍然为{1,2,3,4}和{5,6,7,8},发现没有出现重新分配,而且准则函数收敛,程序结束。;2015/11/6;2015/11/6;k
文档评论(0)