- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
K-mean在clementine中的实现
K-mean在clementine中的实现 报告人:杨晨 指导教师:谢邦昌 日期:2007年11月19日 K-means简介 K-means简介 基本思想: k-means是聚类的一种,它根据最终分类的个数K随机的选取K个初始的聚类中心,不断地迭代,直到达到目标函数的最小值,即得到最终的聚类结果,将数据分为k类。 K-means简介 目标函数通常采取平方误差准则,即: 其中,E表示所有聚类对象的平方误差的和,p是聚类对象, 是类 的各聚类对象(样本)的平均值,即: 其中, 表示类 的聚类对象的数目。 K-means简介 因为在每一次迭代中,每一个点要计算和各聚类中心的距离,并将距离最近的聚类作为该点所属的类,所以k-平均方法的计算复杂度为o(knt),其中k表示聚类数,n表示聚类对象的数目,t是迭代次数。 K-means简介 可以将k-means的迭代过程形象的表述如下: 1.先决定将观测分为k类。 2.选取k个点为“种子”。 3.根据各个样本点到“种子”的距离,将样本分为k类。 4.再以每一类的均值为新的“种子”,重新聚类。 5.如此循环,最终将观测分为k类。 K-means简介 缺点: k-means是一种爬山式的搜索算法,这种算法简单,快速。然而,它对初始值敏感,选择不同的初始值,可能会导致不同的聚类结果,所以,模型的生成在一定程度上取决于观测数据的顺序,对数据重新排序,然后重新建立模型,可能会生成不同的最终聚类模型。 K-means简介 k-均值算法是基于梯度下降的算法,由于目标函数局部极小值点的存在,以及算法的贪心性,因此算法可能会陷入局部最优,而无法达到全局最优。 优点:建立K-means模型不需要分组数据,对于大型数据集,K-means模型常常是最快的分群方法。 软件使用与案例分析 在clementine中k-means实现:(通过案例来展示) 1.读入数据 该示例中的文件存储为drink,我们向数据流程区添加spss.file结点读入数据,此文件包括四个变量,均为数值型变量。 2.对数据进行设置 将type结点连入数据流,通过编辑该结点对数据字段进行设置。 在clementine中聚类被称做无导师的学习,所谓的无导师的学习是指事先并不知道数据的分类情况,因此在k-means中所有参与聚类的字段在设置时其direction都被设为In.这是应该要注意的. 软件使用与案例分析 3.生成聚类分析数据 将k-means结点加入数据流。 双击k-means结点,对k-means结点的属性进行编辑,可以看到如下界面(熟悉clementine的用户可以选择expert选项进行编辑,此选项在后面将提到): 软件使用与案例分析 软件使用与案例分析 模型名称(model name):制定要产生的模型名称. *自动(Auto):选择该选项后,模型名称将为“Kmeans”。这是默认的设置。 *自定义(Custom):选择该选项为可以在后面输入用户定义的模型名称。 使用分割数据(User partitioned data):如果用户定义了分割数据集,选择训练集作为建模数据集,并利用测试集对模型评价 软件使用与案例分析 指定聚类数(Specified number of clusters):指定生成的群数,默认值为5,我们选定分类数为3。 生成距离字段(Generate distance field):如果选择了这一项,生成模型将包括一个具有每个记录与其所属聚类中心距离的字段。 显示聚类邻近距离(Show cluster proximity):选择该选项以在生成模型的输出结果中包含聚类中心距离。 软件使用与案例分析 显示聚类(Cluster display):指定生成聚类类别字段的格式。类别可以用String(字符)表示,使用指定的Label prefix(卷标前缀)(如“cluster1”、“cluster2”),或者用Number(数字)表示。 优化(Optimize):提高算法效率的选项,具体有两种方式: *速度(speed):选择Speed使算法执行加快,但是占用更多的内存。 *内存(memory):选择Memory使执行速度减慢,但是节约内存。 软件使用与案例分析 对于详细了解K-means操作的用户,高级选项可以使用户调整建模进程。要使用高级选项,将Expert页签中的模式设置为Expert。 软件使用与案例分析 软件使用与案例分析 停止条件(Stop
文档评论(0)