K-mean在clementine中的实现.ppt

下载文档 降价啦

68
0
约3.64千字
约 30页
2018-06-01 发布于浙江
举报
版权申诉
保障服务

K-mean在clementine中的实现.ppt

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

K-mean在clementine中的实现

K-mean在clementine中的实现报告人：杨晨指导教师:谢邦昌日期：2007年11月19日 K-means简介 K-means简介基本思想： k-means是聚类的一种，它根据最终分类的个数K随机的选取K个初始的聚类中心，不断地迭代，直到达到目标函数的最小值，即得到最终的聚类结果，将数据分为k类。 K-means简介目标函数通常采取平方误差准则，即：其中，E表示所有聚类对象的平方误差的和，p是聚类对象，是类的各聚类对象（样本）的平均值，即：其中，表示类的聚类对象的数目。 K-means简介因为在每一次迭代中，每一个点要计算和各聚类中心的距离，并将距离最近的聚类作为该点所属的类，所以k-平均方法的计算复杂度为o(knt),其中k表示聚类数,n表示聚类对象的数目,t是迭代次数。 K-means简介可以将k-means的迭代过程形象的表述如下： 1.先决定将观测分为k类。 2.选取k个点为“种子”。 3．根据各个样本点到“种子”的距离，将样本分为k类。 4．再以每一类的均值为新的“种子”，重新聚类。 5．如此循环，最终将观测分为k类。 K-means简介缺点： k-means是一种爬山式的搜索算法，这种算法简单，快速。然而，它对初始值敏感，选择不同的初始值，可能会导致不同的聚类结果，所以，模型的生成在一定程度上取决于观测数据的顺序，对数据重新排序，然后重新建立模型，可能会生成不同的最终聚类模型。 K-means简介 k-均值算法是基于梯度下降的算法，由于目标函数局部极小值点的存在，以及算法的贪心性，因此算法可能会陷入局部最优，而无法达到全局最优。优点：建立K-means模型不需要分组数据,对于大型数据集，K-means模型常常是最快的分群方法。软件使用与案例分析在clementine中k-means实现：（通过案例来展示） 1．读入数据该示例中的文件存储为drink,我们向数据流程区添加spss.file结点读入数据，此文件包括四个变量，均为数值型变量。 2．对数据进行设置将type结点连入数据流，通过编辑该结点对数据字段进行设置。在clementine中聚类被称做无导师的学习，所谓的无导师的学习是指事先并不知道数据的分类情况，因此在k-means中所有参与聚类的字段在设置时其direction都被设为In.这是应该要注意的. 软件使用与案例分析 3．生成聚类分析数据将k-means结点加入数据流。双击k-means结点，对k-means结点的属性进行编辑，可以看到如下界面（熟悉clementine的用户可以选择expert选项进行编辑,此选项在后面将提到）: 软件使用与案例分析软件使用与案例分析模型名称(model name):制定要产生的模型名称. *自动（Auto）:选择该选项后，模型名称将为“Kmeans”。这是默认的设置。 *自定义（Custom）：选择该选项为可以在后面输入用户定义的模型名称。使用分割数据（User partitioned data）：如果用户定义了分割数据集，选择训练集作为建模数据集，并利用测试集对模型评价软件使用与案例分析指定聚类数（Specified number of clusters）：指定生成的群数，默认值为5，我们选定分类数为3。生成距离字段（Generate distance field）：如果选择了这一项，生成模型将包括一个具有每个记录与其所属聚类中心距离的字段。显示聚类邻近距离（Show cluster proximity）：选择该选项以在生成模型的输出结果中包含聚类中心距离。软件使用与案例分析显示聚类（Cluster display）：指定生成聚类类别字段的格式。类别可以用String（字符）表示，使用指定的Label prefix（卷标前缀）（如“cluster1”、“cluster2”），或者用Number（数字）表示。优化（Optimize）：提高算法效率的选项，具体有两种方式： *速度（speed）：选择Speed使算法执行加快，但是占用更多的内存。 *内存（memory）：选择Memory使执行速度减慢，但是节约内存。软件使用与案例分析对于详细了解K-means操作的用户，高级选项可以使用户调整建模进程。要使用高级选项，将Expert页签中的模式设置为Expert。软件使用与案例分析软件使用与案例分析停止条件（Stop