Clementine示例聚类分析.docxVIP

下载本文档

212
0
约1.65千字
约 4页
2017-12-13 发布于浙江
举报
版权申诉

Clementine示例聚类分析.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Clementine示例聚类分析

3.聚类分析(cluster.str)聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法（如分类和定性归纳算法）的预处理步骤。Clementine提供了多种可用于聚类分析的模型，包括Kohonen，Kmeans，TwoStep方法。示例Cluster.str是对人体的健康情况进行分析，通过测量人体类胆固醇、Na、Ka等的含量将个体归入不同类别。示例中采用了三种方法对数据进行分类，这里我们重点讨论Kmeans聚类方法。Step一：读入数据和前两步一样，在建立数据流时首先应读入数据文件。该示例中数据文件存储为DRUG1n，我们向数据流程区内添加可变文件（Var. File）结点读入数据。Step二：为数据设置字段格式将Type结点连入数据流，通过编辑该结点对数据字段进行设置。在机器学习方法中聚类被称为无导师的学习。所谓无导师的学习是指事先并不知道数据的分类情况，就像在决策树方法中我们通过已知的某个结点值来建立模型，在聚类方法中所有参与聚类的字段在设置字段格式时其方向(Direction)都将被设置为输入(In)。Step三：生成聚类分析数据流设置好字段格式后我们将Kmeans结点加入到数据流。在编辑Kmeans结点时我们重点需要定义将要其分成的类别数，这个属性在聚类数(Specified number of cluster)中设定。数据流建立好后，右键单击Kmeans结点选择执行该数据流。执行结果以与Kmean同名的结点显示在管理器的Models窗口中，浏览该结点我们能够得到关于分类的信息，如下图所示：Step四：图形化输出各个类的组成情况查看各类中的情况除了浏览结果结点外，我们还可以选择用图形将结果显示出来。4.1将模型的结果结点连入数据流。选中Type结点，双击Models窗口中的Kmeans结果结点将该结点连接到Type后；4.2设置图形输出结点选择Graph栏中的分布图Distribution结点将它连接到Kmeans结果结点后，双击该结点对它进行设置。在Field栏中选择$KM-Kmeans选项，该选项保存了分类结果，即每个样本在聚类后所属的类别。Distribution结点要求Field栏为非数据结点。在Overlay选项中我们选择Drug项，这是为了研究在不同的分类类别里Drug的各个取值的所占比例。运行该数据流我们可得到下图,图中详细的显示了不同Drug类型在各个类别里的分布情况。同样道理，我们也可以对其他属性进行研究。P.S. :在这个聚类分析的案例中我们用到了Kmeans、Distribution结点。