数据管理--聚类分析.ppt

下载文档 降价啦

2
0
约1.08万字
约 101页
2017-09-01 发布于安徽
举报
版权申诉
保障服务

数据管理--聚类分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* 对点之间距离的定义 * 对点之间距离的定义 * 注意左下角的复选框，选择与否情况不同 * 分类数 3 最大迭代次数 10 * * * 可以点击图形中的线，点右键调整其属性，包括Pattern—line pound * * * * 正太分布、对数正态分布、泊松分布 * * * * * * 反映了每个变量的取值在三个类中的分布情况。 * * * * 各聚类变量在各类中的平均值 Members Probabilities 表格展示了每个样本点的最终分类结果、所有聚类变量的取值、该样本点分到该类中的权数。 Graph of distributions 通过交叉验证寻找最佳聚类数应用要点： 1）交叉验证的折数 v value 2) 指定 k 的取值范围 [a, b] 3) 距离判定条件：增大 k 值或停止 da 当距离 da 大于某个标准时，增大 k 值；当距离 da 小于某个标准时，停止交叉验证参数设置。交叉验证参数输出结果展示交叉验证参数输出结果-2 展示 * * Cm表示第m 个子总体。 * 更新高斯分布的二关键参数μ和σ * 象windows操作一样，按住Ctrl键，进行多个变量的分别选择。 * 选择值为文本型或文本标签的变量当前分析所选变量中有“text”类型或包含文本标签参考：帮助中关于“变量类型”的内容 * 对要聚类的数据源的性质的定义：Raw data 原始数据，或称数据矩阵（Data matrix) Distance matrix 距离矩阵，或称“相异度矩阵” Ref. Jiawei Han 数据挖掘概念与技术 P253 * 对聚类对象的选择，是对行聚类还是对列聚类 * 对类与类之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * Linkage distance: 该列反映了每一步合并类时被合并的类之间的距离，右侧显示合并之后的类中含有哪几个个体。 * 对点之间距离的定义 * 反映了对称矩阵的特征。 * 均值：该样本所有数值型数据的均值标准差：该样本所有数值型数据的标准差 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * * 下图说明解释：对角线下是距离，对角线上是平方距离 * * * 类之间距离的定义点之间距离的定义结果输出窗口水平层级树状图—矩形形状垂直层级树状压缩图—冰挂形状在图形上用右键菜单 Amalgamation Schedule对聚类过程的详细描述合并过程中类与类之间的距离 Distance matrix 距离矩阵 Descriptive Statistics 变量均值及标准差例3.2 鸢尾花的分类问题根据花萼的长度(sepal length)和宽度(sepal width)，花瓣的长度(petal length)和宽度(petal width)把鸢尾花分为三类。运用基于划分的聚类方法：K-means 进行分析。选取聚类变量基于划分的聚类(K-means)参数设定指定分为 k 类指定最大迭代次数初始凝聚点选择方法 K-means聚类结果输出窗口 Summary: Cluster means Euclidean distances between clusters 反映各个聚类变量在各类中的均值输出各类之间的距离 Analysis of Variance 输出每个聚类变量按照聚类类别的方差分析结果, 四个聚类变量在不同类中取值均有显著差异各个聚类变量在不同类中取值的均值 Descriptive Statistics for each Cluster 共3张表，每张表展示各聚类变量的一些描述统计量, 包括均值、标准差以及方差。例3.3 用Data-mining菜单对“鸢尾花”案例的分析选择聚类变量聚类参数(细节)设置总的输出结果 Cluster Means 输出三个类别中心位置的各变量取值、各类中包含个体的数目以及在总体中所占的比例。 Cluster Distances 表示类与类之间的距离 Graph of continuous variable means 反映了四个变量在各类中的均值，第一类与另二类差别较大。 Graph of distributions 展示了该变量取值在不同类别之间分布的不同。例3.4 用EM聚类算法对鸢尾花进行分析。 Random Seed etc. “Random seed” 表示在初始参数设定时的随机种子, 改变随机种子即改变了初始参数, 聚类结果也可能相应改变 “Min