数据管理--聚类分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 对点之间距离的定义 * 对点之间距离的定义 * 注意左下角的复选框,选择与否情况不同 * 分类数 3 最大迭代次数 10 * * * 可以点击图形中的线,点右键调整其属性,包括Pattern—line pound * * * * 正太分布、对数正态分布、泊松分布 * * * * * * 反映了每个变量的取值在三个类中的分布情况。 * * * * 各聚类变量在各类中的平均值 Members Probabilities 表格展示了每个样本点的最终分类结果、所有聚类变量的取值、该样本点分到该类中的权数。 Graph of distributions 通过交叉验证寻找最佳聚类数 应用要点: 1)交叉验证的折数 v value 2) 指定 k 的取值范围 [a, b] 3) 距离判定条件:增大 k 值或停止 da 当距离 da 大于某个标准时,增大 k 值; 当距离 da 小于某个标准时,停止 交叉验证参数设置 。 交叉验证参数输出结果 展示 交叉验证参数输出结果-2 展示 * * Cm表示第m 个子总体。 * 更新高斯分布的二关键参数μ和σ * 象windows操作一样,按住Ctrl键,进行多个变量的分别选择。 * 选择值为文本型或文本标签的变量 当前分析所选变量中有“text”类型或包含文本标签 参考:帮助中关于“变量类型”的内容 * 对要聚类的数据源的性质的定义:Raw data 原始数据,或称数据矩阵(Data matrix) Distance matrix 距离矩阵,或称“相异度矩阵” Ref. Jiawei Han 数据挖掘概念与技术 P253 * 对聚类对象的选择,是对行聚类还是对列聚类 * 对类与类之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * Linkage distance: 该列反映了每一步合并类时被合并的类之间的距离,右侧显示合并之后的类中含有哪几个个体。 * 对点之间距离的定义 * 反映了对称矩阵的特征。 * 均值:该样本所有数值型数据的均值 标准差:该样本所有数值型数据的标准差 * 对点之间距离的定义 * 对点之间距离的定义 * 对点之间距离的定义 * * 下图说明解释:对角线下是距离,对角线上是平方距离 * * * 类之间距离的定义 点之间距离的定义 结果输出窗口 水平层级树状图—矩形形状 垂直层级树状压缩图—冰挂形状 在图形上用右键菜单 Amalgamation Schedule 对聚类过程的详细描述 合并过程中类与类之间的距离 Distance matrix 距离矩阵 Descriptive Statistics 变量均值及标准差 例3.2 鸢尾花的分类问题 根据花萼的长度(sepal length)和宽度(sepal width),花瓣的长度(petal length)和宽度(petal width)把鸢尾花分为三类。 运用基于划分的聚类方法:K-means 进行分析。 选取聚类变量 基于划分的聚类(K-means)参数设定 指定分为 k 类 指定最大迭代次数 初始凝聚点选择方法 K-means聚类结果输出窗口 Summary: Cluster means Euclidean distances between clusters 反映各个聚类变量在各类中的均值 输出各类之间的距离 Analysis of Variance 输出每个聚类变量按照聚类类别的方差分析结果, 四个聚类变量在不同类中取值均有显著差异 各个聚类变量在不同类中取值的均值 Descriptive Statistics for each Cluster 共3张表,每张表展示各聚类变量的一些描述统计量, 包括均值、标准差以及方差。 例3.3 用Data-mining菜单对“鸢尾花”案例的分析 选择聚类变量 聚类参数(细节)设置 总的输出结果 Cluster Means 输出三个类别中心位置的各变量取值、各类中包含个体的数目以及在总体中所占的比例。 Cluster Distances 表示类与类之间的距离 Graph of continuous variable means 反映了四个变量在各类中的均值,第一类与另二类差别较大。 Graph of distributions 展示了该变量取值在不同类别之间分布的不同。 例3.4 用EM聚类算法对鸢尾花进行分析 。 Random Seed etc. “Random seed” 表示在初始参数设定时的随机种子, 改变随机种子即改变了初始参数, 聚类结果也可能相应改变 “Min

文档评论(0)

wpxuang12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档