数据分析方法相关问题补充.pptVIP

下载本文档

88
0
约1.85万字
约 74页
2017-02-16 发布于湖北
举报
版权申诉

数据分析方法相关问题补充.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析方法相关问题补充

数据分析方法相关问题补充聚类引例例? RA Fisher在1936年发表的Iris数据中，研究某植物的萼片长、宽及花瓣长、宽. x1: 萼片长，x2：萼片宽，x3：花瓣长，x4: 花瓣宽.试对Iris数据进行聚类． 5.1000 3.5000 1.4000 0.2000 4.9000 3.0000 1.4000 0.2000 …… 5.9000 3.0000 5.1000 1.8000 （共150行，分为3类） load fisheriris 用meas命名了取自三个总类 G1,G2和G3，每一类取50个样本。 K-均值聚类模糊均值聚类模糊C均值聚类(fuzzy c-mean cluster)是硬Ｃ均值聚类的推广，硬划分是指一个样品要么属于指定的类，要么不属于该类，二者必居其一. 而模糊聚类则放松此要求，即以一定的概率属于某个指定类. load fisheriris　　　 %导入iris数据 [center u]=fcm(meas,3); 　% meas为150行4列的3个总体的观测数据 index1 = find(u(1,:) == max(u))　　%寻找属于第一类的样品 index2 = find(u(2,:) == max(u))　　%寻找属于第二类的样品 index3 = find(u(3,:) == max(u))　　%寻找属于第三类的样品 [center u]=fcm(meas,3,3) %m=3；模糊减法聚类谱系聚类谱系聚类法是目前应用较为广泛的一种聚类法. 谱系聚类是根据生物分类学的思想对研究对象进行分类的方法.利用这种思想，谱系聚类首先将各样品自成一类，然后把最相似(距离最近或相似系数最大)的样品聚为小类，再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合，随着相似性的减弱，最后将一切子类都聚为一大类，从而得到一个按相似性大小聚结起来的一个谱系图. 谱系聚类命令linkage。调用格式： Z = linkage (Y,method) 输入Y是一个距离矩阵，例如Y是由pdist命令生成的欧氏距离向量。 Method 是一个可选项，如最长距离，最短距离等。 single ---- 最短距离（缺省状态） complete ---- 最长距离 average ---- 类平均距离 weighted ---- 加权平均距离 centroid ---- 重心距离 ‘ward’ ---- 离差平方和距离输出Z是一个矩阵(N-1行，3列)，Z的第一列和第二列均为正整数，第3列表示聚类的水平，每一行表示在相同的聚类水平上将个体合并成新的一类，每生成一个新的类，其编号将在现有基础上增加1。作谱系聚类图命令dendrogram，其调用格式 H=dendrogram(z,N) 输入Z是一个(N-1)行3列的矩阵，由linkage命令生成, N是样本容量。输出产生一个树谱系聚类图，每两类通过线段连接，高度表示类间的距离。% 此命令作出m个样本的图形,缺省时默认为30。输出聚类结果命令cluster，调用格式 T=cluster(z,k) 输入Z是一个(N-1)行3列的矩阵，由linkage命令生成, N是样本容量。k是分类数目. 输出T是一个列向量(N行1列)，每一个元素均为正整数，且最大的数字不超过k,第i行的数字l表示第i个个体属于第l类。如果遇到大样本数据，为了便于得到每一类样本的编号，可以利用如下命令： find(T==l) % 找出属于第l类的样品编号判别分析引例某医院利用心电图检测来对人群进行划分，数据见表. “g=1”表示健康人，“g=2”表示主动脉硬化患者，“g=3”表示冠心病患者，X1 , X2表示测得的心电图中表明心脏功能的两项不相关的指标. 某受试者心电图该两项指标的数据分别为380.20，9.08. 设先验概率按比例分配，进行bayes判别，判定其归属. 多个总体的Bayes判别 A=[261.01 7.36 185.39 5.99 …… 189.59 5.46] x=[380.20 9.08]; G1=A(1:11,:);G2=A(12:18,:);