- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Iris数据的结果分类Iris数据的结果分类
Iris数据的结果分类
摘 要 本文主要讨论了用快速聚类法对R.A.Fisher的Iris数据分类的问题。
针对问题一,由样本数目较大且已知分类数目为3,用快速聚类法并用欧式距离对样本分类。通过SAS软件快速聚类得到样本分类(见文中表1)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类的均值及标准差分析检验分类的合理性。
针对问题二,用快速聚类法并用绝对距离对样本分类。通过SAS软件快速聚类得到样本分类(见文中表6)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均值绝对值离差分析检验分类的合理性
针对问题三,用快速聚类法并用距离()对样本分类。通过SAS软件快速聚类得到样本分类(见文中表11)。根据分类表得到这三类各观测值的取值范围,结合每一类的聚点得到结论如下:相比第2、3两类,第1类属于萼片短、萼片较宽、花瓣短、花瓣窄的植物;相比第1、3两类,第2类为萼片长、萼片较宽、花瓣长、花瓣宽的植物;相比第1、2两类,第3类是萼片较长、萼片较宽、萼片较长、花瓣较宽的植物,最后通过聚类与最终聚点的均幂根离差分析检验分类的合理性。
聚类分析,是研究分类问题的一种多元统计方法,被广泛应用在经济、社会、人口等诸多方面。
关键词 快速聚类分析;欧氏距离;绝对距离;距离
一、问题重述
R.A.Fisher在1936发表的Iris数据中,研究某植物的萼片长、宽及花瓣长、宽。:萼片长,:萼片宽,:花瓣长,:花瓣宽。R.A.Fisher取了该植物3个种类,每个种类取50个样品,共150个样品。数据如表1(见附录)
问题一:用快速聚类法将表1数据分3类;
问题二:用快速聚类法并用绝对距离分3类,写出分类结果;
问题三:在题一、题二基础上,用快速聚类法并采用距离分3类,写出分类结果。
二、问题分析
针对问题一,采用快速聚类法将表1(见附录)数据分为3类。快速聚类法的步骤:选择聚点,可以通过以下三种方法:经验选择、最小最大原则和将样品随机分为K类,以每类的重心作为聚点。聚点是一批有代表性的样品,它的选择决定了初始分类,分类数给定后,选取过程会根据递推公式算出初始聚点;然后计算各数据与聚点的欧氏距离并分类,检验分类是否合理,不合理返回到第二步初始分类,修改分类,如此反复循环,直至分类合理。
针对问题二,与题一相似,首先先确定数据的聚点,采用绝对距离聚类分析时,最终聚点应是每一类的中位向量,确定聚点后,进行初步分类,然后计算数据间的绝对距离,根据各数据与聚点间的绝对距离进行分类。检验分类是否合理,修改分类,直至合理为止。
针对问题三,采用快速聚类法并利用距离将表1数据分为3类。与题一相似,先选择聚点,进行初始分类。采用距离进行快速聚类分析时,最终聚点是每一类的中心向量,代入距离公式,求出各数据与聚点的距离,并按大小分类。
三、基本假设
1、假设所有数据都有效;
2、假设所有花无重大变异,即无较大差异;
3、假设该植物样品的选取具有随机性,无人为主观干扰。
四、符号表示
符号 意义 快速聚类法采用欧氏距离下的聚点 快速聚类法利用绝对距离下的聚点 快速聚类法采用距离的聚点 快速聚类法按绝对距离的最终聚点 快速聚类法按距离的最终聚点 五、模型建立与求解
随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。只凭经验或专业知识对研究对象定性分类,这往往是不够的,有时不能进行确切的分类。于是数学被引进分类学中,形成了数值分类学。随着多元数据分析方法研究的深入,在数值分类学中形成了聚类分析这一学支,聚类分析是多远数据分析的重要组成部分([1])。本文样本量较大,将采用聚类分析法中快速聚类法对数据分类。
5.1快速聚类法将表1数据分为3类
本文数据样本容量较大,用快速聚类法分类。快速聚类是快速有效的聚类方法。快速聚类法先将样本数据粗略地分一下类,然后将按某种原则进行修正,直至分类比较合理为止。快速聚类的大致过程如图1所示
图1 快速聚类法步骤
用SAS系统中的proc astclus过程(见附录)得到以下结果。
快速聚类法按欧氏距离把表1数据分为3类,初始聚点是:
,,
它们对
您可能关注的文档
最近下载
- XX项目成本分析汇报ppt.pptx VIP
- 海洋生物科普知识PPT课件.ppt VIP
- 优秀教研组、备课组评选考核办法.pdf VIP
- National Theatre Live: Prima Facie《初步举证(2022)》完整中英文对照剧本.docx VIP
- 中国COP环烯烃共聚物行业市场规模及投资前景预测分析报告.docx
- 化疗后骨髓抑制的护理优秀课件.ppt VIP
- 提高糖尿病患者胰岛素笔注射的正确率.pptx VIP
- 初中道德与法治课程中法治教育模式创新与实践研究教学研究课题报告.docx
- 文学德育功能的学理分析.pdf VIP
- 十堰xx老旧小区改造项目实施方案(参考范文).docx
文档评论(0)