- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验二聚类与判别 哈尔滨理工大学数学建模
《数学建模》实验指导书
刘 凤 秋
哈理工应科院应用数学系
2008年9月
实验二 聚类与判别
实验项目名称:利用Matlab进行聚类和判别分析
实验项目性质:普通实验
所属课程名称:数学建模
实验参考资料:
实验计划学时:4
一、实验目的:
1、利用MATLAB进行聚类分析和判别分析;
2、通过实际例题学习用聚类和判别分析解决相关简单的实际问题;
3、理解判别分析误判率含义,应用判别模型进行预测。
二、实验内容
2.1 聚类分析
1、工厂产品问题(教材220页例题9.3);
2、工人身高体重问题 (教材239页习题9.1);
2.2 判别分析
雨天非雨天问题(教材231页例9.5);
蠓的分类 (教材234页);
三、实验方法、步骤及结果分析简要提示
3.1 基础知识
一、聚类
在MATLAB中通过pdist、linkage、dendrogram、cluster等函数来完成。层次聚类的过程:
确定对象(实际上就是数据集中的每个数据点)之间的相似性,实际上就是定义一个表征对象之间差异的距离,例如最简单的平面上点的聚类中,最经常使用的就是欧几里得距离。
Y = pdist(X,distance)根据距离distance来计算X中各点之间的距离Y。
其中X为数据集
对于具有M个点的数据集X,pdist之后的Y将是具有M*(M-1)/2个元素的行向量。
Y=pdist(X)
X=randn(6,2)
X =
-0.4326 1.1892
-1.6656 -0.0376
0.1253 0.3273
0.2877 0.1746
-1.1465 -0.1867
1.1909 0.7258
plot(X(:,1),X(:,2),bo) %画出X的散点图(图1)
图1
Y=pdist(X) %计算X的第一个点与与2-6点、第2点与3-6点,......距离
Y =
Columns 1 through 1
1.7394 1.0267 1.2442 1.5501 1.6883 1.8277 1.9648 0.5401 2.9568 0.2228 1.3717 1.1377 1.4790 1.0581 2.5092
例子中X数据集可以看作包含6个平面数据点,pdist之后的Y是一个行向量,15个元素分别代表X的第1点与2-6点、第2点与3-6点,......这样的距离。个元素的行向量。
注:(1)Y这样的显示虽然节省了内存空间,但对用户来说不是很易懂如果需要对这些距离进行特定操作的话,也不太好索引。MATLAB中可以用squareform把Y转换成方阵形式,方阵中i,j位置的数值就是X中第i和第j点之间的距离,显然这个方阵应该是个对角元素为0的对称阵。
squareform(Y)
ans =
0 1.7394 1.0267 1.2442 1.5501 1.6883
1.7394 0 1.8277 1.9648 0.5401 2.9568
1.0267 1.8277 0 0.2228 1.3717 1.1377
1.2442 1.9648 0.2228 0 1.4790 1.0581
1.5501 0.5401 1.3717 1.4790 0 2.5092
1.6883 2.9568 1.1377 1.0581 2.5092 0
注:(2)pdist可以使用多种参数,指定不同的距离算法。另外,当数据规模很大时,可以想象pdist产生的Y占用内存将是很吓人的,比如X有10k个数据点那么X占10k*8*2Bytes=160K,这看起来不算啥,但是pdist后的Y会有10k*10k/2*8Bytes=400M用MATLAB的层次聚类来处理大规模数据,大概是很不合适的。
2、聚类树的产生
确定好了对象间的差异度(距离)后,就可以用Z=linkage(Y)产生层次聚类树。
Z=linkage(Y)
Z =
3.0000 4.0000 0.2228
2.0000 5.0000 0.5401
1.0000 7.0000 1.0267
6.0000 9.0000 1.0581
8.0000 1
您可能关注的文档
- 宜铁工专专业业论文.doc
- 宝安区高三年级四校合检测文科基础试题.doc
- 宝安公园路市政工程道路程监理细则.doc
- 宏观经济计分析理论方法与实务 全套课件.ppt
- 宝宝认之植物.ppt
- 定型安全设施图籍作业导书图片.doc
- 定量分析统计分析法.ppt
- 宝山中学2006~2007学年度高三级生物试卷 第次建档考试.doc
- 宝山低转型论文.doc
- 宝明公司明工资提成奖励办法.doc
- 2024年学校党总支巡察整改专题民主生活会个人对照检查材料3.docx
- 2025年民主生活会个人对照检查发言材料(四个带头).docx
- 县委常委班子2025年专题生活会带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”对照检查材料四个带头:.docx
- 巡察整改专题民主生活会个人对照检查材料5.docx
- 2024年度围绕带头增强党性、严守纪律、砥砺作风方面等“四个方面”自我对照(问题、措施)7.docx
- 2025年度民主生活会领导班子对照检查材料(“四个带头”).docx
- 国企党委书记2025年度民主生活会个人对照检查材料(五个带头).docx
- 带头严守政治纪律和政治规矩,维护党的团结统一等(四个方面)存在的问题整改发言提纲.docx
- 党委书记党组书记2025年带头增强党性、严守纪律、砥砺作风方面等“四个带头”个人对照检查发言材料.docx
- 2025年巡视巡察专题民主生活会对照检查材料.docx
最近下载
- 《ISO 55013-2024 资产管理-数据资产管理指南》解读和实施指导材料(雷泽佳编制-2024).pdf VIP
- 肿瘤放化疗病人并发症护理课件.pptx VIP
- 新概念第一册lesson79.pptx VIP
- 政府采购机票操作手册.pdf VIP
- 二级展开式斜齿圆柱齿轮减速器设计说明书.pdf
- 字节跳动产品运营专员岗面试题库参考答案和答题要点.docx VIP
- 小学英语单词(带音标).pdf VIP
- 字节跳动运营数据分析师岗面试题库参考答案和答题要点.docx VIP
- 八年级数学上册专题15 半角模型证全等(原卷版).docx VIP
- 字节跳动新媒体运营专员岗面试题库参考答案和答题要点.docx VIP
文档评论(0)