- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别与分类 导言 数据预处理 无监督方法 有监督方法 本章作业 模式识别与分类 导言 Clustering/Classification 统称 如下问题 人眼识别物 中医看舌苔/脉搏 图谱辨别化合物 低维与高维数据 一次观察的矢量表示 n为空间维数,变量数变量即特征各特征类型/量纲/大小相差大 模式识别与分类 导言 Some typical classification situations 1 No classes are initially defined to commence the data analysis with a PCA for overview of the data set 2 One class is initially defined one may ask what is the typical data pattern of the class 3 Several classes are initially defined In chemistry this is often called the pattern recognition problem, while statisticians prefer the name discriminant analysis 模式识别与分类 数据预处理 值域调整range scaling 自标度化 Autoscaling 均值0方差1模长 模式识别与分类 主成分分析PCA 因子分析FA 聚类分析clustering 无监督方法 模式识别与分类 PCA 得分score载荷loading d为主成分数 模式识别与分类 PCA 投影判别法 数据重构组成互不相关的新变量 取较少的主成分数(常为2),完成分类 模式识别与分类 PCA实例1 不同嫌疑人头发中元素的含量(μg/g) 样品 Cu Mn Cl Br I 1 9.2 0.30 1730 12.0 3.6 2 12.4 0.39 930 50.0 2.3 3 7.2 0.32 2750 65.3 3.4 4 10.2 0.36 1500 3.4 5.3 5 10.1 0.50 1040 39.2 1.9 6 6.5 0.20 2490 90.0 4.6 7 5.6 0.29 2940 88.0 5.6 8 11.8 0.42 867 43.1 1.5 9 8.5 0.25 1620 5.2 6.2 原始数据X(9×5) autoscaling 计算 相关矩阵 计算 特征值 返回 请直接观测 回答 1 哪个特征 最特征? 2 初步发现 哪3个是一家? 3 启发与思考? 模式识别与分类 得分图 主成分图形解释 PCA实例1 3个聚类分属三人 t1对t2作图 t1最重要 模式识别与分类 主成分图形解释 PCA实例1 相似系数或相关系数表 Cu Cu 1.000 Mn Mn 0.697 1.000 Cl Cl -0.950 -0.692 1.000 Br Br -0.530 -0.233 0.588 1.000 I -0.645 -0.749 0.581 -0.084 相似系数 相关系数 Br/I 接近正交 Cu/Cl 负相关 1:完全相同0:完全正交 自标度化的数据cosα=r 模式识别与分类 得分图 主成分图形解释 PCA实例1 特征的选择 5个全取 取Cu/Br/I 仍能分类 效果略差 取Cu/Mn/Cl 分类效果差 l2无效果 3个λ,仅1个1 2.57,0.38,0.05 一维投影结果 原始数据 模式识别与分类 聚类分析 无监督学习方法 根据相似性度量,物以类聚 分类方法是把未知对象分配到已存在类中 聚类分析步骤 n个样本n类 计算距离 最近的2类合并 继续合并 最近的2类 经n-1次合并 最后成1类 模式识别与分类 聚类分析 距离与相似性度量的方法 明氏Minkowski距离 欧氏Euclidean距离 曼哈顿Manhattan距离city-block距离 模式识别与分类 聚类分析实例 6个血清样本的分级聚类 对象1、2距离最短,聚为新对象1*设其距离为0与其余各对象用平均法或新距离 模式识别与分类 聚类分析实例 6个血清样本的分级聚类 4,6 并4* 4*,5 并5* 1*,3 并3* 模式识别与分类 聚类分析实例 6个血清样本的分级聚类
文档评论(0)