- 1、本文档共144页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课程名称: 数据挖掘与统计决策 教 师: 廖 芹 Email : maqliao@ 课程简介 教学安排 教学安排 教学安排 一、数据挖掘学科概述 一、数据挖掘学科概述 一、数据挖掘学科概述——信息化发展与数据挖掘 应用案例——地下燃气管道安全状况评价系统主页面 主成分分析---应用案例: 应是Fk,这里的Zk用Fk表示 问题:如何分析“受消费者关注的手机功能”?哪三款手机最受关注(欢迎)?(含已使用和可能使用顾客范围) 主成分分析应用例(二) 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 主成分分析应用例(二)---计算过程 补充 三、数据挖掘方法——主成分/因子分析 问题表述:分别对8个指标变量、107个样本(教材P10数据集)和聚类得到的20个样本进行主成分分析,找出1)贡献率大于85%的主分量,2)主要影响燃气安全评价的两个指标。采用Clementine结果如下: 主成分分析应用——地下燃气管网影响因素分析 三、数据挖掘方法——主成分/因子分析 可以看到,6个主成分对应的特征根分别是2.453,1.284,0.818,0.663,0.536,0.246。第一个主成分贡献率达到40.866%。选择前四个主成分,可以使贡献率达到86.976%。即原来的8维降为4维。由于八个指标中,有两个变量大部分是取值相同,所以实际只是从6维降到4维。 主成分分析应用——地下燃气管网影响因素分析 三、数据挖掘方法——主成分/因子分析 为了获取两个影响的主要指标,可以把模型的最大主成分提取数改为4,然后再进行旋转变换(采用Varimax方法,见下面因子分析),得到更直观的分析结果。 可以看到,由于漏电线密度和土壤腐蚀性是被所有因子(主成份)解析的最多的,影响评价的最重要的两个指标就是漏点线密度和土壤腐蚀性。 主成分分析应用——地下燃气管网影响因素分析 问题:主成分分析提取代表性变量与聚类方法有何区别? 问题:主成分提取后命名不容易,且主成分与每个原始变量的相关程度大小没能反映出来。如何解决这些问题? 因子分析:是主成分方法基础上产生的降维方法。对于多维原始变量中的每一变量,都采用公共因子与特殊因子的线性组合表示。可以更直接解释公共因子的命名和反映原始变量与公共因子的相关程度。因子分析比主成分方法更完善。 引入问题:设具有40门成绩的每一学生综合素质都可以用 德、智、体三个公共因子和特长这样的特殊因子表示,即第i个学生的综合素质为 Xi=ai1*F1+ai2*F2+ai3*F3+Ui 问题:1)公共因子F1、F2、F3如何从40门成绩中求出?如 何命名?如何取值? 2)每学生的综合素质线性组合系数ai1、ai2、ai3 如何求? 三、数据挖掘方法——主成分/因子分析 数理统计第六章P207-214 三、数据挖掘方法——主成分/因子分析 因子模型假设条件:1)原始变量xi是正态随机变量,且已标准化, 即 E(Xi)=0,D(Xi)=1, 2) 公共因子Fi相互独立,且是标准化的,即E(Fi)=0,D(Fi)=1, 3) 特殊因子Ui相互独立,且E(Ui)=0,D(Ui)= ?2, 一般记特殊因子U=?. 4) 公共因子Fi与特殊因子Uj相互独立. 1、因子数确定 P53 三、数据挖掘方法——主成分/因子分析 2、因子分析---因子载荷计算 P55 三、数据挖掘方法——主成分/因子分析 2、因子分析---因子载荷计算 P55 三、数据挖掘方法——主成分/因子分析 3、原始变量与公共因子的相关程度表示 期望与相关系数关系 三、数据挖掘方法——主成分/因子分析 P54 期望与相关系数关系 用因子载荷(线性组合系数)表示原始变量与公因子的相关程度。 为因子命名做准备。 4、因子载荷表示的方差共同度和贡献度 P
文档评论(0)