- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息工程大学 韩中庚 数据建模及MATLAB实现 第3位云滴凝聚抱合程度高。 三、主成分分析 例如,某人要做一件上衣要测量很多尺寸,如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标,但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多 ?而是从多种指标中综合成几个少数的综合指标,做为分类的型号,利用主成分分析将十几项指标综合成3项指标,一项是反映长度的指标,一项是反映胖瘦的指标,一项是反映特体的指标。 一、主成分分析的基本原理 3、 实例演示 前3个标准化样本主成分类及贡献率已达到92.79%,故只需取前三个主成分即可。 练习 城市环境生态化是城市发展的必然趁势,表现为社会、经济、环境与生态全方位的现代化水平,一个符合生态规律的生态城市应该是结构合理、功能高效和关系协调的城市生态系统。所谓结构合理是指适度的人口密度,合理的土地利用,良好的环境质量,充足的绿地系统,完善的基础设施,有效的自然保护;功能高效是指资源的优化配置、物力的经济投入、人力的充分发挥、物流的畅通有序、信息流的快捷;关系协调是指人和自然协调、社会关系协调、城乡协调、资源利用和更新协调。一个城市要实现生态城市的发展目标,关键是在市场经济的体制下逐步改善城市的生态环境质量,防止生态环境质量恶化,因此,对城市的生态环境水平调查评价很有必要。 对江苏省十个城市的生态环境状况进行了调查,得到生态环境指标的指数值,见表1。现对生态环境水平分析和评价。 这样,前三个主成分为 第一主成分贡献率为43.12%,第二主成分贡献率为29.34%,第三主成分贡献率为11.97%,前三个主成分累计贡献率达84.24%。 如果按80% 以上的信息量选取新因子,则可以选取前三个新因子。第一新因子z1 包含的信息量最大为43.12%,它的主要代表变量为X8(城市文明)、X7(生产效率)、X4 (城市绿化),其权重系数分别为0.4815、0.4236、0.4048,反映了这三个变量与生态环境水平密切相关,第二新因子Z2 包含的信息量次之为29.34%,它的主要代表变量为X3(地理结构)、X6(资源配置)、X9 (可持续性),其权重系数分别为0.5299、0.5273、0.4589,第三新因子 Z3包含的信息量为11.97%,代表总量为 X9(可持续性)、 X5(物质还原),权重系数分别为0.5933、0.5664。这些代表变量反映了各自对该新因子作用的大小,它们是生态环境系统中最重要的影响因素。 根据前三个主成分得分,用其贡献率加权,即得十个城市各自的总得分 SVM 应用 近年来SVM 方法已经在图像识别、信号处理和基因图谱识别等方面得到了成功的应用,显示了它的优势。 SVM 通过核函数实现到高维空间的非线性映射,所以适合于解决本质上非线性的分类、回归和密度函数估计等问题。 支持向量方法也为样本分析、因子筛选、信息压缩、知识挖掘和数据修复等提供了新工具。 SVM 应用 一个银行的商业贷款部门的经理想要建立一个规则来决定是否批准各种贷款请求。经理认为在做决策时,一个公司业绩的三个关键特征是非常重要的:资产折现力、盈利能力和活性。这个经理以目前资产和负债比作为资产折现力的度量。盈利能力以净利润和销售额之比度量。活性以销售额和固定资产之比度量。这个经理收集了银行过去5年内所做贷款的18个样本,这些贷款被分为两组:被批准的贷款,以1表示,被拒绝的贷款,以-1表示。试建立该问题分类的SVM模型。 SVM 应用 k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。 它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。这一算法不适合处理离散型属性,但是对于连续型具有较好的聚类效果。 划分聚类方法对数据集进行聚类时包括如下 三个要点: (1)选定某种距离作为数据样本间的相似性度量 上面讲到,k-means聚类算法不适合处理离散型 属性,对连续型属性比较适合。因此在计算数据样本之间的距离时,可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量,其中最常用的是欧式距离。下面我给大家具体介绍一下欧式距离。 假设给定的数据集 ,X中的样本用d个描述属性A1,A2…Ad来表示,并且d个描述属性都是连续型属
文档评论(0)