- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息统计分析期末论文2
省属重点综合性大学
国家“211工程”重点建设院校
xx大学
信息统计分析期末论文
从化学角度探索主成分分析是否名副其实
文章摘要
本文就探索化学上的成分和统计学上主成分的成分有何异同,先后用均匀分布和正态分布随机数来模拟的分子数来得到的原子个数,再利用这些原子个数的数据,通过MATLAB中主成分提取及相关函数来得出几个主成分。最后分析发现这些主成分和实际的化学成分之间的关系很微弱,本文的主成分提取方法不足以提取出化学成分,也说明了MATLAB中的主成分分析尚需改进,以获得另外的主成分,从而可以选择比较好说明问题的主成分。
关键字:主成分 化学成分 尺度问题
If Principal component Analysis is just in name only from the chemistry perspective
Abstract: This article shows several approaches to obtaining approximate solutions to the principal component analysis using MATLAB random number generator, uniform and normal here, and comparison between composition from the chemistry perspective , used here, and components from the Statistics perspective; it also extends some formulators already presented for such problems. When searching the principal components, a lot of problems bring out. It presents us that the method of obtaining an acceptable group of such components is of great difficulty. So a better algorithm is needed.
Keywords:Principal component chemical composition scale problem
一、背景
主成分分析(principal component analysis)K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。原理:是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定的混合液若干份,它们各自的配比不尽相同。为简便起见,采用计算机模拟的方法来获得若干组的已配好溶液,如本次实验将采用三十组的配比,并且假设可以在实验室通过一定方法计算出各种原子的个数,通过提取主成分的方法来最终确定混合液的成分是否是。
三、符号说明
原子个数为个单位,
原子个数为个单位,
原子个数为个单位,
原子个数为个单位,
原子个数为个单位,
主成分用来表示,其中=1:, 为最终确定的主成分的个数。
四、基本算法
1) 主成分分析直观解释和算法
主成分分析主要是用来处理若干个随机变量,如个变量,为了简化它们,我们可以研究能否找出一组新的变量使原来的变量可以用它们来线性表示。应具有如下的性质:
相互之间应该是独立的,并且它们的方差之和与的方差之和相等,的方差从大到小递减;
为保证便于分析与计算,要求他们的模长均为1。
直观的解释为由张出一个线性空间,其任意元素均可由线性表示,即。
具体的解释参看文献【1】
2) 尺度问题
尺度问题是主成分分析的一个重要问题,我们知道在求主成分时首先利用协方差阵进行谱分解,从而来求特征值。如果我们改变某些变量的尺度则会是协方差矩阵改变,因此得到不同的特征值。解决的办法是首先对进行中心化、标准化,使其方差为1,即在实际中使用相关矩阵来代替协方差矩阵。
五、检验过程及结果分析
1)数据模拟
利用0-1均匀分布随机数来获得的配比,即添加分别为 个相对单位的量,产生三十组配比,matlab程序如下:
得到原子的相对单位下的个数如下数据:
O Cl S N 1 4.7094 5.3178 0.8
文档评论(0)