- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
较大规模数据应用PCA降维的一种方法.doc
较大规模数据应用PCA降维的一种方法
摘要:PCA是一种常用的线性降维方法,但在实际应用中,当数据规模比较大时无法将样本数据全部读入内存进行分析计算。文章提出了一种针对较大规模数据应用PCA进行降维的方法,该方法在不借助Hadoop云计算平台的条件下解决了较大规模数据不能直接降维的问题,实际证明该方法具有很好的应用效果。
关键词:主成分分析;降维;大数据
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)08-1835-03
现实生活中人们往往需要用多变量描述大量的复杂事物和现象,这些变量抽象出来就是高维数据。高维数据提供了有关客观现象极其丰富、详细的信息,但另一方面,数据维数的大幅度提高给随后的数据处理工作带来了前所未有的困难。因此数据降维在许多领域起着越来越重要的作用,通过数据降维可以减轻维数灾难和高维空间中其他不相关属性。所谓数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。
主成分分析(Principal Component Analysis,PCA)是通过对原始变量的相关矩阵或协方差矩阵内部结构的研究,将多个变量转换为少数几个综合变量即主成分,从而达到降维目的的一种常用的线性降维方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。在实际应用中当数据规模超过计算机内存容量(例如16G)时就无法将样本数据全部读入内存来分析原始变量的内部结构,这成为PCA在实际应用中存在的一个问题。该文从描述PCA变换的基本步骤出发,提出了一种不需要Hadoop等云计算平台即可对较大规模数据进行降维的一种方法,实际证明该方法具有很好的应用效果。
1 PCA变换的基本步骤
PCA是对数据进行分析的一种技术,主要用于数据降维,方法是利用投影矩阵将高维数据投影到较低维空间。PCA降维的一般步骤是求取样本矩阵的协方差矩阵,计算协方差矩阵的特征值及其对应的特征向量,由选择出的特征向量构成这个投影矩阵。
[cov(x1,x1),cov(x1,x2),cov(x1,x3),…,cov(x1,xN)cov(x2,x1),cov(x2,x2),cov(x2,x3),…,cov(x2,xN) ?cov(xN,x1),cov(xN,x2),cov(xN,x3),…,cov(xN,xN)] (1)
假设[XM×N]是一个[M×N(MN)],用PCA对[XM×N]进行降维分析,其步骤为:
1)将矩阵[XM×N]特征中心化,计算矩阵[XM×N]的样本的协方差矩阵[CN×N],计算出的协方差矩阵如式(1)所示,式中[xi]代表[XM×N]特征中心化后的第[i]列;
2)计算协方差矩阵[CN×N]的特征向量[e1,e2...eN]和对应的特征值[λ1,λ2...λN],将特征值按从大到小排序;
3)根据特征值大小计算协方差矩阵的贡献率及累计贡献率,计算公式为:
4)根据累计贡献率[Θr]的大小确定投影矩阵的维数[r],其中[r≤n];
5)按从大到小取前[r]个特征值对应的特征向量作为投影矩阵[SN×r],将需要降维的矩阵[XM×N]与投影矩阵[SN×r]相乘,得到降维后的矩阵[TM×r].
2 较大规模数据应用PCA降维的方法
在实际应用中,一般的计算机平台的内存容量有限(例如16G),但当数据规模往往比较大(几十、上百G),这时无法将样本数据全部读入内存来进行计算,这成为PCA降维方法在实际应用中存在的一个问题。通过分析第1部分的PCA降维步骤可以发现,对数据进行降维时最关键的步骤是计算样本数据的协方差矩阵,该文设计了一种应用PCA对较大规模数据降维时求取协方差矩阵的方法,具体方法是:将特征中心化后的样本数据[XM×N]按列([x1,x2...xN])分别存放在不同文件中,分别读取文件[xi]和文件[xj]计算第[i]列[xi]和第[j]列[xj]的协方差[cov(xi,xj)]。因为[CN×N]为对称矩阵,也即[cov(xi,xj)]与[cov(xj,xi)]相等,因此只需计算[CN×N]的上三角矩阵,对应填充下三角矩阵即可。一个循环遍历计算协方差的算法描述如下:
程序需要$1和$2两个输入参数,分别是需要分割文件的列数和和文件名,分割后将按列存放为1.txt、2.txt等等。
2)算法性能
文中第2部分提出的算法主要针对数据增长到一定规模(例如几十G)的时候,无法将全部数据一次性读入内存从而计算协方差矩阵的情况而提出的。算法采取分批读取数据的方式分别计算协方差,需要[N]次遍历,其中[k]值取1时运行时间最长,需要读取[N]
您可能关注的文档
最近下载
- 黑龙江省中药炮制规范及标准 2012年版.pdf VIP
- 2025消防安全知识培训考试试题附答案.docx VIP
- 免维护铅酸蓄电池安装施工方案.pdf VIP
- 2024年新北师大版7年级上册数学课件 第5章 3 第1课时 以几何图形为背景.pptx VIP
- GB50341-2014 立式圆筒形钢制焊接油罐设计规范.docx
- 2.1确定主题 精搜索(课件)-七年级信息科技上册(川教版2024).pptx VIP
- 项目档案管理措施和方法.docx VIP
- 2024年南京社区工作者考试真题及答案.docx
- 导游证考试少数民族知识点整理.pdf VIP
- 2.2在线协作 选素材(课件)-七年级信息科技上册(川教版2024).pptx VIP
原创力文档


文档评论(0)