网站大量收购独家精品文档,联系QQ:2885784924

2015数模提高班专题3--多元统计分析.pptVIP

  1. 1、本文档共91页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2015数模提高班专题3--多元统计分析

2015数学建模提高班 ----多元统计分析之主成分分析专题;大数据分析无处不在!Data mining 美剧《纸牌屋》是美国视频网站Netflix基于大数据投资拍摄的电视剧。随着这个经典案例被越来越频繁地提及,人们开始意识到数据分析对于影视创作的价值,无论从剧本选择、导演演员选择,还是拍摄、后期制作乃至营销,都会产生深刻的影响,近期谷歌也发布了基于搜索大数据的票房预测报告。海量数据的新时代正在改变电影业原有的游戏规则,如何应用大数据提升行业运营效率,开始成为关键。 当然也有反方的声音,比如梦工厂CEO卡森伯格就表示,电影创作要靠创造力,不能仅靠数据分析。 再比如金融产品的精确营销, 对潜在客户的定位分析。 数据分析的目的:分类或聚类、图形图像的恢复与识别、综合评价等;从2014美赛题谈起:;统计分析是数据分析的主要工具 完整的数据分析过程包括 数据的采集(数据可靠性、完备性、相关性,各种数据类型如极大型指标、极小型指标、居中型指标,时变的或静态的等等) 数据的整理 数据的分析(模型的适用性) 统计学为数据分析过程提供了一套完整的科学的方法论。统计软件为数据分析提供了手段。 ; 数据分析整理;整理好的数据具有如下结构:;大数据、云计算,希望从数据中验证某种推断或提炼某种特征。 一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标; 另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律;;在地区或企业经济效益的评价中,涉及的指标往往很多。如给定30个地区的经济发展8项指标: GDP,居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。如何研究经济发展状况和地区差异? 变量太多增加问题的复杂性,也给合理分析问题和解决问题带来困难;虽然每个变量都提供了一定的信息,但其重要性有所不同,在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息有一定的重叠。;大的化学和药品公司生产过程要测量100多个过程变量,包括不同场合下的温度、压力及重量等。如何形象化显示重要变量又能够灵敏检测变异的发生? 所有这些应用背景归结为: 研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。 问题实质均为数据化简、信息浓缩或者说降维,即将分散在多个变量中的同类信息集中、提纯,从而便于分析、解释和利用。;高维数据如何降维且尽可能少损失信息?;主成分分析(Principal Component Analysis, PCA) 用于辨识数据中模式的一种方法(模式识别),目的是突出数据间的相似和差异,而这些特征在高维数据中难以得到(无法给出图形表示); PCA的主要优势是能够处理高维数据,通过减少数据维数实现数据压缩,同时不损失过多的信息;能有效处理“维数灾难”(Curse of Dimensionality)问题; 在图像处理、经济学、统计学等各个领域得到了广泛应用。 ;专题 主成分分析;基于样本的统计指标;(2)方差(variance) 方差用于衡量数据的集中或分散程度,公式为: Matlab命令:var(x) 标准差(standard deviation)是观测值与均值间的平均距离,公式为: Matlab命令:std(x) ;图1.不同方差数据示意图:变异性越大,说明指标对各种场景的遍历性越强,提供的信息越充分,信息量越大。;(3)两个变量的协方差(covariance) 协方差用于衡量数据的协变趋势,公式为: 记为 若 若X和Y的均值为零,协方差 如果X?与Y?是不相关的,二者之间的协方差就是0 matlab命令:cov(x,y) ;P个变量时的协方差矩阵;(4)相关系数(correlation coefficient) 相关系数是对于变量而言,第j个和第k个变量之间的相关系数公式为: 相关系数大小在区间[-1,1]之间,也可写为: (标准化变换不改变相关系数) ;数据预处理:标准化 假定有n组样本,m个变量,其原始数据矩阵X为: 对矩阵进行标准化,其公式为: 从而使得矩阵的每一列均值为0,方差为1 标准化2 ;标准化的优点: 消除数据量纲的影响; 例如: 杭州市的温度:-10~45℃ 大气压力:105Pa 湿度:0%~100% 怎么分析温度、大气压力和湿度对心情的影响? ;矩阵代数 1.特征向量 向量(3, 2)T表示二维平面中从原点(0, 0)指向点(3,2)的一个箭头,而矩阵可以认为是转移矩阵; 经转移矩阵变换后还是自身(倍数)的向量称为矩阵

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档