学习笔记(多元统计方法和应用).docx

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元统计方法及应用 概述 数据预处理 数据分析与处理 数据描述性分析 1、多元统计的研究对象: 针对工程实践中收集的随机数据,采用定量的方法将隐藏在原始数据中的信息提炼出来,找出其中隐含的内在规律。 可以认为多元统计的主要工作是寻找原始数据的内在规律。 具体开展的时候有很多数据处理的方法。 2、主要内容: 数据预处理、回归分析、趋势面分析、聚类分析、判别分析、降维技术(主成分分析、因子分析、相关分析)。 3、回归分析:研究随机变量之间的相关关系。 趋势面分析:定量地研究事物在大范围上的变化规律,也可说是研究事物的变化趋势以及事物在局部范围的特殊性。 聚类分析:采用距离统计量作为分类的依据,将样本聚合成一类。 判别分析:判别分析就是要根据“总体”的已知知识和对待判样品的某些特征指标值,去判断样品应归属于哪一个“总体”。 主成分分析:研究如何将多个特征变量综合成少数几个变量的一种统计方法。 因子分析:因子分析是主成分分析的进一步发展,是一种很好的降维技术,它是用较少个数的公共因子的线性函数和特定因子之和来表达原来观测的每个变量,以便达到合理地解释存在于原始变量间的相关性和简化变量的个数的目的。 4、数理统计学是研究收集数据、分析数据并据以对所研究的问题作出一定的结论的科学和艺术。 多元统计中的原理方法对高等数学、线形代数、概率论与数理统计的综合程度很高。 5、数据是信息的载体。 数据分析方法就是分析和处理数据的理论与方法,从中获得有用的信息(规律)。从这个意义上讲,数据分析不存在固定的解决方法,分析的目的和分析的方法不同,会从同一数据中发掘出各种有用信息。 数据分析与处理的研究内容:采用定量的方法对原始数据进行分析和处理,提取数据中可能蕴含的信息,揭示事物可能存在的规律性。 6、数据预处理包括定性数据定量化和归一化处理。 数据归“1”化处理包括变量的标准化、变量的正规化和变量的规格化。 变量的标准化 设有n个样品,m个特征变量,设第i个样品,第j个变量的观测值为: 由此可构成一个n×m阶矩阵为: 将上式中每个变量 根据以下公式变换,称为标准化: 式中: 标准化后变量的平均值为0,标准离差为1。 变量的正规化 对每个变量施行以下变换,称为正规化: 式中 和 别为第j个变量的最大和最小值。 特点: 变量的规格化 对每个变量施行以下变换,称为规格化: 式中 为第j个变量的最大值。 特点: 7、数据的描述性分析即是从数据出发概括数据特征,主要是包括数据的位置特征、分散性、关联性等数字特征和反映数据整体结构的分布特征; 它是数据分析的第一步,也是数据进行更进一步分析的基础。 8、表示位置的数字特征: 1)均值 均值描述了数据取值的平均位置,平均值是全部数据的代数和除以样本量N。 2)中位数 中位数是描述数据的中心位置的数字特征,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。 3)分位数 对的p(0≤p<1)分位数。 p分位数就是p位置的数. 分位数的延伸——总体分位数 设总体分布F(x)为连续型分布(函数),0p1,称满足的 为总体分布F(x)的p分位数。并且,当n充分大的时候,。 9、表示分散性的数字特征: 1)方差 方差是描述数据取值分散性的一种度量,它是数据相对于平均值的偏差的平方的平均。 方差越小,数据越集中,分散性越差! 标准方差 变异系数(相对分散性,无量纲) 变异系数越小,数据越集中 2)极差 极差是一种较简单的描述数据分散性的数字特征,它是样本中数据的最大值与最小值之差,可表示为: R=xmax-xmin 四分位极差 R1=Q3-Q1 其中Q3为3/4分位数,Q1为1/4分位数。 3)截断点 数据分析中,有一种判断数据异常值的简便方法,定义Q1-1.5R1, Q3+1.5R1分别为数据的下、上截断点,此范围外的数据,一般就视为异常值。 P(Q1-1.5R1xQ3+1.5R1) 10、表示分布形状的数字特征 1)偏度(skewness) 偏度是刻画数据分布对称性的指标: 对称分布的偏度为0,正偏态分布数据的偏度值大于0,负偏态数据的偏度值小于0。 2)峰度(kurtosis) 峰度是以正态分布为标准来描述数据资料的形状为陡峭或者平坦的统计量。 正态分布的峰度值为0;峰度大于0,数据形态较为陡峭;峰度小于0,数据形态较为平坦。 11、大数定律 12、数据分布的主要描述方法是直方图与茎叶图等。 如果数据来自具有概率密度f(x)的总体,以频率除以组距的直方图的边缘线可以作为总体概率密度f(x)的估计。 常用的参数分布类型: 经验分布函数图也就是累计图,也就是说,可以用经验分布函数

文档评论(0)

gl5000 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档