(统计分析读书笔记.docxVIP

下载本文档

43
0
约9.24千字
约 22页
2017-01-30 发布于北京
举报
版权申诉

(统计分析读书笔记.docx

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(统计分析读书笔记

统计分析读书笔记阅读书籍：《R语言与统计分析》、《统计学》概述统计分析分为统计描述和统计推断两部分。描述性分析标准差(Standard Deviation)是样本数据方差的平方根，它衡量的是样本数据的离散程度；标准误是样本均值的标准差，衡量的是样本均值的离散程度。标准误（英文：Standard Error），也称标准误差，即样本均数的标准差（英文：Standard Deviation），是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。描述统计量统计量计算公式含义均值中位数百分位数方差数据取值分散性的一个度量样本方差样本标准差标准误样本均值的标准差，描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度极差偏度系数(Skewness)刻画数据的对称性指标。关于均值对称时为0，右侧更分散时为正；左侧更分散时为负峰度系数(kurtosis)数据的总体分布为正态分布时，接近0；系数为正时，两侧极端数据较多；系数为负时，极端数据较少。离散随机变量随机变量Y是一个定义在样本空间上的数值函数，样本空间中的每个事件都被指派一个Y值。离散随机变量Y是一个仅能取可数个值的变量。离散随机变量Y的概率分布是给出Y的每个可能取值Y=y以及相应概率p(y)的表、图或公式。伯努利(Bernoulli)概率分布/二项概率分布： Y=n次试验中S的次数（每次试验的两个可能结果：S和F）泊松分布Y = 单位时间、面积或体积内稀有事件S发生的次数。随机变量P(y)*m(t)离散（一般）P(y)伯努利Bernoullippq二项binomialnpnpq超几何泊松几何负二项多项负二项分布：表示直至观测到第r次成功时试验（时间单位）的次数。如直到一个设备失效的时间长度；一个顾客排队等候直到得到服务的时间长度。几何：对于r=1的特殊情况连续随机变量连续随机变量Y在区间(-∞,+∞)上的随机变量Y取不可数无穷多个值。累积分布函数F(y)是连续的Y等于任意特定值的概率为0.密度函数?f(y)与p(y)的关系正态概率分布。密度函数为：：是关于寿命长度（如计算机的使用寿命）或等待时间的连续随机变量模型；两种特殊类型，卡方随机变量和指数随机变量正态性检验：QQ图Shaprio-Wilk检验：shaprio.test()卡方(Chi-Square)概率分布威布尔概率分布是表示失效时间的连续随机变量模型型概率分布是落在区间（0,1）上连续随机变量模型。贝塔(Beta,β)分布,be(α,β), 均匀分布二元概率分布及抽样分布统计量的抽样分布：统计量的概率分布中心极限定理：如果n个观察值的随机样本来自有限均值和方差的总体，那么当n充分大时，样本均值的抽样分布可由正态密度函数近似。设来自于有限均值和有限标准差的总体n个观测值的随机样本。那么的抽样分布的均值和标准差，记为，分别是：卡方密度函数：如果n个观察值的随机样本来自有限均值和方差的正态分布，那么的抽样分布式自由度为的卡方密度函数学生氏T分布设Z是标准正态随机变量，是自由度为的卡方随机变量，如果Z与独立，那么称是自由度为的学生氏T分布。F分布如果的卡方随机变量，若是独立的，则称为分子自由度为的F分布。相关分析《统计建模与R语言(上册)》3.4Pearson相关性检验(原假设：不相关)当是二元正态总体，且, 则统计量cov() –协方差矩阵cor() –相关矩阵Kendall秩相关系数：非参数相关分析偏相关分析：参数估计参数估计：在很多实际问题中，总体的分布类型已知但它包含一个或多个参数，总体的分布完全由所含的参数决定，这样就需要对参数作出估计。推断总体参数有两种方法：估计未知参数值或对参数的假设值进行决策。参数估计有两类：点估计；区间估计。无偏：最小方差无偏估计：估计方法矩估计法：用样本矩去估计总体矩矩估计等可以通过前m阶样本矩等于m阶总体矩来求等极大似然法: 随机选取离散随机变量Y的n个观察值y1,y2,…,yn，如果概率分布p(y)是单个参数θ的函数，那么观测到Y的这n个独立值的概率是p(y1,y2,…,yn)=p(y1)p(y2)…p(yn)，称样本值的联合概率为样本的似然函数L，并建议使L达到最大的值为θ的估计值。单正态总体参数(均值、方差)的估计一个置信区间的置信系数等于在抽样前随机区间包含被估参数的概率如：1－α总体均值u的大样本(1-α)100%置信区间：为抽样总体的标准差，n是样本大小，s是样本标准差。N大于30假设：没有，中心极限定理保证无论抽样总体服从什么分布，均近似正态。总体均值u的小样本(1-α)100%置信区间：T为自由度为n－1的学生氏T分布。假设抽样总体近似服从正态分布R函数：t.test()总体方差的估计：设y1,y2,…yn是来自均值为u、方差为的正态分布随机样本，是具有自由度为(n-