数据分析中的统计学知识.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析中的统计学知识 第三次复习概率论与数理统计,希望理解⽐之前更深刻。 仅代表本⼈理解,如果错误欢迎指出。 ⼀、⼤数定理 直观地理解是:当样本的容量⾜够⼤(或者实验的次数⾜够多),样本的均值收敛于总体的均值。 投硬币实验中,设置随机变量X,当投到正⾯时,X=1,投到反⾯时X=0。做10次实验,样本的均值可能为0-1之间的任意值,但是做1000、 10000次实验,X的期望值将接近于0.5。 ⼆、三⼤分布 1. ⼆项分布 独⽴重复n次实验,实验结果只有两种且互斥,假设为成功和失败。成功的概率为p,失败的概率为1-p。则n次实验中n次成功的概率为: image.png 2. 泊松分布 可以由⼆项分布推导⽽来,当实验次数n⾜够⼤,p⾮常⼩时(n=20,p=0.5),⼆项分布可以近似为泊松分布。 举例来说 :单位时间内的车流量可以看作⼀种泊松分布。假设我们通过观察知道⼀个⼩时内的平均车流数:lamda,求⼀⼩时内车流量为k的概 率。 假设⼀种情况 :路上⼀分钟内最多只能有⼀辆车通过,那么在每⼀分钟内,都可以看成⼀次伯努利实验(结果只有⼀辆车通过和没有车通过两 种可能),那么60次实验相当于⼀个n=60的⼆项分布。但是我们的假设可能不太符合现实,⼀分钟内可能有多辆车通过(n太⼩),为了满⾜ ⼆项分布的性质,我们确定⼀个极⼩的时间段,使得在该时间段内,最多只有⼀辆车通过 (即n取得特别⼤),此时单位时间内出现⼀辆车的p 值=lamda\n⾮常⼩。套⽤⼆次项的公式再求极限,可以得到泊松分布的公式 : image.png 3. 正态分布 ⾃然界中最多的⼀种分布,⼆项分布n较⼤时,可近似为正态分布的形状。⼆项分布和泊松分布都是离散分布,⽽正态分布是⼀种连续分布。 三、假设检验 1. 两类错误 第⼀类错误: 弃真错误。本来应该接受原假设,但是由于显著性⽔平α设置过⼤,使得统计量落⼊了拒绝域,从⽽拒绝了原本是真的原假设。 α的减⼩可以减少此类错误的发⽣。 第⼆类错误:取伪错误。本来应该拒绝原假设,但是统计量落⼊了接受域。取伪的概率为β。如图,我们本来应该接受备选假设落⼊黄⾊的区 域内,但是由于抽样误差,落⼊了绿⾊范围,于是接受了原假设,造成了取伪。1-β是避免第⼆类错误的概率,被称为统计功效。 从图中可以看到,α和β是⼀增⼀减的关系,α增⼤,β会减⼩,反之α减⼩,β会增⼤。 减少两类错误的唯⼀办法是:增⼤样本量,使得统计量尽可能消除偶然性。 图源⽹络.png 2. 中⼼极限定理 ⾮常重要的⼀个定理,通俗来说:不论总体服从什么分布,当抽样的样本⾜够⼤时,样本的均值服从正态分布,均值为样本均值,标准差为总 体标准差除以根号n(n为样本容量)。 当样本容量n⼤于30时,可以认为是⼤样本。 3. α值和p值 α值:显著性⽔平,落⼊拒绝域的概率(拒绝原假设的概率),当构造的统计量落在该区域内,拒绝原假设。 p值:在原假设成⽴的情况下,检测统计量⼤于或⼩于具体样本观测值的概率。当这个值⼩于α时,我们拒绝原假设,否则接受。 举例来说:H0:总体均值u=u0 ;H1:总体均值⼩于u0。样本容量⾜够⼤ 第⼀步 :样本容量⾜够⼤,中⼼极限。样本均值服从均值为u0的正态分布,构造z统计量z0; 第⼆步 :算出检测统计量z⼩于z0的概率p(利⽤分布函数算⾯积),发现算出来的p值⼩于α,拒绝原假设。 (可以这样理解 :我们需要把显著性⽔平定到⼩于现 α的⼀个值(p值)才能保证样本观测值落⼊接受域内,说明原假设是不成⽴的。或者说当原 假设成⽴,统计量⼩于或者⼤于观测值是⼀个⾮常⼩的概率事件,说明我们要拒绝原假设) 4. 实际如何应⽤ :ABtest 硬⾻头,待填坑。 image.png AB test是什么:个⼈理解是像⾼中⽣物实验那种确定⼀个对照组和⼀个控制组,对照组实⾏旧⽅案,控制组实⾏新的⽅案。通过抽样和假设 检验,判断两者总体的分布情况,从⽽判断新⽅案实施是否有效,或者效果是否明显。这⾥的假设检验可以对照独⽴分布的两个样本的总体分 布。 难点:样本容量的确定,过⼩则随机

文档评论(0)

139****1921 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档