数据分析中的统计学知识.pdfVIP

下载本文档

1
0
约3千字
约 4页
2023-07-24 发布于上海
举报
版权申诉

数据分析中的统计学知识.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析中的统计学知识第三次复习概率论与数理统计，希望理解⽐之前更深刻。仅代表本⼈理解，如果错误欢迎指出。⼀、⼤数定理直观地理解是：当样本的容量⾜够⼤（或者实验的次数⾜够多），样本的均值收敛于总体的均值。投硬币实验中，设置随机变量X，当投到正⾯时，X=1，投到反⾯时X=0。做10次实验，样本的均值可能为0-1之间的任意值，但是做1000、 10000次实验，X的期望值将接近于0.5。⼆、三⼤分布 1. ⼆项分布独⽴重复n次实验，实验结果只有两种且互斥，假设为成功和失败。成功的概率为p，失败的概率为1-p。则n次实验中n次成功的概率为： image.png 2. 泊松分布可以由⼆项分布推导⽽来，当实验次数n⾜够⼤，p⾮常⼩时（n=20，p=0.5)，⼆项分布可以近似为泊松分布。举例来说：单位时间内的车流量可以看作⼀种泊松分布。假设我们通过观察知道⼀个⼩时内的平均车流数：lamda，求⼀⼩时内车流量为k的概率。假设⼀种情况：路上⼀分钟内最多只能有⼀辆车通过，那么在每⼀分钟内，都可以看成⼀次伯努利实验（结果只有⼀辆车通过和没有车通过两种可能），那么60次实验相当于⼀个n=60的⼆项分布。但是我们的假设可能不太符合现实，⼀分钟内可能有多辆车通过(n太⼩），为了满⾜⼆项分布的性质，我们确定⼀个极⼩的时间段，使得在该时间段内，最多只有⼀辆车通过（即n取得特别⼤），此时单位时间内出现⼀辆车的p 值=lamda\n⾮常⼩。套⽤⼆次项的公式再求极限，可以得到泊松分布的公式： image.png 3. 正态分布⾃然界中最多的⼀种分布，⼆项分布n较⼤时，可近似为正态分布的形状。⼆项分布和泊松分布都是离散分布，⽽正态分布是⼀种连续分布。三、假设检验 1. 两类错误第⼀类错误：弃真错误。本来应该接受原假设，但是由于显著性⽔平α设置过⼤，使得统计量落⼊了拒绝域，从⽽拒绝了原本是真的原假设。 α的减⼩可以减少此类错误的发⽣。第⼆类错误：取伪错误。本来应该拒绝原假设，但是统计量落⼊了接受域。取伪的概率为β。如图，我们本来应该接受备选假设落⼊黄⾊的区域内，但是由于抽样误差，落⼊了绿⾊范围，于是接受了原假设，造成了取伪。1-β是避免第⼆类错误的概率，被称为统计功效。从图中可以看到，α和β是⼀增⼀减的关系，α增⼤，β会减⼩，反之α减⼩，β会增⼤。减少两类错误的唯⼀办法是：增⼤样本量，使得统计量尽可能消除偶然性。图源⽹络.png 2. 中⼼极限定理⾮常重要的⼀个定理，通俗来说：不论总体服从什么分布，当抽样的样本⾜够⼤时，样本的均值服从正态分布，均值为样本均值，标准差为总体标准差除以根号n(n为样本容量）。当样本容量n⼤于30时，可以认为是⼤样本。 3. α值和p值 α值：显著性⽔平，落⼊拒绝域的概率（拒绝原假设的概率），当构造的统计量落在该区域内，拒绝原假设。 p值：在原假设成⽴的情况下，检测统计量⼤于或⼩于具体样本观测值的概率。当这个值⼩于α时，我们拒绝原假设，否则接受。举例来说：H0：总体均值u=u0 ；H1：总体均值⼩于u0。样本容量⾜够⼤第⼀步：样本容量⾜够⼤，中⼼极限。样本均值服从均值为u0的正态分布，构造z统计量z0；第⼆步：算出检测统计量z⼩于z0的概率p（利⽤分布函数算⾯积），发现算出来的p值⼩于α，拒绝原假设。（可以这样理解：我们需要把显著性⽔平定到⼩于现 α的⼀个值(p值)才能保证样本观测值落⼊接受域内，说明原假设是不成⽴的。或者说当原假设成⽴，统计量⼩于或者⼤于观测值是⼀个⾮常⼩的概率事件，说明我们要拒绝原假设） 4. 实际如何应⽤：ABtest 硬⾻头，待填坑。 image.png AB test是什么：个⼈理解是像⾼中⽣物实验那种确定⼀个对照组和⼀个控制组，对照组实⾏旧⽅案，控制组实⾏新的⽅案。通过抽样和假设检验，判断两者总体的分布情况，从⽽判断新⽅案实施是否有效，或者效果是否明显。这⾥的假设检验可以对照独⽴分布的两个样本的总体分布。难点：样本容量的确定，过⼩则随机